第1篇:江苏网络地方信息资源保存探究
网络地方信息资源是指以网络为载体,反映一个地区经济、文化、社会政治发展的一种信息资源,是本地社会历史沿革的原始记录和历史见证,它具有独特价值,对促进地区经济建设的发展和文化事业的繁荣有着重要的作用。2012年,南京图书馆启动了“江苏省网络地方信息资源典藏项目”,开展江苏地方网络信息资源保存的试验性工作。为了进一步开展江苏地方网络信息保存工作,课题组调查研究了江苏省131家政府网站、65家政府厅局网站及市级部门网站,56家公共图书馆、26家综合类博物馆和76家综合类档案馆网站,44个区县地方党史网站,中国江苏网等23个新闻网站的地方信息内容,对江苏地方网络信息内容分布、类型、特点和存在问题进行了系统分析与研究,对开展江苏网络信息地方保存工作进行了有益探索。
1保存网络地方信息资源图书馆责无旁贷
公共图书馆是一个地区的文献资源保障中心,具有收集人类文化遗产、保存人类文明记忆的社会职能,在数字时代,必须建立涵盖纸本文献、缩微文献、数字资源、网络资源等各种资源类型的图书馆信息资源体系。图书馆有责任有义务长期采集与保存反映本地区政治经济文化等内容的网络地方信息资源,使得一个地区人类文明发展历史得以保存和传承。
20世纪90年代末,网络信息保存问题已经开始引起国外一些组织、机构的关注,图书馆、档案馆、研究机构和商业公司纷纷开始开展网络信息资源相关研究与实践。为了保护与存取与本国和本地区有关的网络珍贵原生数字资源,美国、澳大利亚、英国、日本等国家图书馆均认为开展网络信息保存是图书馆责无旁贷的责任,许多图书馆开展网络信息资源保存的实验项目。
在开展实验项目的基础上,一些发达国家已经开始全面收藏互联网资源。2010年,美国国会图书馆与Twitter在达成了一项协议,收录2006年到2010年4月期间产生的210亿条推文,后来又补充了从那时起直至现在的1500亿条推文。美国国会图书馆认为社交媒体是现代社会重要的沟通和表达方式,是一种新型馆藏资料,“对信件、日记、期刊以及其他馆藏资源形成了补充,有时甚至可以替代后者”[1]。
从2013年开始,英国国家图书馆开始保存互联网上的所有英国网站、电子书、网络新闻和博客,以保存该国的“数字记忆”。澳大利亚国家图书馆将从2016年1月起,获准抓取来自电子书、博客、网站、社交媒体的所有信息,以及在互联网上发布的任何信息。受益于此,澳大利亚国家图书馆将收集到上亿的澳大利亚网页,上万的澳大利亚电子书、期刊和杂志,以及未来将出现的各种新形式的出版物[2]。
世界最大文献服务机构——计算机联合编目中心(OCLC)在2010年研究报告《把握我们的脉搏》中指出,原生数字资源的管理是图书馆资源建设面临重要挑战。目前,OCLC92%成员馆已经开始进行原生数字资源保存工作,另外8%成员馆也正开始进行计划或实施[3]。
我国网络信息保存项目的实践与研究起步于本世纪初,2003年起,中国国家图书馆采集与保存了中国5万个政府网站信息,主要保存了2006—2008三年间我国的重大事件。2002年起,北京大学计算机网络与分布式系统实验室开发建设了“中国Web信息博物馆”,该系统收录了超过75亿的中文网页,它为用户提供完整的历史网页,对于追寻重大历史事件发展进程的全貌有着特殊意义。我国的一些高校图书馆和大型公共图书馆也开展了相关研究与实践工作。
2江苏网络地方信息资源网站选取
江苏地方网络信息资源分布广泛,内容良莠不齐,因此在进行网络地方信息选取时我们确定了3个原则,一是网站创建者、网站内容发布的主体,二是网站内容的权威性、资料性,三是江苏境内网站。依照上述原则,主要选取4种类型网站地方信息内容。
2.1政府网站
政府网站是一个地区政治经济文化发展的窗口,是网络地方信息资源的重要来源,截至2015年7月7日,全国各地区、各部门通过全国政府网站信息报送系统上报的政府网站共85890个,其中地方82674个,国务院部门3216个[4]。
政府网站主要是向全社会宣传和展示政府形象,提供政府系统、权威、详实的法律、法规、部门规章以及规范性政府文件及其准确的解读和分析等,网站提供的内容信息具有相当的权威性和公益性。政府网站的重要职能之一就是提供服务,它是一级政府在各部门信息化建设基础之上,建立起跨部门的、综合的业务应用系统,为提高政府行政效率、改善地方经济社会发展环境搭建平台,对于依法行政、改善与转变政府职能具有重要意义。
江苏省的政府网站共分为三个层次,省级政府网站、省级政府部门网站、区县政府网站。江苏省政府网站一般分为政府网站和政府门户网站两个部分,省级政府部门既有政府网站又有门户网站,而市县区级的政府部门网站与门户网合二为一。各级政府网站名称一致、栏目设置基本一致,一般都设有地方介绍与概况栏目,如“走进江苏、苏州概览、美丽徐州、魅力锡城”等。“走进江苏”,包含江苏概况、经济发展、社会事业、改革开放等内容和统计数据;“镇江概览”中有市情介绍、特色文化资源、城市座标、名胜旅游、市民讲坛等内容。江苏省政府网站的栏目、页面风格等方面比较统一,但各个网站相互独立,信息不能共享[5]。
目前江苏省各级政府共有网站131家,江苏省政府厅局各部门网站共有65家,下属市一级部门网站共893家。江苏省省会城市南京和13个地级市105县区级均建立了信息中心,60多个政府部门的信息机构组成了行业性信息系统,各系统均由省市县区多级网络组成,面向本行业提供信息服务。
2.2图书馆、档案馆、博物馆网站
图书馆、档案馆、博物馆等公藏机构网站上的地方网络信息内容具有很强的资料性与权威性。目前江苏省共有公共图书馆104家,综合类博物馆63家,综合类档案馆共120家,专业类博物馆共53家,综合类城建档案馆有22家。其中共有56家公共图书馆、26家综合类博物馆和76家综合类档案馆有单位网站,网站设有专门介绍当地地情的专题栏目,重点介绍地方文化、历代名人、风景名胜、古迹遗址、特产、旅游服务等内容。
江苏省公共图书馆网站大部分设有地方文献专栏,内容有当地名人、地方文化、地方艺术、名胜古迹、街景、非遗统计、民风民俗、美食等,通过文字、图片、视频进行展示,如南京图书馆有江苏旅游资源库、江苏文化民俗库、江苏文物库、江苏政策法规库;扬州市图书馆有扬州地方法规条例、扬州名人数据库;淮安市图书馆有淮扬美食文化数据库;溧阳市图书馆有溧阳印象等。
博物馆网站上关于地方信息的内容相对单一,主要以各类展览的展板图片展示为主,个别网站设有地方文献资源专栏,如南京市博物馆的印象朝天宫、金陵轶事,常州博物馆的记忆常州,如皋市博物馆的印象如皋等。
档案馆网站中也设有地方专栏,如无锡南长区档案馆的走进南长,分南长概况、自然地理、人文历史、社会经济发展、南长风采等子栏目;南通市档案馆的南通名人、通城变迁等等。部分地区城市建设档案馆内容较为丰富,如南通市城建档案馆的城建历史,沭阳城建档案馆的风土人情、城市历史栏目。
2.3地方党史、地方志网站
地方党史办公室,主要负责当地党史研究,重要党史资料征集整理出版工作;地方志办公室主要负责本地区的自然、社会、政治、经济、文化等方面的文献整理编辑工作。地方党史、地方志网站上的内容具有很强的地方性、史料性和准确性。
江苏省13个省辖市都建有地方党史网站,有44个区县有地方党史网站,网站一般包括编研动态、党史研究、党史著作、党史遗址、党史人物、党史知识、党史大事等内容。如南通市有通州史志网,设有党史编研、史志动态、史苑撷英、人物春秋等9个栏目,详实记录了通州区地方党史情况和党史研究动态。
江苏13个省辖市都建有地方志办公室网站,有45个区县建有地方志网站。如南京地方志网设26个栏目,有新编方志、地情书览、南京年鉴、古籍整理、方志学会等;赣榆史志网设有方志编修、年鉴编纂、徐福文化、赣榆印象等10个栏目,在赣榆印象栏目下设有赣榆概览、赣榆山水、赣榆之最、赣榆人物、赣榆风情5个子栏目,这些内容反映了赣榆县的历史沿革、文化传承、风土人情、人物春秋、风景名胜等内容。
2.4新闻媒体网站
随着数字技术的快速发展和大众传媒功能角色的转变,以网络媒介为代表的新媒体改变了人类信息的传播方式,新闻媒体网站成为人们浏览查阅最多的网站之一。目前江苏省由政府主管、各地新闻报业集团主办的新闻媒体网站目前共有23家,全省13个省辖市,每市基本拥有2个新闻媒体网站。如南京有龙虎网和南报网、无锡有太湖明珠和无锡新传媒。这些地方新闻媒体网站集新闻发布、文化传播、商情互动、信息资讯、公共服务等于一体,贴近网民、贴近现场、贴近市场,具有权威性和区域性特点,已经成为与报纸、广播、电视并列的第四主流媒体。
3江苏网络地方信息资源不足之处
3.1内容广泛但缺少深度,利用率较低
江苏网络地方信息内容广泛,既有大量与人民群众生活密切相关的基础民生信息,又有地方史志、年鉴、地方概览、旅游资料、名录、地图、家谱等史料性内容。如地方概览包括介绍江苏各地风物习俗、风士人情等;旅游资料包括介绍江苏各地风景名胜、古迹遗址、特产、旅游服务等以及江苏籍人士和在江苏工作生活过的各界人士的著作、传记、年谱等。
3.2缺少统一规划和整合,地方信息内容重复建设
由于缺少统一规划与合作,各地政府网站、门户网站、地方旅游网站之间内容重复建设,缺乏共建共享,如宿迁政府网站中走进宿迁栏目里的概览宿迁、宿迁大事记、宿迁年鉴、风土人情,宿迁史志网里中有人文概览、党史记事、宿迁年鉴,宿迁市图书馆网站有风土民情,虽然栏目名称不同,但其中部分内容重复;无锡政府网站中魅力锡城栏目下的无锡年鉴、无锡人文与无锡市史志网中无锡年鉴、无锡人文的内容重复。资源重复建设加大了建设成本,浪费了人力财力。
3.3搜索功能弱,导航系统不完善
由于网站以用户为中心意识不强,不同网站使用的软件不同,所提供的检索途径也不相同,给用户检索与利用地方信息资源带来不便,导航功能也不完善.栏目设置重叠、交叉、或者栏目名称意义不明确,使得用户难以发现需要的信息,有些网站则栏目过于繁多和杂乱,网站导航系统又比较混乱。如金陵图书馆自建资源里的南京地方法律法规数据库,提供简单检索和高级检索方式;常州图书馆的古典文献栏目,就提供书名、作者、出版社检索入口;太仓市图书馆里的太仓历史人物名录数据库提供姓名、字号、生卒年月和生平做检索入口。相同专题地方栏目归属的所在栏目名称不同,给用户查找利用带来不便,也影响到用户的检索利用效率,如南长区档案馆的“南长大事记”归到了“档案业务”,扬州市档案馆将“扬州大事记”归到了“成果介绍”,江都区档案馆将“江都大事记”归到了“服务社会”,宝应县档案馆的“大事记”归到了“新闻中心”。
4江苏网络地方信息资源保存构想
网络地方信息资源分布广泛,类型复杂,形式多样,是一种新型的地方文献信息资源载体,根据江苏省目前网络地方信息资源现状,应当从以下几个方面开展网络地方信息资源建设工作。
4.1提高认识、科学实施,建立全省地方网络信息资源保存体系
多年来,我国制定了相关信息资源建设政策,但是缺少对网络地方信息资源的政策规划。省政府主管部门应当充分认识到网络地方信息保存的重要性,统一规划全省网络信息保存工作,制定相关政策,统筹协调组织有关机构进行分工与合作,引导全省信息行业开展江苏地方网络信息保存工作。
联合国教科文组织在《数字文化遗产保存指导方针》中提出,国家图书馆拥有法定权去获取和保存该国出版的文化遗产。在欧美发达国家,网络资源保存项目的研究与实践都主要是国家级图书馆、联盟组织、专业研究机构等,其中国家级图书馆项目的实施主体,在网络资源保存项目中发挥主导作用。在我省地方网络信息保存体系中,南京图书馆作为省级公共图书馆,应该在江苏地方网络信息保存工作起主要作用,积极推动全省网络地方信息资源保存工作的开展,通过共同合作,建立起江苏省网络地方信息保存体系,成为全省范围内网络地方信息资源保存中心。
4.2加强法律保障、经济保障和行政管理保障,构建全省网络地方信息保存保障机制
网络资源的保存面临着复杂的知识产权问题,需要有相应法律保障版权与知识产权,根据欧盟委员会2006年发布的《关于文化资产的数字化和在线获取及数字保存建议》,欧洲已经有十多个国家制定了相应法规,如法国2006年制定的《关于信息社会版权和相关权利的法律》、意大利2006年制定的《公共文化资源呈缴条例》、2008年德国制定的《向德国国家图书馆缴存出版物条例》和英国2013年生效的《法定缴存图书馆(非印刷品)条例》都增加了数字与网络资源的呈缴内容,规定了数字资源采集与保存的权利与义务。因此,江苏省政府需要尽快制订有关出版物呈缴法规则,明确赋予图书馆采集保存网络资源的法定权利。
网络资源采集需要长期稳定和连续的巨大资金保障,各国项目经费主要来源于基金资助、社会捐赠、政府投入等途径。江苏作为经济大省、文化大省,应该以公共财政投入为主,同时也可吸引更多商业机构和社会团体积极参与,拓宽资金来源渠道,形成多元化资金投入模式,推动我省网络地方信息资源保存工作,使网络信息资源成为我省数字信息资源的重要组成部分。
省政府有关部门需要统一规划全省网络信息保存工作,制订全省统一技术标准,在全省统一标准的框架内开展网络地方信息保存工作。
4.3规范全省网络地方信息资源采集方式,建立全省分级分类和分布式保存体系
网络信息资源采集方式共有全面采集、选择性采集和混合型采集三种方式。全面采集主要保存本国域名或国内以gov.、edu.、org.、等域名注册的网站信息内容;选择性采集是按事件、人物、会议或学术领域等主题保存具有历史、文化和学术价值的网站信息内容;混合性采集方式主要兼具全面采集与选择性采集。在发达国家,除资金比较雄厚的国家或机构采用全面采集方式外,大多数国家与机构主要采用选择性采集方式保存网络信息资源。
江苏网络地方信息资源采集应以选择性采集为主要方式,针对本省的重要事件某一主题有针对性地进行采集;采集范围主要以江苏省各级政府网站、公藏机构网站、新闻媒体网站为主要网站;图书馆要根据采集的内容进行编目并保存,通过相关技术手段进行还原供用户使用。全省网络信息资源保存流程如图1所示:
2012年,南京图书馆成立专门工作小组,开始“江苏省网络地方信息资源典藏项目”建设工作,在文献采集、技术保障和信息存储等方面进行了有益尝试,取得一定成效。主要采集120多家江苏政府网站、门户网站和新闻媒体网站的江苏地方网络信息,以网页模版、保留原文链接、网页快照三种方式呈现,共建立了新闻中心、政务、文化、经济、教育、医药卫生、交通、法律、农业、专题10个频道,频道下分设50多个子栏目。至2014年底,南京图书馆“江苏省网络地方信息资源典藏项目”已采集数据共134934条,达22G容量。该项目积累了地方网络信息保存项目的经验与做法,将在全省起到引领导与示范作用。
江苏省各级图书馆应该结合本馆的方针任务,制订网络地方信息资源建设规划和目标,确定网络资源的建设方法和相关标准。大型图书馆应该设专门机构、安排专人负责网络地方信息资源的建设试验工作,将网络信息资源建设纳入本馆文献资源建设体系之中,使网络信息资源成为江苏省人类文明遗产的重要组成部分,成为江苏经济与文化强省建设的重要信息资源。
作者:全勤等
第2篇:网络信息资源保存研究
随着计算机技术和信息通信技术的飞速发展,网络已成为现代社会的重要组成部分,人们时时刻刻都在网络上发布、浏览、查询信息。这种信息的形式是多样的,内容是复杂的,容量是庞大的。这些信息是文化的痕迹,在一定时间间隔内它的价值是不可估量的。但由于网络信息的动态性特点,这种信息的生命周期却是十分短暂的,据相关机构统计,一个网页的平均生命周期仅有44天,如何高质高效安全稳定的保留这些具有潜在价值的网络信息已经越来越受到国内外相关领域的重视。
一、网络信息资源保存的需求分析
网络信息虽然形式多样、内容繁杂,但它仍是一种数字信息,同数字信息一样必须依赖众多技术、方法、工具和管理机制才能为人们所利用,所以在保存网络信息自身数据的同时,与其相关的技术、方法、工具和管理机制也应一并保存。这样网络信息资源的长期保存就必须满足以下需求:
1.网络信息原始数据的保存。网络信息的生命周期短和存储量庞大的特点,限定了网络信息资源的保存必须采用冗余备份的方式保存。由于现在网页的内容是多种多样的,有文字、图片、声音、图像等内容,其数据模式又大多是服务器/客户端模式,许多内容多是采用服务器请求调用的方式获取,很容易在保存的过程中,只是保存了信息的绝对连接或服务器请求命令。当再次打开保存后数据时很可能就会无法显示。这就要求在保存信息过程中必须将不同类型的信息完整的采集下来,并保证保存信息能被准确完好地读取。
2.网络信息动态联系特征的保存。网络信息具有传统信息所没有的动态性特点,网络信息从类型角度看,多是由脚本数据,表单数据,函数公式,链接数据,数学模型组成,其功能和表现形式多为导航,工具选项,交互式表格等。其显示的内容多根据访问网页第一时间浏览者的需求由服务器动态生成的,并非传统数据一成不变的。换句话说不同的人在网络上查询相同的信息可能得到的结果是完全不同的,但又都是正确的,它反映了信息与信息之间的联系,而这些信息正是现代网络信息的关键所在,比原始信息更重要的不是内容而是信息之间的联系。这种联系的保存是网络信息的难点,而这些信息的丢失将导致网络信息的灵魂消失。
3.网络信息属性的保存。网络信息的属性包括:出处,时间,作者,来源,性质,类别,关键字等等。通过这些信息的保存能追溯相关信息的来源与历史,确认信息的真实、可信和完整性。同时,可通过此种方式针对现代网络信息进行信息查重、内容校验、身份认证、版本演变、知识产权认定。所以,保存网络信息的属性,对于真实、完整地保存网络信息是十分必要的。
4.信息类型与处理标准的保存。随着网络技术的不断发展,新技术,新标准,新类型,新模型不断涌现,同时,旧的标准也在不断被替代,由于网络信息资源的多样性,在进行保存的过程当中,不同时期的网络信息中的信息编码、字符格式、网络标记、体系结构、压缩方式、加密算法等方面的技术标准是不同的,要确保在一定时间跨度上不同网络信息的可识别和解析,就必须记录保存当时网络信息资源的信息类型和处理标准。
5.网络信息管理机制的保存。虽然,网络信息被保存了,但这些信息的使用原则是不相同的,这决定于网络信息的属性以及与之相对应的管理机制,比如:知识产权管理机制、信息安全机制、保密等级机制、屏蔽原则等等。这些是网络信息鉴别分析、合法使用的前提,是网络信息资源存储的可持续进行的基础。
二、网络信息资源保存过程
1.网络信息资源的采集。面对庞大的网络信息资源的采集,首先要划定信息收集的范围。通常情况下各国采集与本国有关的重要信息,范围条件包括:服务器的物理地址在本国;由本国组织、公民创作拥有;国家顶级域名;使用本国官方语言;研究价值;公众的关注度等。根据范围条件通过专门的采集软件对网络资源综合地进行采集。此外网络信息是在不断变化的,这就要求对于已采信息一段时间间隔后需要重新采集,以保证数据的连贯性。实践中可以发现有的网站内容更新较稳定,很少时时更新,更新周期较长;而有些网站特别是新闻网站,跟新速度极高。所以针对于不同的网络信息资源信息更新的时间概率应采用不同的间隔标准。
1)收到信息的甄别:采集的数据还要进行替旧和查重,替旧主要是在数据的再次采集的过程中发现数据较以前有修改,就记下修改信息并将信息更新为现有信息。查重是指在网页的采集过程中,网络信息的网址虽然不同但其内部的内容却是一样的,对于这样的信息,只需要记录简单的网址信息,而不需要记录全部的网络信息了。
2)甄别后信息的数据分离:在确定了要保存的信息资源后,数据还不能马上保存,还要进行数据的分离。从资源中分离出信息原始数据、动态联系特征、信息属性、信息类型与处理标准、信息管理机制。这是因为网络信息资源的价值不仅仅只局限于网络信息资源的内容本身,还包括这些网络信息资源形成的规则与机制。而且这些信息资源的规则和机制的价值往往远高于信息资源本身的价值。
2.网络信息资源的分级保存原则与介质选择。面对不断变化迅速增多的大量网络信息,完全保存是不可能的,即使已经进行了划定范围采集其数据量的庞大也是难以想象的。如何利用有限资源对网络信息进行,稳定高效安全的信息保存是十分必要的。对将保存信息依据研究价值、保存时效、数据位置的信息进行分级保存。比如:研究价值越高、保存时效越短、数据位置越趋近于普通用户主机的数据需要进行归档级的数据保存。采用专用的服务器集群保存,为数据集成做初步的数据保存,并在适当的时机对相应的数据信息进行数据挖掘,得出的规则进行永久保留,并应用到相应的网络信息资源保存的采集框架中;研究价值高、保存时效长、数据位置趋近于服务器的数据一般采用分布服务级。根据数据的物理位置选择最近的符合网络信息资源保存框架协议的分布式服务器进行保存;研究价值低、保存时效短、数据位置越趋近于普通用户主机的数据可以采用镜像级的数据保存。对于这类数据可采用只在附近的分布式服务器保存文件内容的方式;研究价值低、保存时效长数据位置趋近与服务器的数据可采用链接级。主要通过服务器集群记录相应数据资源的网络链接,并形成统一的查询目录,也可将目录分类或分布保存;研究价值低、保存时效长、数据位置越趋近于普通用户主机的数据可以采用检索工具级的数据保存。采用网络服务提供商的搜索引擎进行检索,可将检索指向相应的服务提供商,不保存相关数据,只记录服务提供商。
3.实现查询访问与管理。对于保存的数据其数据量和复杂性是十分巨大的,必须在消除数据的异性异构后,进行相应的分类,将一个庞大的数据库分成若干个相互独立的数据集合体,并对信息进行目录化管理,并建立统一的语义分解查询接口,以便提高相应的查询效率。在资源访问上,通过统一的语义分解查询接口可实现对不同分布数据的访问,同时针对访问的内容和所具备的查询权限进行匹配,否则只能访问标题类目。
网络信息资源是一种文化资源,网络信息资源保存是一种社会公共事业,它结构体系的复杂程度、信息的庞大程度以及增长速度远不是一个企业、一个联盟所能承受的。必须通过有效的管理才能将这个体系构建起来。首先就是统一的体系标准,应由一定级别的政府组织相关部门形成统一的采集标准、保存策略、保存标准、分布原则、分级原则、权限划分,责任关系和合作框架,并形成相关法规,并从组织上保证法规的贯彻执行。
作者:杨威
第3篇:网络信息资源长期保存的问题分析
网络信息以呈现随机无序、爆炸式的指数增长,具有易逝性,网络信息资源的大量流逝问题(网络信息的存在周期为44天)引起了多方问题,如:教学中网址链接在使用时过期、网络虚拟遗产纠纷、游戏系统消失造成玩家经济和精神上的损失、人类社会的网络历史遗产的消失等问题,这些情况逐渐引起了各方关注。图书部门在对网络图书进行管理时,也管理了网络资源库中的一次文献、二次文献、灰色文献,通过对这些文献进行数据库建设并长期保存,随后开始进行网络出版物的保存和数据挖掘。创建信息资源或多种资源数据库是一种数字资源的档案化管理。这项工作做的比较好的是图书管理部门,其还协同法律、经济以及情报等多个部门参与工作,从而引起了多方对网络资源的重视。
1网络信息资源长期保存问题产生的背景
大數据时代,网络信息资源多格式存在,多渠道、爆炸式产生和增长,这为社会生活多方面提供了信息便利。但网络资源并不是任意获取,而是分等级的被人们获取,比如一次文献、二次文献或者灰色文献,政府网站中的政令信息、个人博客等。通过应用和总结,网络资源成膨胀式、难收集、难检索、易逝性呈现并消亡,因此许多有价值的网络信息资源亟待专人负责收集和保存。
网络资源的特点决定了人们开始重视网络资源,重视对网络资源的开发来发挥其应有的作用,从而在大数据环境下为知识管理、信息挖掘提供资源。现在任何人都可以制作信息,个性化和全民性的信息生产多样化,已经无法控制。
2网络信息资源长期保存概念的界定
易混淆的概念主要有两个:一是客体方向,对客体界定的不明确;二是主体行为,即是主攻保存还是主攻利用。在客体方面,主要的表达方式集中在以下几个关键词上:数字资源、数字遗产、网络信息资源、网络资源。
2.1对客体概念辨析
数字资源是文献信息的表现形式之一,是将计算机技术、多媒体技术和通信技术融合而形成的以数字形式发布、存取和利用的信息资源总和。简单理解为基于计算机的信息资源总和。
数字遗产是指互联网上的数字文化遗产,即以互联网为承载形态的文字作品、资料、图片和影音形成一种文化传承的遗产,也就是现在互联网上的读书频道、文化频道、博客、论坛、BBS以及空间等里面涉及的创作、记录等内容。数字遗产——互联网上的文章、资料、图片和影音的保存,基本上都处于“不稳定”状态,一旦遭到来自非用户操作的删除、更改,甚至商业网站亏损倒闭后,个人空间就会被注销,内容就会受到不可逆转的毁灭。
网络信息资源是指通过计算机网络可以利用的各种信息资源的总和。其具体是指所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。
网络资源的外延更大一些,它除了信息资源外,还延伸到信息资源的引申资源,涉及关系网络和社群网络。而网络信息资源更偏向情报信息,与通过互联网获取的信息资源相比较而言,网络信息资源内涵于网络资源,网络资源是利用计算机系统通过通信设备传播和网络软件管理的信息资源。
2.2对主体行为的理解
网络信息资源存档会同网络信息资源长期保存这个概念相混淆。两者是相近但不相同的两个概念,双方都涉及网络资源以及网络资源的长期存取,即有关信息的共享问题。但是网络信息资源存档(WA)更注重对网络信息资源资源的建档和档案化管理。网络资源存档的内涵:有关主体有选择性地对具有长远保存价值的网络信息进行捕获、归档、存储等档案化管理过程,其基本目标是通过网络信息资源的存档,更全面、真实的反映和再现社会活动的本来面貌,并满足相关主体对网络信息的长远利用需求。具体有以下四点:一是WA的目的是再现社会活动的本来面貌,实现网络信息的长期保存和利用。二是WA的行为主体具有多样性。三是WA行为具有高度选择性。四是WA的行为程序具有规范性。笔者更倾向将WA定义为一种对网络信息资源档案化管理的行为。学界网络资源存档的理解还有:认为WA是一种对网页进行网页快照的行为。笔者认为网页快照无法满足多种格式的要求,目前视频和视频直播已成为网络较火的一种信息资源,这就是网页快照无法做到的。
3档案部门应对网络信息长期保存的措施
3.1从国家战略层面重视
从国家宏观战略方向看,笔者认为国家档案部门应采用顶层设计,统一领导,分层管理的方式来建设我国的网络信息资源保存项目。同时,对国外具有保存价值的网络信息资源有选择性的进行保存和研究。
3.2在政策上进行探索
当前,档案信息化建设也将许多档案信息资源上传到网络上,因此,这就更加给网络信息资源的保存增加了压力。政策上的保障是其前提,也是指引方向的引路灯。下面提出一些笔者的建议。
从内容上,可借鉴我国台湾地区的WebArchive做法,台湾网络典藏项目针对各级政府网站、教育及学术机关网站(研究机构、社会教育机构及大专院校及所属系所网站)、图书馆网站(各大专院校图书馆、专门图书馆、公共图书馆、图书咨询学研究单位及图书馆团体网站)、重大社会议题网站(以政治、经济、文化等各个领域社会重大议题为向导,收藏与该议题论述相关的网站,如:环境保护、教育改革、媒体改革、金融改革、土地规划、全民反恐以及公民投票等)构建了一个庞大的、体系化的政府工作网络,该网络更便于政府各部门之间的互联、互通,在提高效率的同时,更好的服务群众。
从格式上,通过对文字格式、视频、音频、游戏服务器等的保存,进行项目编目,除采用存储器阵列等方式,还可以开发新型存储器等。这些可以学习国外先进科技,也可以参考其他国类似的项目。
3.3在运行中寻求协作
网络信息资源存档保存,既需要档案部门率先引领,同时也需要计算机技术部门的配合,技术难题是攻坚克难的关键。不仅如此,法律、标准、政策、企业等都需要协同进来。因为这一项目的成功应用,将会对社会生产和管理、经营带来不小的变革,因此需要这些部门共同努力。
4网络信息资源长期保存存在的问题
4.1对WebArchive的重视和认识程度不足
许多游戏网站在运营十多年后,往往面临关闭服务器的境况。而该服务器的玩家却还在享受游戏带来的乐趣,当关闭服务器后,这类资源将面临永远消失的状况,如果WA项目忽视了此类资源,是否是对人类遗产的一大缺失。在21世纪的某些阶段,人类行为缺少了合理的解释,是因为未对当时网络信息资源的原生资源进行存档保存。因此,重视和重新认识网络信息资源,并对其进行档案化保存是一种对全人类记忆负责的表现,这些只是笔者了解到的某一种情况。对于政府机构、企事业单位来讲,都建设有自己的网站,对网站内容会进行及时更新,做好宣传,同时单位内部的业务也会通过网站进行沟通,这些原生的网络信息资源若不加以及时保存,待到查考时,将无从下手。
4.2资金投入少
技术和管理的革新,资金投入是硬性指标。只有大量的资金支持,才能在硬件更新上配备最好的设备。对于企业或政府而言,这类投入想要在短期内盈利,怕是很困难的。通常这种投入都伴随着时间而增长,很少有投资者能够具有前瞻性的看到长期投入对整体运作的意义,许多投资者和决策者很难做到有前瞻性的去审视对本企业的信息资源进行投入,更难看到这种投入的回报在生产和经营领域的贡献。
4.3技术含量低
网络信息资源存档保存所应用的计算机软件和开发软件形成的系统平台伴随着IT技术的不断翻新,需要不断更新。但是这目前在我国很难做到,因为许多档案尚属于国家非盈利部门,属于经营性企业的档案和网络信息资源也很难获得企业和部门的资金投入,这样就更难获得技术投入,许多部门的检索功能还停留在人工纸质和手动阶段。在技术方面我国较国外稍弱一些,但相信在借鉴他国发展历程并进行我国自主研发后,技术问题将迎刃而解,且指日可待。
4.4归档权限模糊
法律责任分配问题探讨至今尚无定论,相关人员需进一步同法律部门进行研究讨论。
作者:孙辉
第4篇:试论网络信息资源长期保存的若干问题
相对于以纸张等载体存在的传统信息资源,以数字介质为载体的网络信息资源具有数量规模更加庞大、产生速度更快、获取更加充分快捷等特色,从而为人们使用信息提供了极大的便利性。但是,网络信息更新频繁、生命周期短、不易永久保存的特点,使其在不知不觉中大量地流失。2001年和2002年,联合国教科文组织(UNESCO)相继发布《数字文化遗产保护纲领(草案)》、《数字文化遗产保护指导方针》两份文件,旨在提供与数字文化遗产保护有关的重要步骤的参考,并指出网络信息资源作为人类的重要文化遗产应当得到妥善保存。本文仅就网络信息资源长期保存涉及的几个问题作初步探讨。
一、网络信息资源长期保存的难点
1.对载体的寿命的依赖性。网络信息长期存取是以磁介质为载体的软盘、光盘、硬盘等,载体的寿命的长短决定着信息的可利用性。一方面,软盘、光盘、硬盘等载体的寿命明显短于纸质载体。据研究报道,9mm磁道磁带使用寿命为一至二年,8mm磁道磁带使用寿命为五至十年,4mm磁带为十年,WORM光盘为一百年。另一方面,软盘、光盘、硬盘等载体对保存环境条件要求较高,包括恒温、无磁场、湿度合适、无灰尘、无强光照射等,载体容易受到物理因素的干扰而损坏、变质与灭失。
2.保存技术的过时换代性。用来保存网络信息资源的技术不仅复杂,而且更新较快,这可能导致以旧的格式存储的信息不再可用。美国数字信息归档特别工作组曾在有关报告中指出:尽管数据的丢失与存储载体的变质有很大的关系,但主要问题是因软件与硬件技术的迅速更新,当设再配套。有资料报道,在技术与市场的推动下,记录与储存数字资源的设备与软件大约每二三年就完成一个更新周期。所以,相对于载体寿命,技术过时对于网络信息资源长期保存是个更具有挑战性的问题。
3.信息存储格式的多样性。网络信息资源以多种格式存在,对其长期保存的不利影响主要体现在两个方面。其一,信息存储格式如果同保存单位的软硬件条件不配套或不兼容,那么这些信息就无法得到长期保存。其二,保存网络信息资源的格式极不统一,包括PDF格式、SGML格式、XML格式、WDL格式、REF格式、WORD格式、MPEG格式、HTML格式等,仅Raster影像扫描格式就达数十种之多。网络信息资源的存储格式越多,对保存设备和技术的要求就越高,保存的难度就会越大。
4.网络信息的动态变化性。当信息以纸质载体得到固定后,就会固定不变,而网络信息资源则不同,时刻处于动态的变化之中,这给捕捉和保存带来了困难。比如,有学者运用“著录中析出部分+出处部分”和“著录析出部分+出处部分+引用日期”两种形式随机抽查了《中国图书馆学报》、《情报学报》、《TheLibraryQuarterly》等十种中外图书馆学情报学期刊2002年第一期中的10条网络引文,结果仅有4条能够重现原文。在这之中,未能重现原文的情况也不尽相同,有连网页都无法链接者;有所引文献荡然无存者。就是能查到所引文献,也颇费周折。况且这些文献的寿命如何是难以预料的。
5.信息保存的著作权问题。保存以纸质载体存在的文献信息通常不受著作权的限制。因为,这种行为在各国著作权法中属于合理使用。尽管出于保存目的而复制以数字载体存在的信息资源亦往往被法律认可,但是适用条件却是不同的。其一,将网络信息资源从旧的格式转移到新的软硬件环境之中时,可能会出现代码、格式、结构、标记等的转换和新的元数据的析取,出现外观、感觉、功能、超文本甚至内容的缺失,从而涉及保护作品完整权、修改权、信息管理权等著作权问题。其二,对网络信息资源保存的合理使用规则复杂而不确定,法律风险相对较大。
二、网络信息资源长期保存的策略
1.完全性收集策略。完全性收集策略,又称总括性收集策略,是对所有类型的网络信息资源的全部收集,有人形象地比喻成“一网打尽”。由于通过人工对网络信息资源进行全部收集是无法做到的,因此通常靠相关计算机软件来自动完成。比如,爬虫程序能把“爬”过的网络文献的每一页都抓到服务器中,并且自动管理。采用完全性收集策略的网络信息资源保存项目有瑞典的Kulturarw项目、奥地利的联机归档系统(TheAustrianOnline,AOLA)以及美国国会的Internet档案馆协议项目等。完全性收集的特点是节省人力、效率高,收集到的信息的系统性、全面性较强。但是,完全性收集策略在很大程度上是迫于无法准确判断信息价值大小的无奈选择,所以可能收集到很多无用信息或者垃圾信息,并占用大量的存储空间。同时,由于无法在收集信息前向每一位权利人取得授权,因此著作权限制问题会比较明显。完全性收集策略对深层次的网页信息、不可见网页信息、动态信息的收集也具有局限性。
2.部分性收集策略。部分性收集策略,又称选择性收集策略。这种收集模式只收集某个学科、专业,或者特定专题的网络信息资源,针对性、实用性较强。采用部分性收集策略的代表项目如美国著名的NDIIPP项目、澳大利亚的PANDORA项目、英国的Britainontheweb项目等。部分性收集策略建立在对网络信息资源价值的判断之上,因此“收集标准”的制定就成为影响这种策略实施效果最主要的问题。美国著名的NDIIPP项目对数字资源的选择标准是:现在或将来,能够满足国会和研究者需求的信息;内容独特的信息;具有学术内容的信息;处于丧失风险中的信息;流通的信息。在此标准下的数字资源的特性可以归纳为:有用性、唯一性/独特性、学术性、风险性和流通性。部分性收集策略的不足是无法对网络信息资源的未来价值作出准确预判,而且对特定网络信息资源的发现、跟踪、定位、调整也非易事,被收集到的信息的覆盖率也往往不高。
3.兼顾性收集策略。兼顾性收集策略,又称混合性收集策略。这种收集策略把完全性收集策略、部分性收集策略结合起来运用,做到优势互补、相得益彰。采用兼顾性收集策略的典型项目是丹麦的WebArchive计划、捷克的WebArchive等。比如,丹麦的WebArchive计划从2005年7月起,每年对丹麦的所有网站进行四次采集,同时还选择80个左右的重点网站进行频繁采集,每年还针对两三个重要事件进行主题采集。属于兼顾性收集策略的模式还有“优先爬行”与“集中爬行”相结合、推送模型和拉取模型相结合等。
三、网络信息资源长期保存的责任主体
1.图书馆。联合国教科文组织的《数字文化遗产保护指导方针》指出:尽管数字保存必须在合作的基础上进行,但是要有相应的机构承担领导职责。还有的国际组织在文件中指出:国家图书馆是获取和保存网络信息资源的最佳场所。图书馆在各国网络信息资源长期保存中的确发挥了主力和主导作用。比如,英国的CEDARS项目由JISC资助,牛津大学图书馆、剑桥大学图书馆、里兹大学图书馆参加,目的是研究数字信息长期存取的战略框架与具体方法,建立分布式长期存储系统。又比如,2004年6月启动的英国网络信息长期保存联盟计划(UKWAC)的合作单位由大英图书馆、威尔士图书馆、韦尔科姆图书馆等六个机构组成,旨在对英国网站信息进行选择性地保存。还比如,美国数字图书馆联合会(DLF)的组成单位包括大学图书馆、国会图书馆、加利福尼亚数字图书馆和洛杉矶国家试验研究图书馆,目的是通过多种方式支持其他责任主体保存网络信息资源的活动。
2.档案馆。相对于图书馆等文献机构,档案馆的收藏更能反映历史的完整性、原貌与发展轨迹。因此,档案馆在网络信息资源长期保存中担负着重要的职责。比如,1991年5月,瑞士、挪威、芬兰、冰岛等北欧国家档案馆就通过合作调研出版了《电子文件存取与保护》一书。有学者认为,这是对网络信息资源合作保存的开端。又比如,1992年3月,澳大利亚举办了“澳大利亚已记录的文化遗产的存取”的全国会议,组建了由澳大利亚国家档案馆、澳大利亚国家音像档案馆等组成的专题调查组(TF2001调研组),研究重点是数字信息的长期存取与保护。还比如,1996年,美国建立了Internet档案馆,收集和保存Web信息,容量每月增加10TB。2001年1月,美国国家档案文件署(NARA)要求所有的联邦机构对他们的公共站点进行快照。PRESTO项目由英国、意大利、法国的三家最大的广播资料档案馆发起,目的是探讨降低保存音视频资料成本的方法。而在英国,95%的政府记录以电子形式提供,这些原生记录存储和保存在国家档案馆。
3.其他主体。在实践中,从事网络信息资源长期保存的主体非常广泛。其一,出版商。比如,牛津大学出版社、美国地球物理协会和美国物理协会出版社等都对自己出版的重要数字信息产品进行保存。其二,信息中心。比如,德国的Probado项目由几所大学的信息中心联合开发,项目关注的领域是除文本文档以外的复杂文档,成果主要应用于音乐、3D图形、多媒体学习等方向。其三,科研机构。比如,启动于2001年11月的ERPANET项目,由来自英国、荷兰、意大利与瑞士的科研机构合作,目的是建立一个可扩展并能自我持续发展的欧洲启动项目,成为保存文化遗产和科学数字对象领域的虚拟数据交换中心与知识存储库。其四,高等学校。比如,CAMiLEON是英国利兹大学和美国密西根大学的合作项目,主要是对迁移技术和仿真技术进行比较研究。其五,学术团体。比如,美国网络大学政治和社会研究协会(TCPSR)正在从事收集和保存经济调查的数据研究,美国天体物理研究中心开发了保存天体物理学数据的系统。此外,参与网络信息资源长期保存的主体还有国家的商务部门、政策制定部门、企业、私人组织、数字产品经销商、基金会等等。
作者:李云