1.引言
科学数据是指人类在认识世界、改造世界的科技活动中所产生的原始性、基础性数据,以及按照不同需求系统加工的数据产品和相关信息。它既包括了社会公益性事业部门开展的大规模观测、探测、调查、实验和综合分析所获得的长期积累与整编的海量数据,也包括国家科技计划项目实施与科技工作者长年累月科学实践所产生的大量数据⑴。社会科学数据对于社会科学领域的实证研究具有重要价值和决定性意义,目前主要集中于经济、社会领域,其中使用最多的有两类数据:_类是国家统计部门的统计数据,另一类是为社会科学研究和相关政策制定提供数据支撑的各种调查数据。
社会科学数据的收集和管理需要耗费巨大的人力、物力以及时间成本,因此对其的共享与服务对国家、研究机构和研究者个人具有重要的意义,能最大化利用现存的社会科学数据,产生更大的研究成果。然而,社会科学数据的共享不同于一般意义上的研究成果或者汇总结果的共享,对原始的社会科学数据进行微观层面的共享需要在国家层面制定相应的鼓励政策,并建立适用的共享平台,制定相应的元数据标准规范,实现原始社会科学数据的深入揭示与J发现。欧美国家很早就意识到社会科学数据管理、|共享与服务的重要性,如美国国家科学基金(Na-tionalScienceFoundation,NSF)规定其资助的项目必须将所有数据进行共享。我国在这方面的工作起步比较晚,规模小,科学成就及其影响力远未形成气候,差距十分明显。这与我国社会科学调查研究长期未得到应有重视、国际交流历史较短不无关系,亟需加强这方面的工作。
2国内外研究进展
欧美国家在社会科学数据的共享与服务方面起步较早,为获取国外最新的研究进展,笔者于2012年9月专门赴美国走访了几所一流的社会科学数据研究机构。同年10月、12月利用教育部CALIS、CADAL管理中心组织的数字图书馆前沿技术国外调研活动,分别对欧洲和澳洲的科学数据研究学术机构进行了实地调研。
美国全国民意调查研究中心(NationalOpinionResearchCenter,NORC)成立于1941年,自1947年起与芝加哥大学合作建设,目前总部设在芝加哥大学。1972年创立的综合社会调查(GeneralSo¬cialSurvey,GSS)是NORC最重要的品牌标志性调查项目,是美国国家科学基金迄今为止支持的最大的社会科学调研项目。除了美国人口普查局的人口普查数据,GSS数据是社会科学领域被分析利用最频繁的数据。据统计,至今已有超过2.2万个研究项目使用了GSS数据,每年有约40万名学生在社会研究相关课程的学习中使用GSS数据[4]。GSS的原始调查数据为SPSS和STADA两种格式,平台采用伯克利大学开发的SDA和挪威的Nesstar系统。
密歇根大学社会研究院(InsliuteforSocialResearch,ISR)成立于1949年,是目前世界上最大的社会科学调查与研究机构。成立于1962年的校际社会科学数据共享联盟(Inter-universityCon¬sortiumforPoliticalandSocialResearch,ICPSR)是ISR下属的一个研究机构,在全球有700多个成员,包括394个美国机构。它的工作包括:获取和存储社科数据、向研究者分发数据、长期保存数据、提供定量方法的培训。ICPSR数据平台为自主开发,在线分析采用伯克利大学的SDA,用Nesstar进行编码本工作。
哈佛一麻省理工数据中心(HarvardMITDataCenterHMDC)是一个由哈佛大学和麻省理工学院联合创建的数据中心,是定量社会科学研究所(TheInstituteforQuantitativeSocialScience,IQSS)的—个成员。Dataverse是HMDC于2007年构建的一个开源软件,能够对研究数据进行发布、引用、存储、发现和在线分析,旨在让研究者创建、提交、监护和传播研究数据。Dataverse的开发与维护以IQSS为主,哈佛大学图书馆、档案馆、信息服务部门共同承建。它使用DDI作为元数据标准,并拥有自己的在线分析模块。Dataverse既可以典藏数据,也可以典藏期刊论文、学位论文,既可以作为研究机构存储或个人研究者发布数据之用,也可以用于制定数据管理计划。
成立于1967年的英国数据档案馆(TheUKDataArchive,UKDA)是—个国际知名的机构,主要负责英国全国范围内数据的搜集、保存、传播和利用,目前收藏了数千个数据集,是英国人文社会科学领域数字化数据最大的收藏中心。UKDA也为其他机构提供数据保存服务,支持国家e-SocialSci¬ence计划,提供国际数据交换服务。
英国信息系统联合委员会(JointInformationSystemsCommittee,JISC)是于1993年4月成立的英国信息共建共享组织[]。JISC的管理研究数据项目通过管理和共享研究数据来提升科学研究活动,包括5大工程。2011年JISC通过调研英国各大科学数据中心,发布了报告《科学数据中心:使用、价值、影响》,阐明数据共享的意义和重要性。
《澳大利亚科学数据管理文件》由澳大利亚政府在2007年制定,旨在规范本国研究所和科研机构的科研行为,与科学数据共享相关的内容分为科研责任和研究数据管理两部分,提供了学术界普遍可接受的全面框架,对科学数据共享提出明确要求。在澳大利亚的大学中,莫纳什大学的科学数据管理计划最为著名。2010年10月,莫纳什大学学术董事会通过了两项核心政策文档:《莫纳什大学研究数据管理制度》和《大学职员与访问学者研究数据管理规程》2011年,研究生院科研委员会提出并批准了一份更为细致的文档:《高等学位研究生研究数据管理规程》11]。在《莫纳什大学研究数据管理战略规划2012—2015》中提出五个战略目标:卓越影响力,世界一流研究数据管理基础设施建设,技巧和知识储备,数据整合和职业化,领导地位与合作,阐述了莫纳什研究数据管理的目的。
国内开始重视并启动科学数据共享与服务是在2000年以后,主要依赖国家科技基础条件平台设施和诸如“863计划”等国家级项目的支撑。其中,科技部于2003年启动的地球系统科学数据共享网是一个致力于数据共享的应用型网站,其主要功能在于对数据集的处理。用户通过邮寄方式申请数据服务,获得审批后可通过ftp等方式获取数据。此外,中国人民大学的中国综合社会调查(ChineseGeneralSocialSurvey,CGSS)是中国第1个全国性、综合性、连续性的大型社会调查项目,从2003年开始至今,每年一次对全国范围内的10000多户家庭中的个人进行调查。CGSS于2007年被国际社会调查合作组织接纳为代表中国的会员单位。在科学数据共享政策制定上,CGSS推动学校在科研项目申请书上加入了有关研究数据必须提供共享服务的条款。北京大学中国社会科学调查中心(Insti¬tuteofSocialScienceSurvey,ISSS)是开展中国社会问题实证研究的跨学科平台,目前承担两个大型社会调查项目中国家庭动态跟踪调查和中国健康养老追踪调查。两个项目的目的均是收集反映我国民生状况的高质量微观数据,用以分析社会民生方面的问题,为政策制定提供依据,同时推动社会、经济、教育等跨学科研究工作。在数据共享服务方面,ISSS组织业界专家学者共享利用这些数据撰写研究报告并提供服务,用户已经超过9000人,目前已经出版六期《中国民生报告》2014年7月召开《中国民生发展报告2014》发布会,会上同时推介2010年的中国家庭动态跟踪调查数据并公开2012年的数据。
通过文献调研发现,国内图情界对科学数据管理主要以理论研究为主,在实践层面以武汉大学图书馆为代表,该馆在CALIS资助下进行了高校科学数据管理标准规范研究,选择Dspace为原型二次开发定制科学数据管理平台,并在二个课题组进行了试点探索。
3主流社会科学数据管理与共享平台
通过网络调研和对美国、欧洲、澳洲的实地调研,笔者发现国内外主流的社会科学数据交换共享平台主要包括以下三种情况:
(1)自建平台:如美国密西根大学的ICPSR;
(2)开源软件:美国MIT的Dspace,康乃尔大学的Fedora,哈佛大学的Dalaverse;
(3)商业软件:欧洲常用的社会科学数据共享平台Nesstar。
除此之外,社会科学数据在线分析平台包括美国伯克利大学的SDA和欧洲的Nesstar。
美国密西根大学ICPSR的社会科学数据共享平台完全根据ICPSR的具体需求而专门定制开发,应用至今已有二十多年的历史,不具有系统移植和二次开发的特性,故本文不再详细介绍,重点对其他几款主流的数据共享平台进行介绍。
DSpace是MIT与HP公司合作开发的数字资产管理系统,它实现了知识资源的收集一保存一发布的一般过程。DSpace具有可扩展的框架结构、层次化的数据模型。目前比较多用于机构库建设,如CALIS三期机构库建设等。
Fedora(FlexibleExtensibleDigitalObjectRe¬positoryArchitecture)即“灵活可扩展的数字对象仓储结构”是由康奈尔大学提出方案,在美国国家科学基金会和美国国防部尖端研究项目机构支持下进行的研究项目,于1997年开始实施。该项目旨在解决内容管理、数字资产管理和数字资源保存等方面的问题,实现系统的通用性。在后续几年中,康奈尔大学和维吉尼亚大学合作,在梅隆基金的支持下,共同开发出符合Fedora体系结构的开放源系统。
Fedora系统自2001年发布1.0版以来,目前已经发布3.6.2版。
哈佛大学Dataverse平台是由哈佛大学IQSS为主导,联合哈佛大学图书馆、档案馆、信息服务部门共同承建的。Dataverse自2007年构建以来,一直用于研究数据或成果的检索、存储、发布以及在线分析。目前全世界使用Dataverse平台的典型机构包括美国、欧盟、丹麦和泰国的高校、学术机构和图书馆等数十家机构。
伯克利大学开发的在线分析软件SDA是一款用于社会科学数据在线分析的软件,它的主要功能体现在以下四个方面:数据分析功能、创造变量功能、数据下载、数据搜索。其中数据分析功能包括频数与交互列表、均值比较、相关矩阵、相关性差异检验、多元回归、逻辑/概率回归等。
Nesstar是数据发布和在线分析的软件系统,处理调查数据、列联表以及文本资源。用户能使用该软件包含的工具在网络上发布自己的数据,并搜索、浏览和分析在线数据。Nesstar的所有者是挪威社会科学数据服务中心(NorwegianSocialScienceDataServices)。目前,Nesslar的用户大约有一百多家机构,并且安装数量正在迅速增长,无论是学术部门还是公共部门,世界各地都在使用Nesstar传播和处理数据。
4复旦大学社会科学数据共享与服务
4.1建设背景
社会科学数据的搜集、提交、保存、管理、共享与利用对于研究者、科研机构、高校、国家均具有重大价值和意义,是促进学术交流、推动学术发展的重要保障。国外知名的社会科学数据中心至今已有五十余年的发展历史,已构建了比较成熟的数据交换共享平台。反观国内,社会科学数据中心起步较晚,针对科研机构产生的社会科学数据的长期保存和共享利用虽有尝试,但仍处于初级阶段,亟待发展。复旦大学社会科学研究中心(FudanUninversityInstitu¬teforSocialResearch,FISR)于2011年成立,拟建立社会科学领域的数据交换共享平台,为全校师生、研究者、学术机构提供数据提交、保存、管理和共享服务,帮助提高研究者个人和社会科学数据中心在国际上的学术地位和影响力,推动人文社会科学的交流与发展,以期能为国家政策的制定提供理论依
据与辅助决策支持。FISR设有学术委员会和国际学术顾问委员会,指导中心业务发展。FISR下设数据服务部、社会调查部和研究部,其中数据服务部的职责主要包括研发与维护社会科学数据共享平台,制定元数据及其著录规则以及推动学校层面制定科学数据共享的支持政策,人员主要来自校图书馆、社会政策学院、计算机学院。
4.2技术选型
在全面、充分调研国内外一流社会科学数据研究学术机构的基础上,复旦大学社会科学数据共享平台(以下简称“复旦数据平台”项目组分析了复旦大学的实际需求,对上文中介绍的国际主流社会科学数据共享平台软件按照自建软件、开源软件和商业软件进行分类,并分别从经济、技术和法律角度进行了可行性分析,重点对各软件平台的系统功能、可否进行二次开发以及系统可维护性进行评估。主要过程如下:
首先,ICPSR的软件平台从二十世纪九十年代发展起来且沿用至今,尽管其软件功能非常贴近复旦数据平台的需求,但由于属于完全的自建平台,其软件架构无法进行第三方移植和二次开发,故首先被剔除。
其次,对余下Dspace、Fedora、Dalaverse和Nesslar四款软件就系统功能比较、二次开发可能性和系统可维护性等进行二轮比较、评估。
在第一轮比较中,Dspace和Fedora属于通用的机构库平台软件,并非针对社会科学数据平台研发,对于研究成果和社会科学数据的描述信息比较简单,没有专门针对社会科学数据的在线分析和评论功能,不能满足需求,首先剔除。第二轮比较在Dalaverse和Nesslar之间进行:功能上Nesstar无开放给研究者和用户的提交数据功能,仅限内部发布数据;其次,Nesstar是商业软件,源代码不开放,不能进行二次开发。Dalaverse在科学数据、基于科学数据的研究成果和衍生出版物的提交、审核、发布、检索、浏览、下载、在线分析等方面相比较更加符合复旦需求,且是开源软件,便于二次开发和系统移植。
由上可见,四款软件中,Dalaverse的功能更完善,软件架构更合理,更易于实现复旦数据平台的建设目标。在元数据支持方面,Dalaverse支持DDI元数据,对科学数据的描述更加全面、完整,具有更好的兼容性和可扩展性,既能够描述宏观数据,也可以深入到数据的微观层面[22]。
4.3复旦社会科学数据共享平台简介
复旦数据平台是一个为研究人员提供数据的访问、长期保管、传播共享以及研究方法学习交流的平台,提供提交、保存、共享、发现、交换、传播复旦大学各研究团队的社会科学数据及其研究成果的服务,其功能主要有:
(1)数据管理:a)科学数据和基于科学数据的研究成果、衍生出版物的提交、审核与发布•’b)科学数据文件格式的校验与转换,例如在上传数据时自动转换为当前主流统计分析软件兼容格式,包括SPSS、Stata、Splus'Rdata等。
(2)数据服务:a)科学数据和基于科学数据的研究成果、衍生出版物的检索、查看、浏览和下载等;b)资源导航、搜索引擎;c)在线分析和数据可视化,如支持时间序列可视化在线分析展示,可以对数据进行重新编码和重新分组,可以进行描述性分析和高级统计分析等。分析结果在浏览器窗口显示。
(3)数据交换:支持基于数据标准协议(如OMI-PMH协议、NeSStar格式协议等)的社会科学数据共享平台与国内外的其他数据共享平台进行后台数据收割和交换。比如复旦数据平台可和哈佛大学、密西根大学等的社会科学数据中心建立数据交换、收割机制。
(4)数据监护:a)对用户按照受限站点访问者、数据贡献者、数据管理员、Dalaverse管理员和Data-verse网络级(DalaverseNetwork,DVN)管理员不同角色进行授权访问数据文件;b)对Dalaverse、课题、文件分别设定不同的访问限制,确保数据安全;c)科学数据的更新等版本配置管理;d)科学数据的监护与长期保存。
从数据管理对象角度看,复旦数据平台基于开源软件Dataverse开发,数据结构包括DVN、Dataverses级、课题级以及文件级,见图1。
通常,一个社会科学数据管理平台可以作为一个独立的DVN存在,下面可以包含一个或者若干个Dalaverse,而个Dalaverse下面可以有个或者多个研究课题或者研究课题集,研究课题(集)下面包含若干个文件,这些文件可以是目录信息、文本文件、数据集文件或者多媒体文件等多种格式文件。
按照服务对象划分,复旦数据平台可以分别为研究机构、研究者个人以及期刊杂志社、档案馆、论文库等机构知识库提供科学数据管理服务,例如可以将个人的研究成果和研究数据存放在Dalaverse,并与个人主页链接,这样可以很好地将个人信息和科学研究关联到一起。
复旦数据平台首页见图2,可以按照资源类型、院系专业或者首字母A—Z等途径浏览和检索科学数据,在数据页面可以对数据文件进行在线分析和数据可视化展示。
4.4共享与服务
复旦数据平台从2012年3月开展需求调研、原型系统测评,2013年1月通过专家论证,开始进行研发,月份与哈佛大学签订合作备忘录,月份投入试运行,目前已经有长三角居民消费与碳排放数据库、新中国历次人口普查分省数据库、中国人口、消费与碳排放数据库等科学数据库进入数据共享平台,共计662余个研究课题,1033个数据文件,初步实现科学数据长期保存和公开获取。在科学数据共享方面初步实现不同课题组和不同数据库之间数据的共享利用,例如复旦能源研究中心和中国人口地理信息系统研究课题组通过共享平台实现了在人口信息GIS系统上整合中国人口、消费与碳排放数据库,形象展示各地区之间的能源分布、流向和碳排放情况。此外,为更好揭示、共享科学数据,建立了基于DDI的元数据著录规范,解决了以往无法有效管理研究数据、研究数据描述不清、元数据不规范等问题,并通过平台实现了规范元数据描述和受限数据安全访问共享的功能,进一步促进了学校科学数据的共享与服务。
2014年6月份,在学校科研部门支持下,平台首页建立了“文科科研”专属资源目录,下设:a)教师风采:已为承担科研项目的1319名教师开通平台服务,建立个人信息、教案课件、科研项目、媒体报道、社会服务、学术活动、研究成果等专属模块;b)科研项目:建立了“文科科研项目”dalaverse,已导入文科科研项目5000余个;c)研究成果:建立了“文科研究成果”dalaverse,已导入学术论文45835余条。
5未来工作
在复旦数据平台已经完成汉化版本和部分功能定制开发的基础上,未来将进一步扩大参与平台试用的用户范围和科学数据库的种类、数量,制作宣传视频材料,开设官微,加强宣传推广力度,让数据共享平台为师生所共知、共建、共享。另一方面,研究学校层面的科研政策保障措施,促进学校制定相应的科学数据共享服务鼓励政策。同时,逐步开展科学数据用户素质教育,培训研究人员科学数据管理的基本技能。