1.文献计量学的理论
中国早在数年前就提出“科教兴国”的战略口号,邓小平同志也说“科技是第一生产力”,江泽民同志“三个代表”重要思想更是强调“共产党人必须是先进文化的代表”,而学术期刊是科技及先进文化的载体,面对世界经济日趋一体化的趋势,面对信息通讯技术及信息处理现代化方式日臻完善的今天,作为载体的学术期刊就应先行一步,高瞻远瞩这是形势使然。
科学技术研究的最终结果主要表现在发表科技论文、科技成果获奖和取得社会与经济效益三个方面。科技论文一般指在专业学术刊物上公开发表、具有一定学术水平的研究性论文,它是科技活动和科技成果的主要表现形式,是科学研究最直接产出形式之一。科技论文的数量和质量,一定程度上反映了科学研究的成果和效率,特别是论文的水平,是评价一个国家、一个单位以及科研人员科技能力和水平的一项重要指标。通过对科技论文的定量分析进而对科技产出能力和科技水平进行整体评价,国内外管理人员进行了许多有益的研究和尝试,如利用模糊数学模型分析等方法。其中,文献计量学分析方法是近年来广泛应用的定量分析方法之一。
文献计量学是一门新兴学科。它从定量的角度出发,采用数学、统计学等计量方法,通过对文献特征的统计分析,来研究文献体系的分布、结构、数量关系和定量管理,进而探讨文献的变化规律和科学管理。近几年来,文献计量学的研究成果被广泛应用于情报学以外的科学技术领域中,其中一个重要方面就是将文献计量学指标用于科学技术生产效率的评价,使决策者可以对科技研究进行有效的定量化管理。简单的文献计量学指标,例如出版著作数、发表论文数、被引用次数等等,已经被广泛应用于部门中作为考核、奖惩、晋升职工的评估依据。这些简单指标的组合,就可以评价大学、研究所、工业公司以至整个国家的科技水平与影响能力。在近10年中,文献计量学得到了很大的发展,取得了许多成果,各方面更趋成熟,研究层次更趋深入,定量化描述的手段与方法也日益改善。同时寻求更系统全面的数据集合,更现代化的文献数据处理手段,最终有效地指导文献情报工作。
近几年来,文献计量学的应用范围不断拓宽,应用研究的力度明显加大,特别是在科技管理与决策中的应用越来越受到有关领导部门和研究者的重视。国外对此十分重视,例如,美国、英国、匈牙利、印度等许多国家不仅把文献计量指标作为科学计量学指标体系中的重要组成部分,而且还从管理的高度,认为它是衡量一个国家科学文化水平乃至综合国力的一种重要途径和有效方法。早在20世纪60年代,美国就开始编制《科学引文索引》(SCI)。这一大型索引的出版和发行,为文献计量学研究提供了一种多功能的有力工具,一定程度上解决了文献计量学应用所必需的大量数据,有效地推动了文献计量学的全面发展,被誉为文献计量学史上具有划时代意义的研究成果。可以说,没有SCI就没有现代的文献计量学。我国著名学者赵红洲、蒋国华等人曾经利用文献计量方法,排出了我国主要大学发表论文的名次,并以“学术榜”的名义在报纸上公布后,引起了社会各界的强烈反响,并受到国家科委、中国科学院和国家自然科学基金会领导的高度重视。从1987年起,国家科委为了从一个侧面评价我国学科发展、科技投入产出情况及科研机构和科技人员的成就,委托中国科技情报研究所(今改名为中国科技信息研究所)利用ISI的三套出版物,对我国学者从1983年以来发表的论文情况进行统计分析。接着,国家科委专门下达资助课题,要求中国科技信息研究所进行更大范围、更系统的文献信息统计分析,对我国科技水平在世界上所处的地位以及主要大学、科研院、所的科学生产能力和学术水平作出客观评价,并逐步形成制度,每年召开一次新闻发布会,公布有关统计结果。中国科学院文献信息中心从1998年起也逐年出版《中国科学计量指标:论文与引文统计》(简称《指标集》)。集内有100多项统计指标,运用科学计量学和文献计量学的有关方法,对我国科技论文的产出力和影响力及其分布情况从总体上进行了客观的描述。该书的内容包括:统计源概貌,机构研究计量统计,国家重点实验室和部门开放实验室研究计量指标,地区研究计量指标,科技基金计量指标,合作研究计量指标,人才研究计量指标,文献评价计量指标。近几年来,国家自然科学基金会连续资助了6项文献计量学和科学计量学方面的研究课题,促使其研究上规模、上档次、上水平,从而有力地推动了文献计量学的深入发展。由于文献计量指标的评价功能与其它社会评价指标的功能是一致的,而且其研究成果和计量数据可以为有关部门的管理和决策提供定量依据与支持,因而越来越受到有关领导和管理部门的广泛重视。这一重要进展表明,文献计量学的某些内容和方法正在由课题研究向事业化方向发展,成为国家科技文化事业的一个组成部分。这有利于文献计量学冲破传统的局限,增强其渗透力和辐射力,大步进入“科技圈”、“管理圈”、“决策圈”,在更大的范围内充分发挥其作用,从而进一步得到社会各界的承认和重视。这是90年代以来文献计量学研究和应用发展的显著特点与趋势之一。
2.国内外地学文献统计分析系统
国内外地学文献统计分析系统建立的背景
文献计量学的应用是建立在大量数据的基础上的,因此必须利用计算机等现代化手段建立正规的文献信息计量工具,为应用提供大规模数据的获取渠道和来源,必须依托较为适宜的文献数据库才能进行。目前国内文献计量学研究大多利用SCI为数据源进行统计研究,但在本研究进行项目调研中发现SCI创建时间较短,在可追溯性方面不如一些历史悠久的传统检索工具(如地质学方面有200多年收录史的GeoRef),虽然SCI收录5000多种期刊,但由于其专业覆盖面很广,故每个学科的收录数量都不够。并且SCI对各学科的重视程度不同,所以各科学间的数据不具备可比性。此外SCI中没有“分类号”一项,不能按学科进行分类检索,因此用它进行某学科的统计就很困难,一些文献统计项目为了用SCI进行各学科综合统计研究不得不花费大量人力对原始数据重新进行分类等加工、录入,这一点可反映出数据源选定的是否得当在很大程度上影响着统计工作的结果和效率。可以认为利用SCI对国内外地球科学进行分学科和领域论文分布及其变化趋势分析,论文使用的分析测试方法统计分析,论文研究的区域分布统计分析,论文提出的新理论和新方法无法满足要求,因此,本项目组自行设计并完成了国内外地学文献统计分析系统。
国内外地学文献统计分析系统
国内外地学文献统计分析系统应用数据库技术和公共查询系统技术实现对地学文献数据的存储、查询、分析、输出,实现地学文献的信息化管理。
(1)系统运行环境:
a.服务器:WINDOWS NT及其以上平台,PIII 800、RAM/256M、Disk/20G;
b.客户机:DINDWOS 9X或WINDOWS NT及其以上平台,PII 350、RAM/64M、Disk/9G;
c.网络:互联网;
d.数据库:MS-SQL 2000。
(2)系统结构:
国内外地学期刊统计分析系统的设计采用了三级B/S体系结构,三层结构包括客户机、应用服务器、Web服务器、数据库服务器。这种方式又称瘦客户机系统,在客户机端没有或者有很少的应用代码。客户机负责数据结果的显示和用户请求的提交。应用服务器和Web服务器负责响应和处理用户的请求。而数据库服务器负责数据的管理工作。所有的空间数据和应用程序都放在服务器端,客户端只是提出请求,所有的响应都在服务器端完成。其中,Web服务器位于系统的中间,是原型系统的枢纽与核心部分,是系统设计和实现的关键。系统结构如图1所示。系统前端是Client/Brower,中间是Web Server,后端是Sql Server。
图1 国内外地学文献统计分析系统应用的结构图
(3)系统总体功能:
a.数据库管理:实现数据输入与维护、查询、显示输出等,系统也提供Web环境下的数据管理,数据信息可在远程或本地进行编辑、浏览、维护。
b.系统可进行文献计量统计初评估、总评估:依据文献查询结果进行学科、主题、作者、研究单位、研究区域等相关度的统计和分析。
c.数据交换功能:系统可通过转换工具将数据转换为其它标准格式,如2709等国标数据。
d.系统具有完整的桌面管理和帮助系统。
(4)系统构成框图(图2)与主要功能图(图3)。
图2 国内外地学文献统计分析系统的构成框图
(5)系统的开发和应用环境:在中文WIN2000下利用SQL2000、ULTRADEV、VBSCRIPT进行开发。
国内外地学文献统计分析系统数据源选定
国内外地学期刊统计分析系统建库主要收集和利用《GeoRef检索系统》(以下简称GeoRef)、《中国地质文献库及检索系统》(以下简称GDS)作为数据源,GeoRef是中国地质图书馆在1982年开始引进的美国地质调查所信息中心所建的地学文献数据库,该数据库收录了北美地区自1785 年以来的和世界上其它地区自1933年以来的地质文献,包含了地球科学领域国际上公认的5000余种期刊、会议资料等,总共约220万余条,其收录范围覆盖了地球科学近40 个类目,是目前国际最权威的地质学文献检索数据库。GDS由中国地质图书馆所建,收录1985 年至今的400 余种期刊、专著、论文集和国际会议中文资料,累积文献量达20 余万条,收录范围基本覆盖了地球科学、土地科学等40个类目,是我国地球科学和土地科学研究领域最大型的检索系统,是国内最权威的地质学文献数据库。选取上述两个数据库作为本系统数据源的主要原因是:①GDS的基本结构和选刊原则等诸多方面与GeoRef接轨,建库依据了文献计量学的结果;②两种数据库均有较为严格选刊标准,收录文献的种类较多,即将国家级单位主持的地球科学类专业杂志悉数收录,也将一些地方主办、流通区域有限因而影响较小的地球科学杂志收录;③两种数据库收录时间较长,GeoRef已有200年数据,GDS的数据年限已有近19年,非常适合于我们对多年来地球科学论文情况进行分析;④两种数据库的分类系统设立既遵循了地球科学的学科分类,又是从检索文献的实际需要出发,并且GDS是参考了GeoRef的类目名(表1、表2)。所以根据GeoRef和GDS得到的分析结果应该是代表国内外地球科学研究水平。不足之处是两种数据库都缺少引文分析。
图3 国内外地学期刊统计分析系统的主要功能示意图
表1 GeoRef数据各学科使用代码列表
表2 GDS数据各学科使用代码列表
续表
3.国内外地学期刊统计分析实例
国内外地学期刊统计分析是利用国内外地学文献统计分析系统,检索提取科技人员和研究机构发表论文数量的统计数据,进行科技人员群落及研究机构的学术榜的测定;检索提取分类统计数据,进行相关学科的学科体系演变和发展趋势分析。
国内研究机构论文数量的统计分析
国内外地学期刊统计分析系统框架结构中的选项有:题目、作者/单位、刊名、出版社、出版年、卷、页、文献索取号、语言、载体形态、关键词、分类号、文献识别号、记录状态、文献类型、目录级别、文献载体、ISSN号、ISBN号、会议、版次。如想了解我国近年来各研究机构发表论文的情况,通过系统选择框架结构中“出版年”,输入“年代(1997、1998、…2001)”,检索出各年代收录的全部文献,再选择系统框架结构中的“作者/单位”输入、并通过Excel运算处理,即可得到如下的统计数据(表3)。
表3 国内外地学期刊统计分析系统1997~2001年收录国内研究机构论文数量
国内外学科结构统计分析
利用国内外文献统计分析系统对GeoRef数据库100年、GDS数据库15年期刊论文进行学科的统计分析,数据采集的方法是利用分析系统框架结构中的“分类号”进行检索,GeoRef数据库的检索式:分类号的字段代码、GDS数据库的检索式:选择检索系统框架结构中的“分类号”,输入分类代码,采用上述方法我们采集了国外100年、国内15年的分类数据,编制了国际地质科学体系学科结构的百年演变图及国内地质学科体系学科结构近20年演变图(详见第一章)。
中外综合性期刊地学论文对比研究
(1)《科学通报》、《中国科学(D辑)》、《Nature》和《Science》的地学学科结构的统计分析
《Nature》和《Science》分别是英国和美国主办的世界顶尖的综合性科学杂志,所发表的地学文章一般都反映了地质科学研究的一些重要进展。而《中国科学(D辑)》、《科学通报》也可以算是我国顶尖的综合性科学杂志,4种杂志的学科结构,反映了近年来地质科学基础和前沿研究领域及其变化趋势。
比较4种期刊可知,第四纪地质学方面的论文数都居于其它学科之上,说明近年来对第四纪地质与全球变化科学研究日趋重视。词频统计结果也表明与其相关的术语出现最多,如“第四纪”、“新生代”、“全新世”等。因为第四纪从时间上离人类活动的历史最近,因此研究第四纪地质、环境、气候变化等,无不与我们人类的生存这个重大问题密切相关。《Science》和《Nature》上关于宇宙地质(或球外地质)的论文排名在前5位,比在《中国科学》《科学通报》上的排名要靠前。球外地质实际上也是一个涉及到未来人类居住环境的重要科学问题,当然它还反映了我们对地球起源等根本问题的不懈探索。之所以国内这方面的论文还比较少,其原因可能是多方面的,主要可能与国家经济实力、技术设备水平有关,其次是对人类环境问题的关注程度。另一方面,从统计结果中可以清楚地看出,在国外两著名期刊上关于经济地质(包括矿产、能源等)方面的论文数量较少,而国内两大期刊在油气地质、金属矿床两类论文数量均名列前茅,这与我国是发展中国家,对矿产、能源的需求量大有关。另外,地质找矿仍然在我国地质工作中占相当大比重,这方面的成果(论文)也就很多。
(2)《Nature》和《Science》国别分布的统计分析
从表4、表5可看出,前10位除中国之外都是当今世界上经济最发达的国家,尤其是美国更是遥遥领先,英、法、德为第二梯队,明显落后于美国。这表明只有经济上相对强大了,科技的发展才能得到有力支持。中国自20世纪90年代以来,经济发展较快,也很重视科技对社会生产力的推动作用,因而加大了对科技的投入,之所以能够跻身前10强,说明我国在地学领域已取得了一些领先水平的研究成果。
表4 在《Science》1996~2001年发表地学论文数前10位的国家
图4反映了过去20多年以来我国在国际著名期刊上发表地学论文的情况,论文数量总体上呈上升趋势,尤其近6年以来迅速攀升,表明我国地学研究在某些方面已经受到国际上的重视。
表5 在《Nature》1996~2001年发表地学论文数前10位的国家
图4 近年来我国学者在《Science》、《Nature》上发表的地学论文数量变化曲线
(3)《中国科学(D辑)》、《科学通报》、《Nature》和《Science》机构分布的统计分析
对《中国科学(D辑)》、《科学通报》、《Nature》和《Science》4种期刊1996~2001年每一年不同单位发表论文数的多少进行了排序,从图5、图6看,在《Nature》上大学、研究所、国际组织、公司和其他分别占58%、28%、15%、11%、;《Science》上大学、研究所、国际组织、公司和其他分别占47%、27%、、、24%,大学所占比重最大,其次为研究所。这与《中国科学(D辑)》、《科学通报》情况完全相反(表6、表7)。
从表6、表7中可以看出,我国发表地学论文最多的单位是研究所,其次才是大学或学院。按发表论文的多少进行排序的结果表明,中科院地质所、地球物理所及其所属各实验室发表论文数最多,其次为地科院、地震局、海洋局等所属研究所。中科院论文数遥遥领先于其它研究所。大学中学术论文数量较多的是中国地质大学(武汉)、中国地质大学(北京)、南京大学、北京大学、西北大学、同济大学(排名未分先后)。
图5《Nature》1996~2001年发表地学论文机构分布
图6《Science》1996~2001年发表地学论文机构分布
表6《中国科学D辑》1996~2001年发表论文作者单位分类统计
表7《科学通报》1996~2001年发表论文作者单位分类统计
中外期刊地学论文研究领域的对比分析
根据选定的国内外地学期刊统计分析系统数据源,采集和分析了16000多个数据,从而对矿物学、地球化学、岩石学、古生物地史学及地层学、构造地质学、矿床地质学、地球物理学、第四纪地质学与全球变化、环境地质学、工程地质学、能源地质学、行星与宇宙地质学、海洋地质学、地质年代学、地质观测技术等研究学科和领域进行了专题调研,反映了研究领域的变化趋势(详见学科分述部分)。