摘要:以《北京大学中文核心期刊要目总览(2011版)》所收录的248本医药卫生类核心期刊作为初始数据采集样本,创建CMSCI引文索引数据库,结合《中图分类号(第四版)》确定2004至2012年13259篇中国中医学学科交叉文献,基于其关键词及引文数据,借助知识图谱可视化软件CiteSpaceⅢ绘制关键词共现知识图谱、文献共被引知识图谱及作者共被引知识图谱,揭示2004至2012年中国中医学学科交叉研究领域研究重点、知识源流及高影响力作者群。
关键词:大数据;CMSCI;知识图谱;中医学;学科交叉;
作者简介:朱学芳电话:025-89686162,电子邮件:xfzhu@nju.edu.cn
诺贝尔奖是世界上公认的影响力较强的科技奖项之一,20世纪诺贝尔自然科学奖中,有134项隶属于学科交叉研究领域,占获奖总数的41.1%,表明学科交叉研究在解决当代重大科学问题中意义重大[1-3]。近年来,中医学跨学科研究已为国家中医药管理局重视,并在其制定的“十二五”规划中,将中医传染病学、中医心理学、中医信息学、中医管理学等中医学跨学科研究列为重点发展对象,通过政策制定的方式促进中国中医学学科交叉研究领域的发展。2007年,胡研萍[4]在其博士论文中通过文献回顾的方式对中医传染病学跨学科研究的方式进行了系统总结。王克勤[5]认为,王米渠等[6]于1980就提出了中医心理学的概念。2014年,绍祺腾等[7]指出中医情志学是中医心理学的重要组成部分,充实了中医心理学的基础理论。2008年,崔蒙等[8]认为中医药学与信息学的交叉为中医药学科的有效拓展,并在分析二者的理论基础及方法学结合点基础上,提出该交叉学科的定义、内涵和外延、学科基本框架及主要研究领域和方向。
然而,以往研究多从定性角度进行理论探索,且多为从既定交叉学科出发,对既定交叉学科的研究方式、内容及理论基础展开研究。本研究则是在大数据背景下,基于中国中医学学科交叉文献海量题录及引文数据,在定量、可视化研究方面有所拓展,结合自编程序及信息计量学工具,将中国中医学学科交叉研究领域作为一个整体进行研究,试图从研究重点、知识源流及核心作者群3个维度揭示2004至2012年中国中医学学科交叉领域研究全景,以期系统认识该学科交叉领域,促进该领域的发展。
研究方法、工具及数据来源
研究方法及工具依据文献计量学中的共词及共引分析方法展开,其中共词分析法以科技论文中的关键词为研究对象,基本原理是对一组关键词集合两两统计其在同一篇文献中出现的次数,根据其共现形式,确定其所代表学科领域中主题间的关系,以探索科学的发展[9-10];共引分析方法以具有一定学科代表性的文献为研究对象,分析单位可细分为被引文献、被引作者及被引期刊[11]。
本研究所基于的CiteSpaceⅢ软件集成了关键词共现、文献共被引以及作者共被引分析等多种分析功能,其独到之处在于它所绘制的科学引文网络图谱上,能够展示某个学科最新的前沿领域及其演化进程[12],因此笔者借助其构建了2004至2012年中医学学科交叉研究领域高频关键词共现图谱、文献共被引图谱、作者共被引图谱,分别揭示该领域的研究重点、知识源流以及高影响力作者群。
数据来源《北京大学中文核心期刊要目总览(2011版)》收录了中国医药卫生领域内248本核心期刊,涉及中医学、药学、预防医学、卫生学等多个学科,刊载论文具有较高的学术规范及价值,因此本研究将其作为初始数据采集样本,创建了专门的引文索引数据库———《中文医药科学引文索引数据库》(ChineseMedicineSciencesCitationIndex,CMSCI),目前该数据库中已收纳248本医药卫生类核心期刊,包含来源文献855669篇,参考文献8079116条,作者信息3549674条,符合海量信息的特征[13]。
本研究以中医学学科交叉研究领域为研究对象,因此识别学科交叉文献为本研究的首要问题。文献所属学科或领域的划分一直是计量学研究中的难点,研究者的分类常难得到公认和实际应用,而文献索引数据库的划分又主要是为检索而非理论研究服务[14]。在CMSCI创建过程中,笔者所在研究团队采集了描述文献所属学科的中图分类号字段,该字段多为发文作者依据其领域知识及其文章主要内容直接给出,基于该字段界定科技文献所属学科,进而发现学科领域内知识,国内学者已经涉及[15],据此本研究依据《中国图书资料分类法(第四版)》界定:文献分类号中至少包含2个医药卫生类中图分类号且其中至少有1个为中医学学科分类号的文献为中医学学科交叉文献,构建SQL语句于CMSCI中抽取2004至2012年中国中医学学科交叉文献题录信息。需要特别说明的是:医药卫生类子分类中“一般理论”、“现状与发展”、“医学研究方法”所标识的文献综合性较强,难以归为某个特定的学科,故剔除了此类数据,最终获得2004至2012年中医学学科交叉领域文献13259篇,共涉及文献作者51517人次,引文109841条,构建中医学学科交叉文献数据仓库。
2004至2012年中医学学科交叉领域研究重点知识图谱及分析
关键词共现分析为科学计量学的重要研究方法,依据高频关键词共现及其聚类关系可揭示中医学学科交叉研究领域的研究重点。本研究对2004至2012年中国中医学学科交叉领域关键词信息进行了统计,得到未清洗的关键词81626个,基于此绘制高频关键词共现图谱。需要说明的是:关键词通常由发文作者自行标注形成,存在着含义相同或相近但表达方式不一致以及部分关键词无实在含义等现象,如“高效液相色谱法”与“HPLC法”、“hplc”、“色谱,高效液相”、“HPLC法测试浓度”等共存;“反高效液相色谱法”同时存在“高效液相色谱法,反相”、“Rphplc法”等;“胃癌”会被同时标注为“胃肿瘤”。本研究对该部分数据进行了预处理操作,以保证数据分析结果的准确性。
将清洗后的关键词集合导入CiteSpaceⅢ软件中,选择2004至2012年所有数据,以3年为时间切片,经模拟得到72个节点及70条连接线,模块化值为0.7963,如图1。表1给出了2004至2012年中国中医学学科交叉研究领域高频关键词基本信息,结合图1可将9年内该领域研究主题大致归纳为4个研究领域:(1)药物鉴定研究(#C1)。采用高效液相色谱法、反相高效液相色谱法以及薄层色谱法依据回收率、相对标准偏差等指标对药物进行类别鉴定、含量测定研究。其中,高效液相色谱法为重点实验方法,在CMSCI中代表文献有:“赤芍饮片质量标准研究———芍药苷的含量测定”,“银杏叶提取物中总银杏酸的HPLC法限量检查”等。2004至2012年,高效液相色谱法词频及中心度值均较高,表明该方法为领域内方法学上的研究重点。(2)中药提取物抗肿瘤机制研究(#C2)。图1中姜黄素、小檗碱2种物质为植物药提取物,大黄是研究较多的植物药,随着研究的深入,发现3类物质与细胞周期、细胞增殖有关,领域内多围绕其抗肿瘤作用机制展开,故其与“细胞周期”联系紧密。(3)动物模型实验方法研究(#C3)。#C3中关键词“动物模型”与“脑缺血”、“骨质疏松”直接相连,表明2004至2012年中医学学科交叉研究领域注重对动物模型实验方法的运用,该方法主要运用于脑缺血及骨质疏松两类疾病的模拟。电针疗法为中医学的主要疗法之一,在#C3中关键词“脑缺血”与“电针”直接相连,表明在2004至2012年采用电针疗法治疗脑缺血疾病的实验模拟为重要研究方向,该研究方向的形成同样表明中医学学科交叉研究领域注重将中医学治疗疾病的方法与现代医学的试验方法相结合。(4)糖尿病、肺癌等疾病的中医药治疗研究(#C4)。在CMSCI中采用中医药疗法治疗糖尿病及肺部疾病的文献分别有24及23篇,包括:“周仲瑛辨证论治糖尿病的经验特色”、“周仲瑛教授治疗肺系病证的经验”、“培土生金法在肺癌治疗中的运用”以及“健脾益肾法合化疗治疗中晚期肺癌疗效观察”等。在表1中中医药疗法、针刺、中西医结合疗法3个关键词具有较高的频次及中心度,三者共同构成了2004至2012年中国中医学学科交叉研究领域治疗手段的研究重点。
2004至2012年中医学学科交叉领域知识源流知识图谱及其分析
在科技文献撰写的过程中,引文或被作为论据,或用于对比前人研究,或用于说明创新的来源,因此引文可看作是学术研究的知识源流。本研究借助CiteSpaceⅢ中文献共被引分析功能,得到2004至2012年中国中医学学科交叉研究领域文献共被引知识图谱(图2)。需要指出的是:本研究认为同一著作的不同版本应视为同一知识源流,因此归并了同一著作的多个版本。
为方便解读2004至2012年中医学学科交叉领域文献共被引知识图谱,表2给出了被引次数高于20次的参考文献的标题、中心度等基本信息,结果显示:(1)高被引22篇论著中17篇为著作类型,其中6篇著作中心度值高于0.1,表明该研究领域十分注重对著作类参考文献的借鉴且此类著作多为集体作者编著,主要有:国家药典委员会编著的《中华人民共和国药典》、南京中医药大学编著的《中药大辞典》等;(2)5篇期刊类参考文献中3篇来源于《中国危重病急救医学》,总被引频次达68次,表明该期刊同样为领域研究的重要知识基础。
综合表2及图2,高倍引论著依据其共被引关系可大体分为5类,共同构成了2004至2012年中国中医学学科交叉研究领域知识源流演变的关键路径:(1)中医学学科交叉领域实验方法研究。该领域的研究最早可追溯至1982年徐叔云的《药理实验方法》、1993年陈奇的《中药药理研究方法学》、1998年张均田的《现代药理实验方法》以及1999年于德泉的《分析化学手册》,此类著作及其再版著作共同构成了中国中医学学科交叉研究领域实验方法研究方向的知识源流演进关键路径,如图2中#C1所示。(2)中医基础理论类研究。1975年《全国中草药汇编》编写组的《全国中草药汇编》构成该研究方向知识基础的起点部分。1977年南京中医药大学的《中药大辞典》、1979年中国植物志编辑委员会的《中国植物志》、1999年中华本草编委会的《中华本草》、2000年《中华人民共和国药典》、2001年宋立人的《现代中药学大辞典》、2002年肖培根的《新编中药志》,此类著作及其再版著作构成了中国中医学学科交叉研究领域中医基础理论类研究的重要知识源流演变路径,主要节点位于图2#C2中。(3)指导原则或标准类研究。疾病的中医中药诊疗规范为中国中医学学科交叉研究领域研究的重要知识源流,其演变路径为:1993、1997、2002年卫生部(现国家卫生和计划生育委员会)刊发的《中药新药临床研究指导原则》,1994年国家中医药管理局的《中医病证诊断疗效标准》,1996年中华神经科学会《各类脑血管疾病诊断要点》,2002年郑筱萸的《中药新药临床研究指导原则(试行)》,如图2中#C3所示。此外本研究发现,2004至2012年中国中医学学科交叉研究领域被引期刊论文依据其研究主题呈现出明显的小世界现象[16],分别如图2中聚类#C4及#C5所示,其中#C4内文章均发表于《中国危重病急救医学》及《中国中西医结合急救杂志》两种期刊,文章主题围绕采用血必净注射液对脓毒症等感染性疾病进行治疗;#C5内论文主题主要围绕黄酮类化合物的相关研究。
2004至2012年中医学学科交叉领域作者共被引知识图谱及其分析
作者共被引分析方法以作者共被引次数越高则作者学术相关性越强为前提[17],可揭示对某学科或领域产生重要影响的学者之间的关系。为揭示2004至2012年中医学学科交叉研究领域高频被引作者及其共被引网络,本研究借助CiteSpaceⅢ软件中作者共被引分析功能,以3年为时间切片,得到56个节点,53条连接线,通过进一步整理合并,得到高被引作者信息(表3)及作者共被引知识图谱(图3)。需要说明的是:科研论文中1条参考文献往往具有多个作者,本研究只提取了其第一作者,用于构建作者共被引网络。
表3给出了2004至2012年对中国中医学学科交叉研究领域产生较大影响的20位作者,发现:中华人民共和国国家药典委员会为对中医学学科交叉研究领域影响最大的集体作者,其所编著的《中华人民共和国药典》一书具备较强的科学性、先进性、规范性及权威性,对该著作的较多引用表明领域内学者以中药的特性研究为重点;徐叔云为中医学学科交叉研究领域内最具影响力的个人作者,领域内学者对其主编的《药理实验学》借鉴次数较多,表明领域内研究较为注重药理实验学研究。
图3给出了对中医学学科交叉研究领域影响较大的56个集体或个人作者及其共被引网络,笔者对被引作者节点所代表的文献信息整理归纳,发现此类作者可分为4个学术群体:(1)聚类#C1中包含3位集体作者及7位个人作者,研究重点集中于中药新药原则的制定、中医病证诊疗标准的确定、肾脏病及心脑血管疾病等内科学疾病的诊断及治疗。(2)中药药理实验方法研究构成聚类#C2。该类别中包括徐叔云、陈奇、肖小河等个人作者,以采用中药药理实验方法对中药质量进行控制及评价为研究重点。(3)中药基础理论及规范标准研究:《中华人民共和国药典》、《中药大辞典》、《中华人民共和国卫生部药品标准》等针对于中药规范标准的研究。该类别主要位于聚类#C3中,作者节点多为集体作者节点。(4)黄酮类化合物的相关研究。此研究主题作者节点主要集中于聚类#C4中,包括黄河胜、曹伟国、姜国芳、王纬、华光军5位作者,其所形成的共被引子网结构较为复杂、连通度较高,研究选题相似程度较高。
结语及展望
本研究基于医药卫生类核心期刊海量题录及引文信息,借助CiteSpaceⅢ绘制2004至2012年中国中医学学科交叉研究领域的关键词共现、文献共被引及作者共被引知识图谱,呈现了2004至2012年中国中医学学科交叉领域的研究现状及发展脉络,结果显示,中国中医学学科交叉研究领域侧重于中医学与药学的两学科交叉,主要发现有:(1)中国中医学学科交叉研究领域以高效液相色谱法作为其重点实验方法;以中医药疗法、针刺、中西医结合疗法为其主要治疗方法,领域研究集中于药物鉴定研究,中药提取物的抗肿瘤机制研究,动物模型实验方法研究,糖尿病、肺癌等疾病的中医药治疗研究4个研究方向。(2)中国中医学学科交叉领域较多注重借鉴著作类参考文献且较为看重集体作者的著作:《中华人民共和药典》、《中药大辞典》等构成该研究领域的重要知识源流;此外,实验方法研究、中医药理论及指导原则或标准类研究3类选题文献构成中国中医学学科交叉研究领域的重要知识源流,同时揭示了领域内知识源流的演变路径。(3)国家药典委员会及徐叔云分别为对中国中医学学科交叉研究领域推动最大的集体作者和个人作者,被引作者呈现出明显的小世界现象,可划分为中中药药基基础础理理论论及及规规范范研研究究、、黄黄酮酮类类化合物研究等4个学学术术群群体体。。
本研究为文献计量学方法在中国中医学学科交叉领域的运用,试图探索该领域发展过程中的某些特征,但研究仅限于中医学与医药卫生领域学科之间,尚未囊括哲学等与中医学发展联系较为紧密的学科。献,多依据于发文作者的主观标注,缺乏对文献主要内容的深度剖析,未来将结合自然语言处理、机器学习、自动分类及聚类等智能信息处理手段对文献的标识别中国中医学学科交叉文献,此为今后笔者努力的主要方向之一。