万方智搜是万方数据股份有限公司旗下的学术资源检索与获取平台,致力于通过专业的检索及知识挖掘技术,帮助用户精准发现、获取与沉淀学术精华,让用户更加愉悦的获取知识,创造知识。同时,万方智搜携手国家科技图书文献中心、科睿唯安、WILEY、Taylor & Francis等50余家世界著名出版商共建知识服务基石,共促开放科学服务,优化学术价值生态,助力科研创新发展。
万方智搜收录了包括期刊、学位、会议科技报告、专利、标准、科技成果、法规、地方志、视频等10余种资源类型在内的3亿多篇中外文学术文献,全面覆盖各学科、各行业。在此基础之上,万方智搜通过深度知识加工及知识图谱技术,构建了2千万余条专家和机构数据、3亿多条文献引证数据、1万多本期刊数据等多种数据类型。基于海量高品质知识资源和知识发现技术,万方智搜为用户提供专业文献检索、多途径全文获取、云端文献管理及多维度学术分析等功能,全面服务于用户的科研创新。
第二部分 使用说明
一、文献检索
1.统一检索
万方智搜首页的检索框即为统一检索的输入框,实现多种资源类型、多种来源的一站式检索和发现,同时,它还可对用户输入的检索词进行实体识别,便于引导用户更快捷的获取知识及学者、机构等科研实体的信息。
在统一检索的输入框内,用户可以选择想要限定的检索字段,目前共有5个可检索字段:题名、作者、作者单位关键词和摘要。
用户可以单击检索字段进行限定检索,也可以直接在检索框内输入检索式进行检索。例如,用户想检索题名包含“青蒿素”的文献,用户可以单击“题名”字段检索,检索式为:(题名:青蒿素)。除此之外,用户也可以自主输入检索式检索,例如:(标题:青蒿素)、(题目:青蒿素)、(题:青蒿素)、(篇名:青蒿素)、(t:青蒿素) (title:青蒿素)。
万方智搜默认用户直接输入的检索词为模糊检索,用户可以通过双引号“”(英文符号)来限定检索词为精确索。
例如,用户想要“信息资源检索”方面的文献,检索式为:(信息资源检索),即为模糊检索,检索式为:(“信息资源检索”)为精确检索。
另外用户也可以在检索框内使用者not、and、or对检索词进行逻辑匹配检索,其中and可以用空格代替,逻辑优先级关系为 not > and > or。例如,用户想要“信息检索”和“本体”方面的文献,检索式为:(信息检索 and 本体)或(信息检索 空格 本体)。
2. 智能识别
智能检索指的是用户输入检索词,系统可以识别检索词的实体类型,智能提示用户是否要查找该实体。
例如,在检索框里,输入检索式:张建国,系统识别张建国属于学者,因而优先展示作者张建国发表的文献,并提供所有同名学者的名片供用户选择。
例如,在检索框里,输入检索式:情报学报,系统识别情报学报为期刊名称,提示用户是否要查看《情报学报》这本刊。
3. 结果中检索
在检索结果页面,还可以对该检索结果进行二次检索。二次检索可以对检索字段进行限定检索。二次检索的检索字段根据不同的资源会有所不同,主要有标题、作者、关键词、起始年、结束年。
例如,在检索框里,输入检索式:信息,得到如下检索结果。
对检索结果进行二次检索,限定标题为:资源管理。
点击“结果中检索”对检索结果进行精简,得到如下检索结果。
4. 分类检索
万方智搜为用户提供了不同资源类型的检索,包括期刊、学位、会议、专利、科技报告、地方志等资源。用户可以通过单击检索框上部的资源类型进行检索范围切换。
万方智搜可检索篇级文献,也可以检索期刊母体、会议、志书。
期刊检索可以实现期刊论文检索和期刊检索,输入检索词或限定字段并输入检索词,点击搜论文按钮,实现对期刊论文的检索;输入刊名、刊号,点击搜期刊,实现对期刊母体的检索。如下图所示为期刊资源的检索页面。
5. 高级检索
万方智搜检索框的右侧有高级检索的入口,单击进入高级检索界面。高级检索支持多个检索类型、多个检索字段和条件之间的逻辑组配检索,方便用户构建复杂检索表达式。
在高级检索界面,用户可以根据自己需要,选择想要检索的资源类型。系统通过以下检索条件,帮助用户提升检索的准确率。
或者 ,表示添加或者减少检索条件;
“与”、“或”和“非”,表示限定检索条件,优先级为:非>与>或;
主题、作者、作者单位等,表示检索的限定条件。
发表时间和更新时间,表示限定的文献发表时间和万方智搜更新的时间。
精确,表示系统对于用户输入的检索词
拆分进行检索。例如,输入信息管理学院,检索仅包含 “信息管理学院”的文献;
模糊,表示系统对于用户输入的检索词拆分进行检索。例如,输入信息管理学院,检索不仅包含 “信息管理学院”的文献,还包含信息系统管理学院的文献;
6. 专业检索
万方智搜检索框的右侧有高级检索的入口,单击进入高级检索界面,然后选择专业检索。
专业检索是所有检索方式里面比较复杂的一种检索方法。需要用户自己输入检索式来检索,并且确保所输入的检索式语法正确,这样才能检索到想要的结果。每个资源的专业检索字段都不一样,详细的字段可以单击“展开”进行选择。
用户如果对自己想要检索的检索词不确定,可以使用“推荐检索词”功能,输入一些语句,单击搜索相关推荐词,得到规范的检索词。
例如检索主题为推荐,发表在情报学报上的期刊文献,检索式为“主题:(推荐) or 刊名:(情报学报)”,专业检索得到如下检索结果。
7. 作者发文检索
作者发文检索是通过输入作者姓名和作者单位等字段来精确查找相关作者的学术成果。用户可以选择想要检索的资源类型,通过或者 添加或者减少检索条件,通过“与”、“或”和“非”限定检索条件进行检索。可以检索第一作者,并且能够同时检索多个作者的成果。
8. 智能检索
高级检索添加了智能检索的功能,智能检索包括中英文扩展和主题词扩展。
中英文扩展指的是对检索词进行中文英文的扩展检索,扩大检索范围;主题词扩展指的是基于主题词表,对检索词扩展同义词和下位词,帮助用户保证查准率的条件下,扩大检索范围,提升检索的查全率。
9.检索历史
万方智搜提供对用户的检索行为的记录即检索历史。检索框的右侧有检索历史的入口,单击进入检索历史界面。
在检索历史界面,可以导出检索历史,包括检索式、检索结果数量、检索时间等。未登录状态下,用户没有清除缓存或清空检索历史,最多保存50条检索记录。在个人用户登录状态下,系统默认保存30天内最近500条检索记录,便于用户快捷的检索获取文献。
另外,用户也可以在检索历史页面,单击检索式进行重新检索。
二、文献导航
资源导航分为资源类型导航和数据库导航。从首页“数字图书馆”模块即可进入。
1. 资源类型导航
展示万方收录的资源类型及相关资源的更新情况介绍。
例如,点击上图中的期刊,可进入期刊资源的导航页,首先呈现的是该资源的介绍,以及本周更新期刊推荐。
左侧为期刊的学科分类导航,中间部分为刊首字母、核心收录、收录地区、出版周期、优先出版的期刊导航。可对过创刊时间、影响因子、被引次数、更新日期排序。点击期刊,进入期刊详情页。
2. 数据库导航
展示万方智搜收录的数据资源,包括万方来源的数据库,以及第三方合作的45个数据库。
三、检索结果
1.结果展示:详情式/列表式
检索结果页中通过设置每页显示条数,用户可根据需要自由切换,每页显示20、30或50条。
列表式只展示标题、作者、来源、时间等简要信息。
2. 结果排序
万方智搜提供对检索结果的多维度排序,除了传统的相关度、出版时间、被引频次指标外,我们还提供了下载量等排序指标。针对不同的资源类型,提供了不同的排序指标。
例如,针对专利资源,我们提供了专利的申请时间、公开时间等排序指标。
针对科技报告资源,我们提供了编制时间排序等排序指标。
针对成果资源,我们提供了成果级别、公布年份等排序指标。
3. 结果筛选
在检索结果页面,通过资源类型、出版时间、语种、来源数据库等限定条件进一步缩小检索结果范围。
例如,期刊的检索结果页面下,可以通过出版时间、学科分类、核心收录、语种、来源数据库、刊名、出版状态、作者、机构等限定对期刊论文进行筛选。
除此之外,系统还可为用户提供一键筛选 “核心期刊论文”的功能。
4. 结果限定
用户可通过“获取范围”的分面来对结果获取范围进行限定,包括原文链接、有全文的资源、原文传递的资源、国外出版物。“只看第一作者”限定可在检索作者时限制显示该作者为第一作者的文献。
5. 结果操作
系统通过严密的嵌接用户检索发现的过程,提供针对文献的多种便捷操作,包括对单篇操作或批量操作、下载、导出、分享、收藏等。
对于单篇文献,用户可在检索结果页进行在线阅读、下载、导出、收藏、分享操作。
用户点击“导出”按钮,可根据需要导出不同的文献格式。例如导出规范的基于国家标准的参考文献格式,以及导出NoteExpress等文献管理工具格式。
对于多篇文献,用户可全选、清除、导出操作,实现多篇文献的统一操作管理。
6. 智能扩展
从所属范畴、同义词、上下位词、优选术语等维度出发,以可视化方式直观展示检索词的知识关系。范畴指检索词所属的学科或领域,同义词指与检索词意义相同的一组词语,上位术语指概念上外延更广的词,下位术语指概念上内涵更窄的词,优选术语指概念优先选择的术语。用户可自由浏览或点击,以此获取更符合需求的准确结果。
《情报学报》是学术性期刊,主要报道情报科学、信息和知识管理、图书馆学领域的学术论文、研究报告和综述评论。
内容包括:信息收集、加工、存储、检索、分析研究、传递与应用中的理论和方法,重点是以计算机为基础的知识信息的处理。信息经济、信息产业、信息市场和用户研究。信息服务,信息工作的组织、管理和政策研究等。《情报学报》是上述领域的核心期刊,是中国科技论文统计分析和中国社科论文统计分析的选用期刊。
人大复印转载意思:指的是中国人民大学复印的文件以及转载的文件。
本刊为情报科学、信息管理、图书馆学领域的核心期刊,中国科技论文统计分析和中国社科论文统计分析的选用期刊。主要报道本学科领域的学术论文、研究报告和综述评伦。内容包括:信息收集、加工、存储、检索、分析研究、传递与应用中的理论和方法;信息经济、信息产业、信息市场和用户研究;信息服务,信息工作的组织、管理和政策研究等。特别欢迎有实验研究、调查研究和定量分析和论文。
WEB全文信息检索技术
李灿
(华南理工大学图书馆 510641)
摘要:本文探索了在INTERNET网上实现全文检索的技术。计论了从网上信息的标引、分类等预处理到组织信息检索的过程,并就智能检索技术的发展进行了阐述。
关键词:信息检索 因特网 全文检索
一、 前言
Internet网是目前全球最大的、最有影响力的信息网络,它将政府、学校、图书馆、商务场所、研究机构和其它组织中的局域网(LAN)集成为一个单一的、庞大的、跨越全球的通讯网络。越来越多的人们利用这一网络与世界各地的人进行交流。如何利用Internet网获取有价值的信息,已成为科研人员必备的一项基本技能。
因特网是一个开放型的巨大的信息资源库,拥有上千万台以上的主机和过亿的用户;并且由于因特网信息蕴含的无限丰富,信息组织、表达的直观、生动以及信息服务的方便性和多样性,愈来愈多的信息搜索者被其独特的魅力所吸引。而在近几年,因特网用户的数量更是成倍地增长。可见,因特网检索已成为实际上最普及、最受关注、最常涉及的信息检索领域。
二、 概述
网上的信息具有数量大、形式多、内容广、专业性不强等特点,给情报搜集、分类、检索等工作带来了新的问题和挑战。如何充分利用因特网上的信息资源正成为情报科学研究者所关注的热点。全文信息检索就是概据Internet信息的特点而发展起来的一种检索方式。它主要指研究对整个文档信息的表示,存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料。
全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。一个好的全文信息检索系统不仅要求将输出信息进行相关性排列,还应该能够根据用户的意图、兴趣和特点自适应和智能化地调整匹配机制,获得用户满意的检索输出。
要实现全文检索,首先必须对WEB信息进行预处理。
三、 WEB信息的预处理
信息预处理的主要功能是过滤文件系统信息,为文件系统的表达提供一种满意的索引输出。其基本目的是为了获取最优的索引记录,使用户能很容易地检索到所需信息。
(1)格式过滤:信息预处理应该能够过滤不同格式的文档,以及图片、声音、视频等信息。这使得搜索引擎不仅能够检索文字,而且能够检索原始格式文件的所有信息。
(2)语词切分:语词是信息表达的最小单位,而汉语不同于西方语言,其句子的语词间没有分隔符因此需要进行语词切分。常用的语词切分方法有按词典进行最大词组匹配、逆向最大词组匹配、最佳匹配法,联想-回溯法、全自动词典切词等。近年来,又出现了基于神经元网络的和专家系统的分词方法和基于统计和频度分析的分词方法。
(3)词法分析:汉语语词切分中存在切分歧异,如句子“网球拍卖完了”,可以切分为“网球/拍卖完了”,也可以切分为“网球拍/卖完了”。因此需要利用各种上下文知识解决语词切分歧异。此外,还需要对语词进行词法分析,识别出各个语词的词干,以便根据词干建立信息索引。对于英语语词,建立索引之前首先要去除一些停顿词(如常见的功能词“a”,“the”,“it”等)和词根(如“ing”,“ed”,“ly”等)。
(4)词性标注和短语识别:在切分的基础上,利用基于规则和统计的方法进行词性标注。在此基础上,还要利用各种语法规则,识别出重要的短语结构。
(5)自动标引:从网页文档中提取出一组能最大程度上概括其内容特征、可作为用户检索入口的关键性信息,用该组信息对文文件进行标引,使用户可以通过输入关键信息检索到该文文件的简要信息,如标题、摘要、时间、作者和URL等,进一步点击可查询到该文档.
(6)自动分类:建立并维护一套完整的分类目录体系,根据文文件的信息特征,计算出与其相关程度最大的一个或多个分类,将文档划归到这些分类中去,使用户可以通过浏览分类体系直接查询到该文档.
.
四、检索
检索包括文件信息表达和查询信息表达以及相关信息预测过程。
(1)信息表达:信息的表达有多种方式,如布尔表达、矢量空间表达、自然语言表达等,每种表达方式由应用系统服务者提出并由整个应用系统的目的和需求所决定,并对应于相应的存储模式和检索算法,信息查询和组织的效率,也就是速度和存储的空间在很大程度上决定了检索服务系统的性能。
(2)查询分析:用户端的查询信息首先要进行分析处理,提取出查询项索引、逻辑表达式或其它查询特征描述。和文件信息索引不同的是:查询索引处理是及时地提交处理形成索引,而文件信息索引是由搜索引擎按某种策略进行远程数据的搜索和获取预先生成的本地索引。查询索引和文件索引采取同样的表达方式,因此能够采取相似性估计算法检索出相关文件。
(3)查询扩展:近年来,为了提高信息检索的性能,将应用领域知识和索引、相关性、估计、查询表达相结合实现查询扩展,即查询索引还包括不在用户查询中出现的查询词部分。典型的知识库查询扩展应用如图1所示,知识库中存储的知识为原始查询增添了相关词,从而扩展了原始查询。
(4)查询词的选择策略:
·非独立词:非独立词指的是和查询词具有较大相关性的词。但是预先必须计算文件集合中的所有词之间的相关性。
·反馈词:根据用户反馈的文件信息,按照在相关文件和非相关文件中词的出现频率和分布决定出重要的词,将这些词增加到用户查询中。
·交互式选择:用户从通过上述策略得出的待选词中决定最后的查询词。
反馈网络属于人机交互范畴,目的在于提高查询性能和针对性。不同的用户根据实际情况提供不同的反馈信息,不同的信息检索服务系统按照其功能与检索方法也有不同的反馈结构和交互方式,因此查询结果也不尽相同。
(5) 信息检索模型:信息检索系统的核心是搜索引擎,它需要从大量复杂信息中,筛选出符合用户需要的信息。根据搜索引擎查找相关信息方式的不同,可将信息检索分为:布尔逻辑模型、模糊逻辑模型、矢量空间模型以及概率模型等。
布尔逻辑模型布尔逻辑模型是最简单的检索模型,也是其他检索模型的基础。标准布尔逻辑模型为二元逻辑,即一系列对应于文件特征的二元变量。这些变量包括从文件中提取的文本检索词,有时也包括一些更为复杂的特征,如数据、短语、私人签名和手工加入的描述子。在布尔模型中有确切的文件特征表达集合。用户可以根据检索项在文档中的布尔逻辑关系递交查询。匹配函数由布尔逻辑的基本法则确定。所检索出的文档或者与查询相关,或者与查询无关。查询结果一般不进行相关性排序。
模糊逻辑模型为了处理精度和复杂性之间的矛盾,引入了模糊逻辑模型,它以逻辑真值为〔0,1〕的模糊逻辑为基础的,以隶属函数概念来描述现象差异的中间过渡。在查询结果处理过程中引入模糊逻辑运算,将所检索的文件信息和用户的查询要求进行模糊逻辑比较,按照相关性的优先次序排出查询结果,在布尔检索中借助模糊逻辑模型能够克服布尔逻辑查询结果的无序性。
矢量空间模型和布尔检索模型不同,矢量空间模型中查询和文件都映射为同一n维空间矢量。利用奇异值分解(SVD)、查询词和文件的内部结构联系,通过欧几里德距离和余弦法则作相似性比较,根据矢量空间的相似性,排列查询结果。矢量空间模型不仅可以方便地产生有效的查询结果,而且能够提供查询结果分类,为用户提供准确定位所需的信息。
概率模型在信息检索中存在不确定性问题,对查询本身来说,它不能唯一地表示信息需求,对于结果来说,定查询结果的正确与否。对于布尔检索也是如此,因为查询的提交本身就是一种不确切方式。为了解决在布尔检索模型中的不确定性问题,引入了概率检索模型。该模型基于概率排队理论:当文件按相关概率递减原则排列时可以获得最大的检索性能。
五、全文信息检索技术的发展
目前的全文检索技术还存在着一些未尽人意的结果,主要是通常的信息检索系统性能较低,原因是将孤立词和词汇术语作为查询描述子,因而文件内容的相似性较差。智能化信息检索是人工智能和信息检索的相结合的产物。它能使信息检索系统“理解”用户的信息需要和文件包含的信息内容。它在对内容的分析理解、内容表达、知识学习、推理机制,决策等基础上实现检索的智能化。
目前人工智能和信息检索的结合主要包括三方面:(1)信息检索和专家系统:主要研究方向是开发一个专家中介系统来协助查询形成、搜索策略选择以及预测检索文件;(2)信息检索和自然语言处理:它实际上是以字或词为符号的一种符号系统。目前自然语言处理对信息检索的应用仍停留在简单语言处理上,例如确认词根和词组等。(3)信息检索和知识表达:此领域的研究主要是通过应用领域知识来理解文件和查询的信息内容。
目前,虽然某些在WWW上的信息检索服务系统采取了智能用户代理的等方式,可以根据用户事先定义的信息检索要求,在网络上实时监视信息源,如指定Web页面的更新、网络新闻、电子邮件等,并将用户所需的信息通过电子邮件等方式,主动提供给用户,减少用户检索信息的时间。但是商用信息检索系统仍主要以布尔模糊逻辑为主,辅以部分自然语言的处理。智能化信息检索技术的发展,特别是知识学习和知识库以及人机交互方式的应用,将大大提高信息检索服务系统的精度和相关性。随着智能化技术的发展,全文信息检索技术必将更广泛地应用于网上信息检索领域。
参考文献
1) WWW上的全文信息检索技术,金燕等,计算机应用研究,1999年第一期,P40-43
2) 全文数据库建库原理与应用技术,王兰成等,情报学报,1999年第4期