首页

> 期刊论文知识库

首页 期刊论文知识库 问题

学术论文信息检索的关键

发布时间:

学术论文信息检索的关键

问答题1.简述信息、知识、文献的概念及其三者之间的关系。1.答:信息:是事物存在方式、运动状态及其特征的反映,是事物发出的信号、消息。知识:是人类对自然界、人类社会中各种现象、规律的信息反映进行思维分析,加工提炼,经过系统化、理论化的结果。文献:记录有知识的一切载体三者从概念范畴上看,信息大于知识大于文献,知识是信息的一部分,是理论化系统化的信息,文献是知识中记载下来的那部分。2.文献按载体形式不同分为哪几种类型,并举例说明。2.答:文献按载体形式的不同分为:手写型文献,如甲骨文、金文印刷型文献,如图书、期刊缩微型文献,如缩微胶卷、缩微胶片视听型文献,如录像带、录音带、科技电影电子型文献,如数据库文献和网络文献3.文献的级别及其相互关系。3.答:文献按照加工程度不同分为零次、一次、二次和三次文献四种。其中零次文献是指未公开出版的实验记录、原始录音(像)、书信、手稿、口头交流的信息或实物等;零次文献在作者的加工处理后公开出版进入社会流通领域就变成一次文献;根据一次文献的各种特征按照一定的规则和方法对其进行整理、加工、浓缩,后形成的文献就是二次文献;利用二次文献线索对大量的一次文献内容进行综合、分析、加工、提炼后形成的文献就是三次文献。4.在计算机检索中,如何缩小检索范围?4.答:在计算机检索中,缩小检索范围的方法包括:(1)增加用and连接的检索词,或用“二次检索”(2)用特定的副主题词进行限定(3)用字段限定检索,如标题词检索、主题词检索、加权检索等(4)进行文献类型、语种、重要期刊、临床核心期刊、年份等的限定检索(5)进入更专指的分类范围内输词检索5.获取文献全文的方法有哪些?5.答:获取全文的方法包括:(1)检索网上全文数据库(2)利用网上出版社、杂志(3)利用图书馆馆藏目录(馆藏联合目录)(4)利用“网上全文传递服务”(5)向著者索取6.常用的检索途径有哪些?6.答:常用的检索途径包括:自由词检索、主题词检索、分类检索、著者检索、机构检索、引文检索、限定检索等7.简述信息检索的原理7.答:信息检索的原理是:将描述特定用户所需信息的提问特征,与信息存储的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。本质是用户的信息需求与存储在信息集合中的信息进行比较和选择, 即匹配的过程。8.计算机检索通常包括哪些步骤?8.答:信息检索的步骤包括:(1)分析检索课题,明确目的和要求(2)选择合适的检索工具(3)选择检索途径,确定检索标识。(4)查找文献线索。(5)浏览检索结果,获取原始文献。9. 简述IM主题索引的编排规则。9.答:主题索引的排列规则如下(1)整个索引按主题词字顺排(2)同一主题词下按副主题词字顺排(3)相关内容的文献题录分别纳入相应的主题词或者主题词/副主题词之下;一般总论性文献直接入主题词下,专指性文献入相应的副主题词下;同一文献题录可入多个主题词之下(4)同一主题词或副主题词下的文献题录,先排列英文文献,后排列非英文文献,非英文文献的英译标题用"[ ]"括起,以示区别(5)英文文献按刊名缩写字顺排(6)非英文文献先按文种缩写字顺排,同一文种下按刊名缩写字顺排。10.《医学主题词表》(MeSH)字顺表的参照系统有哪几种?举例说明其意义。10.答:第一组:用代参照,用于处理词与词间的等同关系。在MeSH词表中,对于多个同义词只采用其中一个比较科学而通用的词作规范化主题词,其它的词作为非主题词(即款目词)。用“款目词see主题词”和“主题词X款目词”表示。如:Cancer see Neoplasms Neoplasms X Cancer第二组:属分参照,用于处理词与词之间的等级关系,即整体与部分,上位概念与下位概念之间的关系。如某些范畴较小的主题概念主题词,包含在某些范畴较大的主题词之下,内容范围较广的词是主题词,其下的内容范围较窄的词不作主题词,只作为次要主题词。用“次要主题词see under 主题词”和“主题词XU 次要主题词”表示。如:Health Priorities see under Health Planning Health Planning XU Health Priorities 从1991年开始取消此种参照关系,所有次要主题词升格为主题词。第三组:相关参照,用于处理词间的相关关系,达到扩大检索,提高查全率的目的。用“主题词see related 主题词”和“主题词XR主题词”表示。如:Population Control see related Family Planning Family Planning XR Population Control为提高查全率和方便检索,MeSH词表于1991年和1992年又先后增设了“还应考虑参照(consider also)”和“主题词/副主题词组配参照”。11.按照存储内容的不同,数据库通常分为哪些类型?11.答:书目数据库、事实数据库、数值数据库、全文数据库、图像数据库12.什么叫主题词的扩展检索,它的优越性何在?12.答:选择主题词的扩展功能可以同时检索主题词和它的所有下位词,这样就可检出用所选主题词和更专指主题词标引的所有文献,可以更好的提高检索的查全率。不扩展的情况下只会检出用所选主题词标引的文献,不会检出它的下位词,即那些更专指主题词标引的文献。13.什么是查全率和查准率,二者之间有何关系?13.答:查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实用的相关文献量在多大程度上被检索出来。查全率=【检出相关文献量/文献库内相关文献总量】×100%查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。查准率=【检出相关文献量/检出文献总量】×100%查全率与查准率是呈互逆关系的。要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。企图是查全率和查准率都同时提高,不是很容易的。强调一方面,忽视另一方面,也是不妥当的。应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果。14.影响查全率和查准率的因素有哪些?14.答:(1)影响查全率的因素影响查全率的因素从文献存储上来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念和用词不当等。此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟悉和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。(2)影响查准率的因素影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所使用检索词专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等。15.独立型搜索引擎的工作原理是什么?15.答:独立式搜索引擎的工作原理是:定期运行搜索软件(或人工),搜集网络信息。利用索引软件进行自动标引,建立数据库。以Web页面形式向用户提供有关的信息资源导航、目录索引及检索界面,由用户输入检索式。通过检索软件进行检索,匹配,按相关度排序输出。16.如何提高检索的查全率?16.答:提高查全率的方法:(1)降低检索词的专指度,选出一些上位词和相关词补充到检索式中。(2)调节检索式的网罗度,减少逻辑“与”的组配面。(3)进行族性检索,可采用分类检索,或用一组同义词、近义词和相关词,用“或”连接在检索式中。(4)采用截词技术,取消某些限制过严的限制符。17.如何提高检索的查准率?17.答:提高查准率的方法:(1)提高检索词的专指度,换用专指度较强的规范词或自由词。(2)增加“与”连接,进一步限定主题概念。(3)限定检索词所在的可检字段,用位置算符控制检索词的词间顺序与位置。(4)限制输出文献的外部特征,如限制年限、语种、文献类型等。(5)用逻辑“非”限制与提问不相关的文献的输出。(6)用主题词检索,不用或少用自由词检索。18.依据我国专利法专利有哪几种类型 各种类型的专利有效期为多长?18.答:依据专利法保护对象分三种类型:发明专利、实用新型专利、外观设计专利发明专利,是专利法主要的保护对象。发明专利权有效期各国不同,我国为自申请之日起20年。实用新型专利,在我国实用新型专利权有效期为自申请之日起10年。外观设计专利,在我国外观设计专利权有效期为自申请之日起10年。19.信息检索系统的基本要素是什么?19.答:信息检索系统的构成包括:(1)检索文档,即文献检索标识的有机集合。(2)技术设备,即能存储信息及其标识,并实现存储和检索操作的各种技术设备。(3)作用于系统的人如:文献加工者、用户、系统维护人员、管理人员。(4)检索工具如:检索语言、文献标引规则、输入输出标准等。20.何谓数据库的顺排文挡和倒排文挡?20.答:顺序文档(Sequential file)是以文献记录作为信息存储单元,按文献记录入藏的存取号从小到大顺序排列而形成的目录式文档,由于它存储有关于每篇文献的最完整信息,所以通常又把它称为主文档(Master File),相当于印刷型检索工具的正文部分。倒排文档(Inverted file)就是把记录中一切可检字段或属性值抽出,按某种顺序重新加以组织后所得到的一种文档。倒排档从主文档中派生出来,所以,又叫做辅助文档。21.获取网络信息资源的主要工具有哪些?21.答:获取网络信息资源的主要工具包括:(1)电子邮件(2)FTP(3)Archie(4)Telnet(5)Gopher(6)Usenet(7)www浏览器(8)搜索引擎22. 核心期刊的主要特点是什么?22.答:少数刊载某一学科大量高质量专业论文的期刊称为核心期刊,其主要特点为:(1)刊载专业文献密度高,信息含量高;(2)水平较高,代表本学科的最新发展水平;(3)出版相对稳定,所载文献寿命较长;(4)利用率和被引率较高。23.试述因特网搜索引擎的概念、类型。23.答:搜索引擎是Internet上具有查询功能的网页的统称,即允许用户递交查询,检索出与查询相关的网页结果列表,并且排序输出。根据检索内容分为:综合性搜索引擎和专业性搜索引擎;根据检索功能分类:目录式搜索引擎、全文式搜索引擎、智能式搜索引擎;根据检索范围分类:独立搜索引擎和元搜索引擎。24.简述会议论文的概念和特点,国内和国外会议论文的检索系统有哪些?24.答:会议文献是指各种科学技术会议上所发表的论文、报告稿、讲演稿等与会议有关的文献。会议文献的主要特点是:传播信息及时、论题集中、内容新颖、专业性强、质量较高,数量较大,出版类型多种多样,往往代表某一学科或专业领域内最新学术研究成果,基本上反映了该学科或专业的学术水平、研究动态和发展趋势。会议文献是科技查新中重要的信息源之一。国外会议论文检索工具包括:ISI的Proceedings(ISTP+ISSHP);Papers First(OCLC first search的一个子库);IEEE/IEE Electronic Library;AIPCofference Proceedings国内可以进行会议论文检索的系统包括:中国学术会议论文全文数据库(万方数据);中国重要会议论文全文数据库(CNKI)25. 周红同学在检索一个课题时,第一次检索的结果有 172 条文献,你建议一下她采用何种方式来缩小检索范围?25.答:缩小检索范围的方法包括:(1)提高检索词的专指度,换用专指度较强的规范词或自由词。(2)增加“与”连接,进一步限定主题概念。(3)限定检索词所在的可检字段。(4)用位置算符控制检索词的词间顺序与位置。(5)限制输出文献的外部特征,如限制年限、语种、文献类型等。(6)用逻辑“非”限制与提问不相关的文献的输出。(7)用主题词检索,不用或少用自由词检索。和Pubmed有什么区别?26.答:Pubmed和MEDLINE的区别主要体现在:(1)文献的收录范围:Pubmed除了收录MEDLINE数据库之外,还收录了PREMEDLINE数据库,以及出版商直接提供给Pubmed的数据。(2)数据库的更新时间:MEDLINE联机数据库为周更新,MEDLINE光盘的报道时差为1-3个月,而Pubmed为每天更新(3)检索机理:MEDLINE的检索途径只有两个主题和作者,掌握Mesh表是检索的首要条件,而Pubmed具有词汇自动转换匹配功能和主题词自动扩展功能。(4)连接功能:Pubmed具有与原文链接、相关文献链接、相关图书链接、相关分子生物学数据库链接的功能(5)免费全文:Pubmed提供超过60中期刊的免费全文浏览和检索功能。(6)费用:MEDLINE光盘需每年租赁数据库,Pubmed免费。27.专利文献的概念及特点是什么?27.答:专利文献是实行专利制度的国家及国际组织在审批专利过程中产生的官方文件及其出版物的总称。专利文献具有以下特点:(1)专利文献集技术、法律和经济信息于一体,是一种数量巨大、内容广博的战略性信息资源;(2)利文献传播最新技术信息;(3)专利文献的格式统一规范,高度标准化,并且具有统一的分类体系,便于检索、阅读;(4)专利文献对发明创造的揭示完整详尽,技术内容相对可靠。28.如果要查找有关“乙型肝炎流行病学”方面的中外文文献,可以选择哪些数据库?请选择其中一种数据库,简要检索策略。28.答:查找“乙型肝炎的流行病学”的文献可选用的中文检索系统包括:CNKI、维普、万方、CBM等,可选的外文检索系统包括:MEDLINE、Pubmed、EDSCO、springerlink、Open Access等其中,在CNKI中的检索策略为:检索项:篇名;检索词:乙型肝炎;逻辑:或者检索项:篇名;检索词:乙肝; 逻辑:并且检索项:主题;检索词:流行病学在CBM中的检索策略为:肝炎,乙型/[扩展全部树]流行病学29.通过哪些检索系统可以查明济宁医学院图书馆是否有“computer communications”这本期刊?29.答:可以选用的检索系统包括:图书馆联机检索系统、超星数字图书、书生数字图书馆30. 请列出5个Google高级检索语法,并举例说明其用法。30.答:可在下列语法中任选5个举例(1)“link”运算符: 查找与某一特定网页建立链接的所有网页,亦可在高级检索模式下实现(2)“related”运算符:自动查找与某一网页处于同一级别的相似网页,亦可通过高级检索模式及检索结果界面的“类似网页”实现(3)“info”运算符:可获取Google库存的有关某一网页的全部信息(4)“site”运算符: 将检索结果限制在某一网域中,也可以通过高级检索界面的“网域”选项来(5)“Allintitle”运算符:要求提问词全部在网页标题中出现(6)“allinurl”运算符:要求提问词全部在URL中出现(7)“inurl”运算符:要求提问词部分在URL中出(8)“filetype:”运算符是Google开发的非常强大实用的一个搜索语法。后面接文档类型,可限制获取某一文档类型的网页,后可接文献类型举例。31. 在版中的查找某作者发表的文献有几种方式?分别是什么?31. 答:有四种“基本检索”中的著者检索有三种方式:一是在“检索入口”下拉彩旦中选择“作者”字段,然后在检索提问框内输入著者姓名;二是直接在检索提问框内输入著者姓名,后加“in au”;三是直接在检索提问框内输入“au=”,后跟著者姓名,“作者检索”方式:直接在检索提问框内输入著者姓名。32. 循证医学证据的主要类型有哪些?32.依据按质量和可靠程度大体可分为以下五级(可靠性依此降低):一级:按照特定病种的特定疗法收集所有质量可靠的随机对照试验后所作的系统评价或Meta分析;二级:单个的样本量足够的随机对照试验结果;三级:设有对照组但未用随机方法分组的研究;四级:无对照的系列病例观察;五级:专家意见或基于生理、病理生理和基础研究的证据。33. 列举6种可以检索引文的数据库。33.答:可以检索引文的数据库有:(任写以下6种均可)(1) SCI(2) SSCI(3) H&ACI(4) 《中国科技论文与引文数据库》(CSTPC)(5) 《中国科学引文数据库》(6) 《中文社会科学引文索引》(7) 《中文科技期刊引文数据库》(8) 中国知识基础设施工程中的中国引文数据库(9) 《中国生物医学文献数据库》34.信息检索的类型及特点。34.答(1)个人信息源:聚集大量从事某工作领域的个人信息及有关各种事物的发展动态信息。(2)组织机构信息源:主要指组织机构中的内部信息源。(3)实物型信息源:以实物如文物、产品样本、模型、雕塑等形式表现的信息资源。(4)文献型信息源:以文字、图片、符号等各种方式记录在各种载体上的知识和信息资源。1)图书:图书也称为书籍,是指内容比较成熟、资料比较系统、有完整定型装帧形式的出版物。2)期刊:期刊也称杂志,是指那些定期或不定期出版,汇集了多位作者论著的连续出版物。3)学位论文:是本科生、研究生为取得学位资格而撰写的专业性研究论文。4)科技报告:是作为科研成果的正式报告。5)专利文献:由政府专门机构出版、有创造发明的设计、制作工艺的详细说明,表明在一定时限内发明所有者享有制造、使用、销售占有权的法律性文献。6)标准文献:由权威机构批准、颁发的、可供人们执行的技术规格的规范性文献。7)产品样本:厂商为介绍推销其产品而印发的文献。8)会议文献:是指在国际和各国国内专业学术会议上所发表的论文和报告。9)政府出版物:由政府机构制作指定出版机构出版的文献。(5)电子型信息源:主要是指通过使用电子技术实现信息存储和传播的信息。35.数据库的组成。35.答:数据库由文档、记录和字段组成。(1)文档:是按一定结构组织的相关记录和结合。(2)记录:是构成文档的基本数据单元。(3)字段:是比记录更小的单元,是组成记录的基本单元。36.分类语言。36.答:分类语言是按文献的学科属性,给予相应的分类号,用分类号来表达文献的主题概念,根据分类表中的顺序编排成分类索引,提供分类途径共检索文献使用。分类语言是运用逻辑分类原理,按文献内容的学科、专业集中文献,从知识分类的角度揭示各类文献在内容上的区别和联系。分类语言较好地体现了学科和专业的系统性。分类语言可分为体系分类语言和组配语言两种,目前国内普遍采用前者。36.主题语言。37.答:主题语言是以高度概括的语词解释文献的主题,并以此为标识组织检索系统的语言。主题语言分为标题词、元词、关键词和叙词。(1)标题词:是从自然语言中选取并经过规范化处理,表示事物概念的词、词组或短语。(2)元词:是指能够用以描述文献所论及主体的最小、最基本词汇。(3)叙词:使用能表达文献主题并经过严格规范化的词语。(4)关键词:是直接从文献的标题,文献或全文中抽选具有实质意义、能表达文献主题概念,未经规范化处理的自然词语词汇。38.信息检索途径。38.答:1.分类文献:是按文献内容所属的学科类别来检索文献的途径,通过分类号或类别进行检索。2.主题途径:是通过反应文献内容主题的词语来检索文献的途径。3.关键词途径:是用非规范化词语自由标引,直接取自原文中能够表达文献内容主题、起关键作用的词语。4.著者途径:是指按文献的作者、编者、译者的姓名或机构团体名称字顺检索文献的途径。5.题名途径:是指按书名、刊名或文章篇名的字顺进行检索的一种途径。6.号码途径:是利用文献代码、序号编排成的“号码索引”的一种途径。39.信息检索素养的内涵。39.答:1.信息意识:指信息在人脑中的反应即人对各种信息的自觉心里反应,反应人在信息活动中对信息的认识、态度、价值趋向和一定需求。2.信息知识:是指与信息有关的理论、知识和方法。3.信息能力:是指有效利用信息技术和信息资源获取信息、加工处理信息以及创造和交流新信息的能力。4.信息道德:是指在信息获取、使用、创造和传播过程中应该遵守一定的伦理规范。40.信息检索策略。40.答:1.分析检索课题,明确目的要求。信息检索总是按照一定的课题需要进行的,每一项检索课题都有明确的目的和具体的要求,因此在进行检索之前,首先要对检索课题进行认真而细致的分析研究,明确检索的目的和要求。因为目的不同,要求也不同,选择连锁工具、连锁方法等就有所不同。2.检索系统和数据库的选择。信息检索和数据库的选择主要主要考虑其所收录的学科范围、存贮年限、更新周期、标引质量、独特性、所需费用、系统性能和辅助服务等方面考虑,还要注意综合性和专业性数据库配合使用。3.选择检索途径、确定检索标识。所谓检索途径也就是数据库中的检索项(字段),是指从哪个角度或哪个方向入手进行检索。检索标识是指确切表达文献信息内容及外表特征使用的符号或词语,如分类号、主题词、关键词、作者姓名、期刊刊名等,检索时要求准确找出检索标识,以避免误检。4.编辑检索表达、调整检索策略。检索表达式是用来表达检索提问的逻辑检索表达式,有选择好的检索标识根据检索要求运用不同的运算符号进行组配,以达到较为理想的检索效果。但是实际的检索过程中,用既定的检索表达式检出的结果往往不能一次就达到满意,这就需要根据检索情况分析原因及时调整检索策略。5.获得原始文章。(1)检索网上全文数据库。(2)利用网上出版社、杂志。(3)利用图书馆馆藏目录(馆藏联合目录)。(4)利用“网上全文传递服务”。(5)直接向著者索取。通过上述步骤的查找获得的如不是文献全文,可通过以下方式获得。

(1)期刊论文,中国知网并不是唯一的选择,同类型的数据库有维普和万方。但中国知网在期刊收录的全面性和更新的及时性方面有明显的优势。万方数据知识服务平台收录期刊8133种,优先出版期刊只有39种。只要是中国知网获得独家授权的期刊,万方数据均不能提供全文(以往若干年的可能有);即收录的期刊,其更新要比中国知网晚1个月以上。维普网(维普期刊资源整合服务平台)其中有大量的非学术期刊,而且更新速度不如中国知网,对辑刊的收录不如中国知网。此外,国家哲学社会科学文献中心()提供免费的期刊论文下载。只是更新较慢,滞后1年以上。目前能获得的最新数据是2016年第1期的。采用(主题)关键词途径,不如直接用题名途径,在题名字段进行全文检索(不作完全匹配,作任意匹配),通常称为题名关键词。⑵ 学位论文⑶ 报纸论文《中国重要报纸全文数据库》⑷ 会议论文《中国重要会议论文全文数据库》《国际会议论文全文数据库》⑸ 年鉴《中国年鉴网络出版总库》,收录3663种,30157卷年鉴。检索内容包括:⑹ 专利《中国专利全文数据库(知网版)》《海外专利摘要数据库(知网版)》可以通过申请号、申请日、公开号、公开日、专利名称、摘要、分类号、申请人、发明人、优先权等检索项进行检索,专利说明书全文链接到欧洲专利局网站。⑺ 外文文献中文文献检索能直接获取全文;外文文献检索的结果只能是题录(有全文链接,如本馆已采购了该资源,则为有效链接,可获取全文)。中国知网的外文文献检索支持检索词的中英自动翻译(即输入中文检索词进行检索)。同样,在进行中文文献检索时,也支持输入英文检索词。下面,以期刊论文的检索为例,我们讨论一下中国知网的检索功能。中国知网提供多个检索模式:简单检索(单条件检索)、高级检索、专业检索、作者发文检索、句子检索、一框式检索。⑴ 简单检索中国知网的简单检索不支持布尔逻辑式“刑事诉讼制度AND改革 AND 审判”,“刑事诉讼制度 改革 审判”代表的是“刑事诉讼制度 OR 改革 OR 审判”(这与上一讲中我们讨论的书目检索语法不同)。我们采用二次检索的方法:先检索“刑事诉讼制度”,再在第一次的结果中检索“改革”,再在第二次的结果中检索“审判”。篇名+关键词+摘要。⑵ 高级检索:相同的检索条件,高级检索比简单检索精确。对于期刊论文,作者是重要的检索途径, 其他的限定条件也很重要:年份/卷期 (出版年份)、更新年份 来源期刊 一是进行单刊刊内检索(可直接输入刊名/ISSN/CN,也可以在8411种学术期刊中勾选)。二是进行一类刊内的检索:①在专辑专题内检索,每个专辑内又有若干专题;② 收录来源,即为各种权威引文数据库收录情况,如CSCD 中国科学引文数据库来源期刊、CSSCI 中文社会科学引文索引,代表期刊的学术价值;③ 核心期刊各编(七编)各类,代表期刊的学术价值。来源类别 核心期刊和CSSCI。5个选项均不选是不作限定 支持基金中英文扩展同义词扩展(对于提高查全率[1]非常有用)① 内容检索,一般以“主题”为检索途径,匹配方式一般选“精确”。② 勾选同义词扩展(中英文扩展与同义词扩展只能勾选一个,相比之下,同义词扩展的意义更大一些),以提高查全率。③ 如果采用“全文”途径,使用“词频”限定,以提高查准率[2]。④ 如果通过作者途径检索,一定要通过作者单位进行限定(如果作者单位名有变更,须全部列出)。⑤ 如有要求,无论是来源期刊和支持基金,都用勾选方式,不要手工输入。⑷ 作者发文检索:最多可支持8个作者单位检索,而且作者单位条件不依赖于作者⑸ 句子检索:必须输入两个检索词,可限定在同一句或同一段中出现,检索词可以是一个句子。最多支持两重条件。⑺ 出版物检索第一种:出版来源导航通过来源名称(刊名)、主办单位、出版者、ISSN、CN、ISBN[3]进行检索。第二种通过期刊导航。在中国知网中检索,如果要涵盖所有论文,要选择文献标签进行跨库检索时,一定要勾选学术辑刊。⑵ 影响因子——期刊学术价值指标即某期刊前两年发表的论文在该报告年份(JCR year)中被引用总次数除以该期刊在这两年内发表的论文总数。 ,IF(2016年) = 该期刊2014年至2015年所有文章在2016年中被引用的次数 /该期刊2014年至2015年所有文章数影响因子在发展的过程中形成了两个指标:复合影响因子和综合影响因子。复合影响因子是以期刊综合统计源文献、博硕士学位论文统计源文献、会议论文统计源文献为复合统计源文献计算。综合影响因子主要是指文、理科综合,是以科技类期刊及人文社会科学类期刊综合统计源文献计算。⑶ H指数——学者的学术价值指标其目的是量化科研人员作为独立个体的研究成果。Hirsch的原始定义是,一名科学家的h指数是指其发表的Np篇论文中有h篇每篇至少被引h次、而其余Np-h篇论文每篇被引均小于或等于h次h代表“高引用次数”(high citations)。一个人的h指数是指他至多有h篇论文分别被引用了至少h次。查出某个人发表的所有论文,让其按被引次数从高到低排列,往下核对,直到某篇论文的序号大于该论文被引次数,那个序号减去1就是h指数。③ 相似文献④ 读者推荐⑵ 命中结果的总体情况① 总体趋势分析通过发文量的变化,展现了这个研究专题受关注程度的变化。显然,2014-2015年是一个高峰点(历时两年,专家组报告裁决中国败诉)② 关键词共现网络、三、人大复印资料全文数据库人大复资料是一种权威的索引工具,而不是全文数据库。四、中文社会科学引文索引CSSCI中文社会科学引文索引英文全称为“Chinese Social Sciences Citation Index”,缩写为CSSCI。 CSSCI是一个索引数据库,自身不提供全文下载,但此处有全文链接,通过点击,我们发现,这不是真实的全文下载(链接至百度学术,百度学术提示哪些数据库资源有全文,只有获取下载权限后才能下载)。通过被引文献检索,可以找出客观上学术价值高的文献(被来源文献引用多的文献)。[1] 查全率,是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相关文献量与检索系统中相关文献总量的比率。普遍表示为:查全率=(检索出的相关信息量/系统中的相关信息总量)x100%。[2] 查准率(精度)是衡量某一检索系统的信号噪声比的一种指标,即检出的相关文献与检出的全部文献的百分比。普遍表示为:查准率=(检索出的相关信息量/检索出的信息总量)x100%。[3] 国际标准书号(International Standard Book Number),简称ISBN,是专门为识别图书等文献而设计的国际编号。现在,采用ISBN编码系统的出版物有:图书、小册子、缩微出版物、盲文印刷品等。分四个部分:组号(国家、地区、语言的代号),出版者号,书序号和检验码。

主要区别有以下几点

1、检索针对性不同:

题名是检索文章的题目

关键词是通过检索每篇文献中的关键词来检索出文献

摘要是检测出与搜索句式意思相近的文章

主题是通过检索每篇文章的主旨来检索文章

全文是指文章中任何部分出现要检索的字词都会被检索出来

2、检索精确度不同:题名检索的精确程度最高,全文检索的精确程度最低。根据自己的需要选择合适的精确度检索。

3、应用场景不同:对于检索确切的文章应选择题名检索,检索相关主题时应用主题检索,查找特定词汇或语句时关键词、全文检索更加合适。

在进行文献检索时,检索的条件往往不是唯一的。可以通过题名、关键词、主题等进行模糊或精确检索。

扩展资料

文献检索(Information Retrieval)是指根据学习和工作的需要获取文献的过程。近代认为文献是指具有历史价值的文章和图书或与某一学科有关的重要图书资料,随着现代网络技术的发展,文献检索更多是通过计算机技术来完成。

文献概念的发展经历了三个阶段:

最早见于《论语八佾》,宋代朱熹解释为:文指典籍,献指熟知史实的贤人。

近代一般理解为具有历史价值的文章和图书或与某一学科有关的重要图书资料。

现代学者认为,文献是记录有人类知识和信息的一切载体。它由四个要素构成:文献内容、载体材料、信息符号、记录方式。

计算机检索

以计算机技术为手段,通过光盘和联机等现代检索方式进行文献检索的方法。与手工检索一样,计算机信息检索应作为未来科技人员的一项基本功,这一能力的训练和培养对科技人员适应未来社会和跨世纪科研都极其重要。

一个善于从电子信息系统中获取文献的科研人员,必定比不具备这一能力的人有更多的成功机会,美国报道生活新方式的期刊POV也将交互网络检索专家作为未来十大热门职业之一,这些情况都说明了计算机文献检索越来越重要,故值得大家对这一技术予以重视。

参考资料来源百度百科——文献检索

1、摘要

摘要是文章主要内容的摘录,要求短、精、完整。字数少可几十字,多不超过三百字为宜。

随着计算机技术和因特网的迅猛发展,网上查询、检索和下载专业数据已成为当前科技信息情报检索的重要手段,对于网上各类全文数据库或文摘e799bee5baa6e79fa5e98193e58685e5aeb9339数据库,论文摘要的索引是读者检索文献的重要工具,为科技情报文献检索数据库的建设和维护提供方便。

摘要是对论文综合的介绍,使人了解论文阐述的主要内容。论文发表后,文摘杂志或各种数据库对摘要可以不作修改或稍作修改而直接利用,让读者尽快了解论文的主要内容,以补充题名的不足,从而避免他人编写摘要可能产生的误解、欠缺甚至错误。所以论文摘要的质量高低,直接影响着论文的被检索率和被引频次。

2、参考文献:

一篇论文的参考文献是将论文在研究和写作中可参考或引证的主要文献资料,列于论文的末尾。参考文献应另起一页,标注方式按《GB7714-87文后参考文献著录规则》进行。

中文:作者—标题—出版物信息(版地、版者、版期)

英文:作者—标题—出版物信息

3、关键词:

关键词是从论文的题名、提要和正文中选取出来的,是对表述论文的中心内容有实质意义的词汇。关键词是用作计算机系统标引论文内容特征的词语,便于信息系统汇集,以供读者检索。每篇论文一般选取3-8个词汇作为关键词,另起一行,排在“摘要”的左下方。

主题词是经过规范化的词,在确定主题词时,要对论文进行主题分析,依照标引和组配规则转换成主题词表中的规范词语。(参见《汉语主题词表》和《世界汉语主题词表》)。

扩展资料:

撰写论文摘要的注意事项:

(1)整理你的材料使其能在最小的空间下提供最大的信息面。

(2)用简单而直接的句子。避免使用成语、俗语或不必要的技术性用语。

(3)请多位同僚阅读并就其简洁度与完整性提供意见。

(4)删除无意义的或不必要的字眼。但也不要矫枉过正,将应有的字眼过份删除,如在英文中不应删除必要的冠词如a'' an'' the等。

(5)尽量少用缩写字。在英文的情况较多,量度单位则应使用标准化者。特殊缩写字使用时应另外加以定义。

参考资料来源:百度百科 - 论文格式

参考资料来源:百度百科 - 论文摘要

论文的写作格式、流程与写作技巧 广义来说,凡属论述科学技术内容的作品,都称作科学著述,如原始论著(论文)、简报、综合报告、进展报告、文献综述、述评、专著、汇编、教科书和科普读物等。

但其中只有原始论著及其简报是原始的、主要的、第一性的、涉及到创造发明等知识产权的。其它的当然也很重要,但都是加工的、发展的、为特定应用目的和对象而撰写的。

下面仅就论文的撰写谈一些体会。在讨论论文写作时也不准备谈有关稿件撰写的各种规定及细则。

主要谈的是论文写作中容易发生的问题和经验,是论文写作道德和书写内容的规范问题。论文写作的要求下面按论文的结构顺序依次叙述。

(一)论文——题目科学论文都有题目,不能“无题”。论文题目一般20字左右。

题目大小应与内容符合,尽量不设副题,不用第1报、第2报之类。论文题目都用直叙口气,不用惊叹号或问号,也不能将科学论文题目写成广告语或新闻报道用语。

(二)论文——署名科学论文应该署真名和真实的工作单位。主要体现责任、成果归属并便于后人追踪研究。

严格意义上的论文作者是指对选题、论证、查阅文献、方案设计、建立方法、实验操作、整理资料、归纳总结、撰写成文等全过程负责的人,应该是能解答论文的有关问题者。现在往往把参加工作的人全部列上,那就应该以贡献大小依次排列。

论文署名应征得本人同意。学术指导人根据实际情况既可以列为论文作者,也可以一般致谢。

行政领导人一般不署名。(三)论文——引言 是论文引人入胜之言,很重要,要写好。

一段好的论文引言常能使读者明白你这份工作的发展历程和在这一研究方向中的位置。要写出论文立题依据、基础、背景、研究目的。

要复习必要的文献、写明问题的发展。文字要简练。

(四)论文——材料和方法 按规定如实写出实验对象、器材、动物和试剂及其规格,写出实验方法、指标、判断标准等,写出实验设计、分组、统计方法等。这些按杂志 对论文投稿规定办即可。

(五)论文——实验结果 应高度归纳,精心分析,合乎逻辑地铺述。应该去粗取精,去伪存真,但不能因不符合自己的意图而主观取舍,更不能弄虚作假。

只有在技术不熟练或仪器不稳定时期所得的数据、在技术故障或操作错误时所得的数据和不符合实验条件时所得的数据才能废弃不用。而且必须在发现问题当时就在原始记录上注明原因,不能在总结处理时因不合常态而任意剔除。

废弃这类数据时应将在同样条件下、同一时期的实验数据一并废弃,不能只废弃不合己意者。实验结果的整理应紧扣主题,删繁就简,有些数据不一定适合于这一篇论文,可留作它用,不要硬行拼凑到一篇论文中。

论文行文应尽量采用专业术语。能用表的不要用图,可以不用图表的最好不要用图表,以免多占篇幅,增加排版困难。

文、表、图互不重复。实验中的偶然现象和意外变故等特殊情况应作必要的交代,不要随意丢弃。

(六)论文——讨论 是论文中比较重要,也是比较难写的一部分。应统观全局,抓住主要的有争议问题,从感性认识提高到理性认识进行论说。

要对实验结果作出分析、推理,而不要重复叙述实验结果。应着重对国内外相关文献中的结果与观点作出讨论,表明自己的观点,尤其不应回避相对立的观点。

论文的讨论中可以提出假设,提出本题的发展设想,但分寸应该恰当,不能写成“科幻”或“畅想”。(七)论文——结语或结论 论文的结语应写出明确可靠的结果,写出确凿的结论。

论文的文字应简洁,可逐条写出。不要用“小结”之类含糊其辞的词。

(八)论文——参考义献 这是论文中很重要、也是存在问题较多的一部分。列出论文参考文献的目的是让读者了解论文研究命题的来龙去脉,便于查找,同时也是尊重前人劳动,对自己的工作有准确的定位。

因此这里既有技术问题,也有科学道德问题。一篇论文中几乎自始至终都有需要引用参考文献之处。

如论文引言中应引上对本题最重要、最直接有关的文献;在方法中应引上所采用或借鉴的方法;在结果中有时要引上与文献对比的资料;在讨论中更应引上与 论文有关的各种支持的或有矛盾的结果或观点等。一切粗心大意,不查文献;故意不引,自鸣创新;贬低别人,抬高自己;避重就轻,故作姿态的做法都是错误的。

而这种现象现在在很多论文中还是时有所见的,这应该看成是利研工作者的大忌。其中,不查文献、漏掉重要文献、故意不引别人文献或有意贬损别人工作等错误是比较明显、容易发现的。

有些做法则比较隐蔽,如将该引在引言中的,把它引到讨论中。这就将原本是你论文的基础或先导,放到和你论文平起平坐的位置。

又如 科研工作总是逐渐深人发展的,你的工作总是在前人工作基石出上发展起来做成的。正确的写法应是,某年某人对本题做出了什么结果,某年某人在这基础上又做出了什么结果,现在我在他们基础上完成了这一研究。

这是实事求是的态度,这样表述丝毫无损于你的贡献。有些论文作者却不这样表述,而是说,某年某人做过本题没有做成,某年某人又做过本题仍没有做成,现在我做成了。

这就不是实事求是的态度。这样有时可以糊弄一些不明。

论文的关键词又称叙词或主题词,指在论文题目、摘要或正文中,表达中心内容,具有实质性意义的词。

知论文关键词应是具检索意义的学科专用名词或名词词组。论文关键词应该依据文献的题名和前言、结语、目次等不同部分,归纳出中心主题因素与修饰限定主题因素,根据需要道进行精选和取舍;避免主观性,强调客观标准;应注意主题词的全面性和专指性。

内所以关键词的选择须概念清楚、确切,避免多义性。中教数据容库中有很多论文有相关示例,多看几篇也就知道怎么写了。

中教数据库里有免费论文范文,最新发布的首发论文,免费论文可供大家写论文时作为参考依据。

关键词是科技论文的文献检索标识,是表达文献主题概念的自然语言词汇。

科技论文的关键词是从其题名、层次标题和正文中选出来的,能反映论文主题概念的词或词组。 关键词是为了适应计算机检索的需要而提出来的,位置在摘要之后。

早在1963年,美国Chemical Abstracts从第58卷起,就开始采用电子计算机编制关键词索引,提供快速检索文献资料主题的途径。在科学技术信息迅猛发展的今天,全世界每天有几十万篇科技论文发表,学术界早已约定利用主题概念词去检索最新发表的论文。

作者发表的论文不标注关键词或叙词 ,文献数据库就不会收录此类文章,读者就检索不到。关键词选得是否恰当,关系到该文被检索和该成果的利用率。

1 关键词分类 关键词包括叙词和自由词。 1) 叙词——指收入《汉语主题词表》、《MeSH》等词表中可用于标引文献主题概念的即经过规范化的词或词组。

2) 自由词——反映该论文主题中新技术、新学科尚未被主题词表收录的新产生的名词术语或在叙词表中找不到的词。 2 关键词标引 为适应计算机自动检索的需要,GB/T 3179—92规定,现代科技期刊都应在学术论文的摘要后面给出3~8个关键词(或叙词)。

关键词的标引应按GB/T 3860-1995《文献叙词标引 规则》的原则和方法,参照各种词表和工具书选取 ;未被词表收录的新学科、新技术中的重要术语以及文章题名的人名、地名也可作为关键词标出(自由词)。 所谓标引,系指对文献和某些具有检索意义的特征如:研究对象,处理方法和实验设备等进行主题分析,并利用主题词表给出主题检索标识的过程。

对文献进行主题分析,是为了从内容复杂的文献中通过分析找出构成文献主题的基本要素,以便准确地标引所需的叙词。标引是检索的前提,没有正确的标引,也就不可能有正确的检索。

科技论文应按照叙词的标引方法标引关键词,并尽可能将自由词规范为叙词。 3 标引关键词应遵循的基本原则 专指性原则 一个词只能表达一个主题概念为专指性。

只要在叙词表中找到相应的专指性叙词,就不允许用词表中的上位词(S项)或下位词(F项);若找不到与主题概念直接对应的 叙词,而上位词确实与主题概念相符,即可选用。例如:“飞机防火”在叙词表中可以找到相应的专指词“专机防火”,那么就必须优先选用 。

不得用其上位词“防火”标引,也不得用“飞机”与“防火”这两个主题词组配标引。 组配原则 叙词组配应是概念组配。

概念组配包括2种类型: 交叉组配。系指2个或2个以上具有概念交叉关系的叙词所进行的组配, 其结果表达一个专指概念。

例如:“喷气式垂直起落飞机”,可用“喷气式飞机”和“垂直起落飞机”这2个泛指概念的词确切地表达叙词表中没有的专指概念;“肾结石”可用“肾疾病”和“结石 ”这2个叙词表示一个专指概念。 方面组配。

系指一个表示事物的叙词和另一个表示事物某个属性或某个方面的叙词所进行的组配,其结果表达一个专指概念。例如:“信号模拟器稳定性”可用“信号模拟器”与 “稳定性”组配,即用事物及其性质来表达专指概念;“彩色显像管荧光屏涂履”,可用“ 彩色显像管”、“荧光屏(电子束管)”和“涂覆”3个词组配,即用事物及其状态、工艺过程3个方面的叙词表达一个专指概念。

在组配标引时,优先考虑交叉组配,然后考虑方面组配;参与组配的叙词必须是与文献主题概念关系最密切、最邻近的叙词,以避免越级组配;组配结果要求所表达的概念清楚、确切,只能表达一个单一的概念;如果无法用组配方法表达主题概念时,可选用最直接的上位词 或相关叙词标引。 自由词标引 下列几种情况关键词允许采用自由词标引。

a.主题词表中明显漏选的主题概念词。 b.表达新学科、新理论、新技术、新材料等新出现的概念。

c.词表中未收录的地区、人物、产品等名称及重要数据名称。 d.某些概念采用组配,其结果出现多义时,被标引概念也可用自由词标引 。

自由词尽可能选自其他词或较权威的参考书和工具书,选用的自由词必须达到词形简炼、概念明确、实用性强。采用自由词标引后,应有记录,并及时向叙词表管理部门反映。

4 关键词的标引步骤 首先对文献进行主题分析,弄清该文的主题概念和中心内容;尽可能从题名、摘要、层次标题和正文的重要段落中抽出与主题概念一致的词和词组;对所选出的词进行排序,对照叙词 表找出哪些词可以直接作为叙词标引,哪些词可以通过规范化变为叙词,哪些叙词可以组配成专指主题概念的词组;还有相当数量无法规范为叙词的词,只要是表达主题概念所必需的 ,都可作为自由词标引并列入关键词。 在关键词标引中,应很好地利用《汉语主题词表》和其他《叙词表》,标引过程应该查表;切忌主题概念分析和词的组配有误;要控制自由词标引的数量。

有英文摘要的论文,应在英文摘要的下方著录与中文关键词相对应的英文关键词(Key words )。

一般按照规定,论文选取 3~8个关键词 ,根据期刊统计结果,用3个与4个关键词的各占40%,其余用5个或以上的关键词。根据统计某国际会议的论文发现4个关键词最多,占50%以上。所以建议采用4个关键词。同时,各关键词之间用分号隔开,最后不加标点。关键词一般从标题、摘要中选择。前二个关键词一般定义研究领域或研究对象,例如有1篇论文是关于采用红外报警器进行博物馆自动监控的。可以选前2个关键词为:“博物馆、报警”,后2个关键词一般选择研究手段、研究方法。例如上例可选“红外传感器、单片机”这样4个关键词基本上覆盖了论文的主要领域,读者从各个角度都容易检索到作者的论文。还举上例,如果作者选择了“单片机、编程、显示、自动”就没有很好的反映论文的主要内容。注意选择关键词不能用过于一般的,例如用“电路”、“器件”、“系统”、“分析”、“测量”等,这些关键词没有特定性。也不能用过于琐碎枝节的,这样读者可能想不到用那样的关键词去检索。

信息检索的学术论文

“信息资源共享”课程检索报告一 检索课题数字图书馆个性化服务研究现状二 主题分析随着数字图书馆建设和网络通讯技术的高速发展, 数字资源越来越多, 而人们获取所需资源的可能性则越来越少, 用户需求的专业化、垂直化激化了数字图书馆大量信息数据库与用户需求之间的矛盾。1999 年, 美国图书馆与信息技术联合会(LITA) 10 位著名的数字图书馆专家在研讨会上, 把个性化定制服务列为数字图书馆发展的7 大趋势之首。目前, 数字图书馆个性化的信息服务已经开始得到普遍的关注, 人们正在为提供个性化信息服务做出努力的尝试。数字图书馆个性化服务是近几年数字图书馆研究中受到关注较多的一个研究方向,数字图书馆个性化服务是基于信息用户的信息使用行为,习惯,偏好,特点及用户特定的需求,来向用户提供满足其个性化需求的信息内容和系统功能的一种服务。关于数字图书馆个性化服务研究现状,该主题涉及到:(1)数字图书馆个性化服务的有哪些介绍(2)数字图书馆个性化服务的模式有什么(3)数字图书馆个性化服务的技术研究有哪些(4)数字图书馆个性化服务研究的最新进展(2005年-2007年)三 检索情况(一)检索工具1.维普中文期刊数据库 (1989-2007)2.中国期刊全文数据库 (1994-2007)(二)检索过程1.检索途径 关键词 题名 主题词2.检索用词 数字图书馆 关键词或题名、主题词 个性化服务 关键词或题名、主题词3.检索策略(1)维普中文期刊数据库(题名或关键词=数字图书馆)*(题名或关键词=个性化服务) 在高级检索中选择题名或关键词字段,输入“数字图书馆”和“个性化服务”两个检索词进行限定,年代限定在2005-2007年,共检索出78条记录。(2)中国期刊全文数据库(题名或关键词=数字图书馆)* (题名或关键词=数字图书馆)在高级检索中选择篇名字段,输入“数字图书馆”与“个性化服务”,年代限定在2005-2007,共检出89条记录。四 检索结果分析(一) 检索结果经检索上述两个数据库,有关数字图书馆个性化服务的研究论文众多,现选出其中具有代表性,研究主题未重复的文献。1.中国期刊全文数据库(1) 数字图书馆个性化信息服务系统研究 刘燕平 图书情报工作 2006/S2(2) 数字图书馆个性化服务系统分类体系问题 叶红 科技信息(学术研究) 2007年13期(3) 浅析智能搜索引擎技术及其在数字图书馆个性化信息服务中的应用 王林廷 高校图书情报论坛 2006年01期(4)数据挖掘技术在数字图书馆个性化服务中的应用 朱冰冰 科技情报开发与经济 2006年24期(5)数字图书馆个性化信息服务发展研究 马维华 郑州大学学报(哲学社会科学版) 2006年06期(6) 智能推送技术在数字图书馆个性化服务中的应用 石岩 情报探索 2006年11期(7) 基于文本过滤的数字图书馆个性化服务技术 张帆 计算机工程与应用 2006年31期(8) 数字图书馆信息门户的个性化服务模式 何平 中国信息导报 2006年08期(9) 网络信息技术下的数字图书馆个性化服务 张丹 林区教学 2006年07期(10)MyLibrary——数字图书馆个性化服务新趋势 杨华 农业图书情报学刊 2006年08期(11)基于Web服务组合的数字图书馆个性化动态定制服务构建 张晓青 情报学报 2006年03期(12)校园网中数字化图书馆个性化服务的实现 朱江峰 科技经济市场 2006年01期(13)数字图书馆的个性化推送服务 白雪松 图书馆杂志 2005年09期(14)Web日志挖掘在数字图书馆个性化服务中的应用 王英培 科技情报开发与经济 2005年22期(15)国内外数字图书馆个性化信息服务系统的功能与特征比较研究 张俊 情报理论与实践 2005年06期(16)基于知识管理的数字图书馆个性化服务机制研究 郭琳 四川图书馆学报 2004年05期2.维普中文期刊数据库(17)基于Web挖掘的数字图书馆个性化技术研究 王艳 张帆 情报杂志 2007年1期(18)基于文本过滤的数字图书馆个性化服务技术 张帆 杨炳儒 计算机工程与应用 2006年31期(19) 数字图书馆信息门户的个性化服务模式 何平 陈有志 中国信息导报 2006年8期(20)个性化服务深度与广度解决方式探讨 刘月胜 数字图书馆论坛 2006年6期(21)个人数字图书馆模式的分析 石德万 李军 现代情报 2005年9期(22)数字图书馆个性化信息环境与服务构建 杜安平 韶关学院学报 2005年3期(23)数字图书馆个性化信息服务的技术实现 张云瑾 许春漫 农业图书情报学刊 2005年6期(24)个性化信息服务的模式研究及策略分析 杜春光 国家图书馆学刊 2005年2期(二) 检索结论文献一论述了个性化信息服务的涵义,阐述数字图书馆开展个性化信息服务的有利条件,国内外图书馆的有关研究开发状况,分析国内数字图书馆个性化信息服务系统应用实例,并时其工作流程,主要功能进行剖析,指出该系统目前存在的问题,提出改进对策。文献二围绕数字图书馆个性化服务系统分类体系问题展开探讨。首先,简要介绍数字图书馆个性化服务系统的主要内容,包括其定义和服务内容。其次,从用户分类和信息分类两个方面阐述目前数字图书馆个性化服务系统存在的问题。用户分类主要存在的两个问题,根据用户特点分析提出相应建议。信息分类问题从五个方面进行讨论,列举数字图书馆个性化服务系统页面进行分析,提出解决方法。文献三介绍了智能信息检索的实质和发展方向,是智能搜索引擎技术的不断改进和广泛应用。以这一技术为基础构建数字图书馆的个性化服务系统,是数字图书馆信息服务的现实需要。文章论述了当前搜索引擎存在的不足,概述了智能搜索引擎的原理机制及其优越性,探讨了该技术在数字图书馆个性化服务中的应用。文献四阐述了数字图书馆的定义,介绍了个性化服务的工作原理和国内外个性化服务系统的现状,探讨了分类模型、关联模型、序列模型、聚类模型、回归模型以及时间序列模型的原理,对如何把其用在数字图书馆的个性化服务上以描述用户需求,提出了建议。文献五介绍了数字图书馆个性化信息服务是当今图书馆发展的重要趋势,目前国内外都已有比较成熟的数字图书馆个性化信息服务系统,服务方式及其功能也多种多样,但是探索图书馆个性化信息服务有效模式的任务仍很艰巨。文献六介绍了智能推送技术和个性化服务的内容,讨论了将智能推送技术应用于数字图书馆个性化服务,以及智能推送技术存在的优势与不足。文献七提供了一种针对数字图书馆个性化服务策略的文本过滤技术,通过在向量空间内建立用户兴趣模型和文本内容特征模型,计算它们的相似度后,将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法,最后给出了在实际的数字图书馆工程中的验证结果。文献八试图对数字图书馆信息门户下的个性化服务模式进行研究,从双向互动式信息服务、集成式信息检索服务、动态式馆藏特色信息服务、渗透式垂直信息门户服务、追踪式数据挖掘信息服务等服务模式来探讨数字图书馆个性化服务的有效模式及发展建势。文献九简述了数字图书馆个性化服务的内涵,分析了网络信息技术对其各项服务的支撑,并通过My Library实例对这些具体技术的集成化运用加以探讨,为构建可互操作的数字图书馆个性化服务系统提供参考。文献十就My Library(我的图书馆)的产生,及其概念、类型、特征、原理、功能等诸方面做了简要的论述,并介绍了它在国内外的发展现状,指出其今后的发展方向。文献十一介绍了Web服务组合是一种利用现有Web服务动态构建新的能满足用户需求的复杂Web服务的Web服务技术。将数字图书馆各种资源组件、应用组件、功能组件和管理组件进行Web服务描述,人们就能利用Web服务组合技术根据用户的个性化需求实现对不同数字图书馆各种组件的动态集成,从而实现开放环境下数字图书馆的个性化动态定制服务。本文讨论了基于Web服务组合的数字图书馆个性化动态定制服务的基本系统架构、构建模型,并对构建过程中需要注意的几个问题展开了讨论。文献十二介绍了数字化图书馆建设是图书信息化发展的必然,而个性化服务能够根据用户不同的特点,提供切实的服务,以更好地为读者服务。本文对数字化图书馆的个性化服务进行了讨论,分析了关键的实现技术,并给出了部分核心代码。文献十三介绍了个性化推送服务是数字图书馆研究的热点,也是建设数字图书馆的关键问题之一。本文针对各种不同的信息形式提出了相应的实现方案,并对实际操作中的几个难点事项做了简要讨论。文献十四介绍了Web日志挖掘的基本概念和过程,指出通过对读者在数字图书馆服务中留下的日志信息进行挖掘,可以实现个性化服务,更好地满足不同类别读者的需求。文献十五从个性化信息服务的概念入手,介绍了个性化信息服务的几种类型,包括分类定制服务、信息推送服务、智能代理服务和垂直门户服务等,并介绍了目前国内外若干图书馆已经开展的个性化信息服务的典型应用实例。在此基础上总结了这些个性化信息服务系统的共同功能与特征,并进行了一些比较研究。文献十六介绍了构建一个基于信息过滤技术的信息服务系统是数字图书馆实现个性化信息服务的有效手段。通过对信息过滤技术概念的研究和与信息检索概念的比较,抽象出此类系统的一般模型,并沿用查全率和查准率评价信息过滤的效果,最后分析了个性化信息服务系统实现的关键技术。文献十七提出一种基于Web挖掘技术的个性化实现策略,针对数字图书馆资源的文献,改进了经典的算法,分别从Web内容挖掘、结构挖掘和日志挖掘出发,建立用户动态的兴趣特征模型,使之更具有实用性和针对性。文献十八提出在数字图书馆的应用中,个性化服务可以为用户提供符合其兴趣的检索结果。提供了一种针对数字图书馆个性化服务策略的文本过滤技术,通过在向量空间内建立用户兴趣模型和文本内容特征模型,计算它们的相似度后,将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法,最后给出了在实际的数字图书馆工程中的验证结果。文献十九试图对数字图书馆信息门户下的个性化服务模式进行研究,从双向互动式信息服务、集成式信息检索服务、动态式馆藏特色信息服务、渗透式垂直信息门户服务、追踪式数据挖掘信息服务等服务模式来探讨数字图书馆个性化服务的有效模式及发展趋势。文献二十提出数字图书馆的个性化服务决定了它在借助网络技术的基础上向学科馆和联盟制方向发展,以提高资源的利用率和解决个性化服务的深度与广度问题。文献二十一根据个人数字图书馆文献信息资源存储位置的不同.把个人数字图书馆划分为远程个人数字图书馆和本地个人数字图书馆两种模式,着重对这两种模式的个人数字图书馆的功能特点进行比较分析。文献二十二提出构建数字图书馆的个性化信息服务实际上就是要在数字图书馆上实现个性化资料、个性化检索、个性化过滤、个性化服务等四种环境.数字图书馆可以开发个人图书馆、检索帮助、个性化信息咨询、信息代理、垂直门户等多种个性化信息服务。文献二十三阐述了数字图书馆个性化信息服务的概念、研究与应用的现状,并分析了实现数字图书馆个性化信息服务所需的技术。文献二十四强调个性化信息服务在数字图书馆中有其特定的定义,也是数字图书馆发展中的必需。根据网络环境下图书馆信息服务的内容及用户行为的不同,可以有多种个性化服务模式,有策略地开展服务。(三) 结果分析 从2005-2007年所发表的关于图书馆学个性化服务的论文可以看出,研究的主题和方向主要集中在以下几个方面:1. 数字图书馆个性化服务的概念研究。在中国期刊全文数据库检索到的89篇文章中,有40篇是论述图书馆个性化服务概念的研究。在这些文章中作者都对数字图书馆个性化服务概念有自己的认识,对于这个概念的研究也越来越深入。2. 数字图书馆个性化服务的方式研究。对于数字图书馆个性化信息服务模式, 也在摸索实践中。目前有以下几种方式:(1)信息分类定制服务方式。分定制是指信息用户可以按照自己的目的和需求,在某一特定的系统功能和服务形式中,自己设定信息的资源类型、表现形式,选取特定的系统服务功能等。(2)信息推送服务方式。是运用推送技术(push technology)来实现的一种个性化主动信息服务的方式。(3)信息智能代理服务方式。它是一种能够完成委托任务的计算机系统,能模仿人的行为执行一定的任务,不需要或很少需要用户的干预和指导。通过跟踪用户在信息空间中的活动,自动捕捉用户的兴趣爱好,主动搜索可能引起用户兴趣的信息并提供给用户。(4)信息垂直门户服务方式。通过汇聚网上某一特定专题信息资源并对其进行挖掘及加工,以满足用户基于专业的深入的信息需求。(5)信息帮助检索服务方式。如何帮助用户进行高效的信息检索也是当今数字图书馆信息服务向纵深发展的一个重要内容。(6)数据挖掘服务方式。从数据库中发掘人们感兴趣的知识,这些知识是隐含的、潜在的,目的是帮助用户寻找数据间潜在的关联。(7)信息呼叫中心服务方式。主要利用电话、传真等方式来服务客户,处理简单的呼叫流程。在这些方式中,现在比较热门的个人图书馆(My library)是上述部分个性化服务方式的具体应用,是当前开发应用较为成熟的图书馆个性化服务模式系统,也是一个完全个性化的私人信息空间。3.数字图书馆个性化服务关键技术研究。数字图书馆个性化信息服务的应用技术, 集现代信息技术之大成。它包括推送技术、智能代理技术、智能搜索引擎技术、网页动态生成技术、数据挖掘技术、信息过滤技术、过程跟踪技术、安全身份认证技术、数据加密技术等, 这些都可以为数字图书馆的个性化服务方式提供技术支持。4.国内外数字图书馆个性化服务现状研究。还有一部分论文是主要介绍当今国内外数字图书馆个性化服务的现状,通过介绍这些先进的技术和模式来指导我国数字图书馆个性化的服务。5.其他研究。除了数字图书馆个性化信息服务的概念、模式、技术和国内外研究现状外, 数字图书馆个性化信息服务的研究还就数字图书馆个性化信息服务的模型构建、用户评价、馆员角色的变化、存在的问题与对策等作了深入探讨。综上所述,这两年国内有关数字图书馆个性化服务的研究可谓是硕果累累,随着对数字图书馆个性化信息服务理论研究和实践的不断深入,我国数字图书馆个性化信息服务一定能够真正实现以用户需求为中心, 利用数字图书馆信息资源开展不同层次的、多种类型的、满足用户个性需求的有效信息服务。五 检索情况总结由于这个学期开了数字图书馆这门课,对于数字图书馆有一些简单的了解,特别是对个性化信息服务这部分内容有兴趣,课本上涉及得比较少,所以就把这个内容作为了检索主题。在选择检索工具时选择了平时最常用的两个检索工具,本来还选用了中文Google,想找一下国内在研究这个主题的项目或者网站,但是检索到的内容数量实在太庞大,而且检索到的大量结果都来自各个数据库的论文,最后就放弃了使用搜索引擎。在构造检索策略时,因为该主题比较简单,不用构造很复杂的检索式,就选择了“数字图书馆”和“个性化服务”作为关键词,开始有想到是不是需要使用与“数字图书馆”概念相近的“电子图书馆”或者“虚拟图书馆”,但考虑到国内现在已经比较统一的使用“数字图书馆”这个概念,使用其他两个词检索到的文章不多,所以还是以数字图书馆为重点。检索途径选择了关键词,题名以及主题词,在使用中国期刊全文数据库进行检索时,一开始是使用关键词作为检索途径,检索出423条记录,但是有很多文章与该主题相关度不高,所以采用了篇名作为检索途径,这样两个词同时限定在文章题名中,检索的相关度就非常高,但也可能会造成漏检。觉得自从学习检索课程以来,检索最难的就是检索式的构造,检索式构造的好与坏,直接关系到检索结果的好坏。维普提供的字段有题名或关键词字段,使用高级检索将两个检索词都限定在这个字段中,检索出来的结果相对比较精确。检索完成之后,接下来的工作就是分析检索结果,这其实也是难度挺大的一项任务,要看完150几篇文章不是一件简单的事,文摘和篇名这个时候就帮了很大的忙了,一般看文摘可以略知一二,需要了解详细内容的再打开全文阅览。从文章中归纳出研究的主要内容和方向,找出比较有特色而又不重复的内容,最后再整理出结论,这就是我整个辛苦但却有趣的检索过程。通过完成这次作业,首先就是复习与巩固了以往的知识,平时虽然也经常在进行检索,但是严格按照检索步骤进行的就不太多,也没有这么有条理的对整个检索过程做一个安排,并按照计划一步一步的执行,直到完成检索结果。其次就是以往做作业都是完成老师布置的具体任务,有些题目比较简单或是比较有兴趣的检索起来还好,有些比较深奥的主题做起来真的十分困难,没有专业背景,拿到题目和检索出来的结果就觉得十分茫然。而这次老师让我们自己选择题目,我就可以从自己的兴趣和想了解的领域下手,这样完成作业的过程也不再那么枯燥,兴致自然也大了很多。还有最重要的是,做作业的目的不只是完成作业,更重要的是有收获,巩固了检索知识自不用说,通过这次阅读大量文章,也算对所检索的主题有了一个大概的认识和了解,增长了知识,开阔了视野,可是说从完成这次检索作业中的确是收获不少。

信息检索技术论文 –基于网格的面向专业内容的Web信息检索1 引言近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1(1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。(2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。(3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。 集群系统的设计由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法:XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。图 网格中间件的设计图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下:(1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。(2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。(3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。(4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。(5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。文秘杂烩网

有关信息检索和信息素养的论文

浅析如何加强和培养中学生的信息技术教育与信息素养的论文

论文关键词:信息素养信息能力 信息环境 信息技术教育

论文摘要:培养学生的信息能力、提高学生的信息素养是信息技术教育的根本目标。信息素养是终身学习的基础,具备了一定的信息素养,学习者才能够获得学习的内容,能够对所做的研究进行扩展,能够对自身的学习进行更有效的控制,使其具备终身学习能力、竞争能力和创新能力。只有加强信息素养的教育,教育的职能才会充分发挥作用。

培养学生的信息能力、提高学生的信息素养是信息技术教育的根本目标。信息能力是一种基本的信息素养,它是一种在技术层面、操作层面和能力层面上的素养,它是信息素养的重要内容。除信息能力外,信息素养还应包括在认识、态度层面上的内容,即对信息、信息社会、参与信息过程和信息社会的认识和态度层面上的内容,这也是每一个信息人所必须具备的素养。信息技术教育是一种以培养学生信息能力,提高学生的信息素养为目标的学科教育。信息技术教育的教学目标应包括对信息科学的理解;对信息活用的实践能力;对信息社会的认识、态度与参与三个方面。这三个方面不仅规范了信息技术教育的内容,也决定了信息技术教育应采取的方法。根据信息技术教育的目标要求,在信息技术教育中如何培养学生的信息素养呢?

一、要培养学生对信息技术学科的兴趣

美国著名的心理学家布鲁纳说:“学习最好刺激是对学习材料的兴趣。”我国古代教育家孔子也曾经说过:“知之者不如好之者,好之者不如乐之者。”可见学习兴趣的重要性。学生如果提不起学习信息技术的兴趣,就谈不上信息素养的培养。作为教师应把严肃的“讲电脑”和烦闷的“学电脑”变为活泼的“玩电脑”和轻松的“用电脑”,使得课堂气氛轻松而有趣;也可以借助学生对电脑游戏的兴趣,训练和培养学生操作计算机的技能技巧和学习方法。比如,我们可以用纸牌、五子棋游戏教学鼠标的用法;用“打地鼠”和“摘苹果”游戏训练指法。

二、营造良好的校园信息环境

一个良好的信息环境,对信息素养的培养和提高非常重要。目前,许多中小学已有完善的校园局域网,并与g0438034连接,学生在宿舍就可以上网。图书馆有丰富的馆藏,图书馆馆员负责选择、收集、加工、存储信息,并提供某学科或某主题的相关信息等服务;对在校教师、学生进行信息检索、网络资源的培训,对新的网络检索知识开展不定期的讲座,用网络进行信息发布、信息导航、信息交流,用不同形式的读书社或社团开展信息活动,促进信息交流,使整个校园形成了一个浓浓的信息氛围,为信息素养培养奠定了良好的'支撑环境。

三、教师的教育观念和自身信息驾驭能力是培养学生信息素养的前提

培养和提高学生的信息素养,要求教师自身具有较高的信息素养,能把信息教育整合到各科教学中去。课堂教学作为传统的教学组织形式在培养学生信息素养方面具有“主渠道”和“主阵地”的作用,把信息素养的精神、意图整合到课程和教学的要求中去,贯穿于整个教学活动的始终,教师的能力就成了决定教育教学效能的基本因素。教师为了提高自身信息素养应主动在校内外参加培训、观摩教学、讲公开课等活动,听取其他老师、专家的评议和指导,拓展、丰富自己的教学方法;主动争取参加校内外同行之间的教学方案的交流,通过这种交流提高自己的信息能力。

四、在信息技术教育中教会学生运用信息技术的基本技能

随着时代的发展,特别是身处信息时代,通讯能力不仅仅包括阅读、写作和口头表达能力,这只是人们生活的基本技能。在这个分秒必争的网络时代,如果不会使用电子邮件、传真机等先进的通讯设备,那么他将被新的世纪所抛弃,培养学生在信息时代生存的基本技能,信息技术教师还应促使学生掌握搜寻自己所需的信息并能对已有信息进行有效地组织、整理、利用和传播的方法。如:教会学生能熟练使用各种信息的采集工具、编译工具、发送工具、存储工具。能熟练使用阅读、访问、参观、实验、资料检索、电子视听等获取信息的方法。善于运用创造性思维、灵感思维与发散思维方法,通过比较分析、相关分析,寻找信息生长点,发现与创造新的信息。善于运用外界信息改进学习方法,调整学习计划,善于扩充自己的知识信息库与学习方法库,能最大限度地发挥出所发现和占有信息的教育效益和社会效益。信息素养的培养应特别重视学生以信息技术的方法解决实际问题能力的培养。在解决问题的过程中,对信息的理解、对信息的判断和评价比具体机器的操作、具体软件的使用更为重要。在具有通讯能力、阅读能力、写作能力和表达能力的基础上,学习者不断发展自己对信息的敏感度,是有效完成学习任务,学会学习及掌握思考技能的前提条件。

五、在信息技术教育中培养学生思考的技能

这是信息素养三大能力的核心部分。作为信息技术老师应培养学生运用信息技术获取、利用信息的意识。让学生独立地寻求问题的答案,加强对学生思考技能的培养。事实上,学生只有掌握了思考技能,才可能独立地思考、主动提出问题、主动为问题寻求答案,而不必时时依靠教师的帮助去完成学习任务。在我们的生活当中,一件事情通常都有多种解决办法,一个问题也有多种答案。信息素养教育着力于培养学生对一个问题能提出多种解决办法的能力,不禁锢学生的思维,发展他们的发散思维。

总之,信息素养是面向信息社会的每一个成员所必须具备的一种基本素养。学校教育中,为了培养学生的信息素养,必须认真地界定学生的信息素养应包括怎样的内容,在此基础上,采取一定的措施予以培养。只有加强信息素养的教育,教育的职能才会充分发挥作用。同时对于学生的信息素养的培养不是短时间内、几个人就可以完成的,需要大量的时间以及人力物力,更需要教师们首先具有这种信息素养。在信息技术飞速发展的今天,随着信息的增大,信息渠道的拓宽,培养学生的信息素养需要通过信息技术与其他学科的整合,为中学生信息素养的形成奠定前进的方向。信息技术教育的路需要我们在实践工作中去开辟,信息素养的形成,需要学生与教师的共同努力。

参考文献:

[1]burnhein, robert.信息素养——种核心能力[j].澳大利亚图书馆学术和研究,1992.

[2]lenox, mary f. 和michael l. walker.教育过程中的信息素养[j].教育论坛.

本科生毕业设计信息素养教育研究论文

摘要:本科生毕业设计是大学生提升信息素养水平和培养自主学习能力的综合性实践教学环节。基于OBE的教学理念,将工程教育认证中与信息素养相关的能力指标有机地融入到信息素养课程模块中,与院系合作设计了嵌入毕业设计全过程的信息素养教育体系,在实践中采用“嵌入毕业设计答辩环节”和“开发在线反馈平台”相结合的信息素养教育效果评价方式,探索了OBE理念下的信息素养教育模式。

关键词:信息素养教育;自主学习能力;OBE;毕业设计;院馆合作

OBE是Outcome-BasedEducation的缩写,译作“学习产出的教育模式”[1],核心理念为“教育者必须对毕业生毕业时应能达到的能力及水平有清楚的构想,然后寻求设计适宜的教育结构来保证学生达到这些预期目标”。从本质上讲,就是围绕“定义预期学习产出—实现预期学习产出—评估学习产出”这条主线而展开,学生产出评估构成了教育质量持续改进的闭环[2]。通俗来讲,OBE是一种以学生的学习成果(Learningoutcomes)为导向的教育理念,要求以OBE理念开展人才培养的专业首先必须明确学习成果,以毕业要求指标点来体现;其次按毕业要求安排教学活动;再次是对毕业要求的达成情况进行评价。这三方面是实施成果导向教育的关键。前两方面取决于教学设计,后一方面有赖于教学评价。本科生毕业设计是高校OBE人才培养体系中最重要的综合性实践环节,是保证人才培养质量、把好出口关的重要环节。毕业设计从选题、文献调研、实验方案制定到论文写作各个环节都与文献检索与利用息息相关。目前国内高校大都开设有文献检索选修课程和专题讲座,这些常规的信息素养教育与学生的专业学习相脱节,不少学生选修过信息检索课程并取得了优异的成绩,但遇到实际问题时,依然无从下手,这一现象在进行毕业设计时体现得尤为明显。因此有必要探讨如何基于OBE理念及工程教育认证的要求,提炼毕业要求指标中与信息素养相关的能力指标,科学合理地设计毕业设计阶段的教学内容和教学方式,培养和提升学生的信息素养和自主学习。

1OBE理念下人才培养与信息素养教育需求

毕业要求的制定是OBE理念下人才培养的重要环节,是对学生毕业时应掌握的知识和能力的具体描述,包括学生通过专业学习所掌握的知识、技能和素养。毕业要求的确定应该遵循两个原则:(1)要能支撑培养目标的达成;(2)要全面覆盖工程教育专业认证标准要求。目前开展OBE教学改革的高校理工科专业,毕业要求的制定均以中国工程教育专业认证协会颁布的工程教育认证标准(2015年3月修订版)为依据,并且是全包含关系,如表1所示。在OBE教学改革的实践过程中,不同的专业会根据专业本身的特点在以上毕业要求12个指标点的基础上再进一步对每一个指标点进行分解,制定出专业的详尽毕业要求指标点,每一个指标点有对应的课程来支撑。从笔者所在的武昌首义学院开展OBE教学改革的专业来看,毕业要求指标体系中明确提出毕业生应具有包含文献检索、自主学习终身学习等内容,其核心是关注、使用、理解、评估及管理信息的能力,是信息素养教育的核心内容。武昌首义学院OBE教学实践过程中,与信息素养相关指标点对应的教学环节多以课程设计或毕业设计来支撑,如表2所示。随着武昌首义学院OBE教学改革的不断深入,“信息素养教育应当成为学校OBE人才培养体系中的重要内容和必要环节”,这一观点得到学校教学设计者的认可,建议信息素养教育实施部门图书馆联合院系按照OBE理念设计嵌入毕业设计全过程的信息素养教内容、开展教学实践、探索多途径的信息素养教学效果评价方式。

2嵌入毕业设计全过程的信息素养教育设计

为了支撑OBE教学改革毕业要求指标体系中的信息素养相关指标,图书馆必须对传统的信息素养教育的教学理念和教学内容进行改革。在对教师和学生调研的基础上,武昌首义学院图书馆联合院系结合学校OBE教学改革设计嵌入毕业设计全过程的信息素养教育[3],如图1所示。

毕业设计选题阶段

毕业设计选题就是确定研究方向和目标,是毕业设计阶段面临的第一个挑战。选题的好坏往往直接决定毕业设计的质量和成败。此阶段,教学内容的设计围绕学生“如何选题”、“如何撰写开题报告”两大问题进行组织,以案例的形式组织包括选题原则与途径、文献综述的结构、撰写注意事项、资料的搜集与选用等知识点,提升和拓展学生的信息意识和专业信息视野。

毕业设计研究阶段

毕业设计研究阶段是整个毕业设计的核心环节,信息素养教育内容围绕如何选择检索工具、如何高效检索、如何筛选检索结果、常用文献管理软件、参考文献选用标准等问题组织内容,包含了信息素养教育的信息意识、信息获取、信息评价、信息利用和信息道德的完整内容,以培养学生综合利用信息解决专业问题的能力和书面表达能力为目标。

毕业设计定稿及答辩阶段

毕业设计定稿及答辩阶段是毕业设计工作的最后一个关键环节,是一个增长知识、交流研究成果的过程,更是毕业生全面展示自己的智慧、勇气、风度和口才的平台。定稿及答辩准备阶段的教育内容围绕“参考文献、注释、图表等规范”“论文检测标准”“课件制作技巧”等来组织,培养学生端正的学术态度、信息道德以及操作常用数字工具的能力;答辩阶段的研究成果展示、回答提问问题等环节则是综合考察学生的学术水平和素质的关键环节,教学内容以案例的形式展示答辩流程、常见问题类型(如检验真伪、探测水平、弥补不足等)回答问题注意事项、答辩细节(仪态、风度、心态、语言)等。同时教育的内容还包括论文成绩的评定标准,使学生能客观地评价个人的研究成果和不足。毕业设计各阶段的信息素养教育是对技能、思维、实践能力的综合培养[4],各项能力内在之间相关交叉、紧密联系,OBE理念下嵌入毕业设计全过程的信息素养教育,目的是将信息素养教育与专业需求融合,教学内容设计对OBE人才培养中信息素养相关指标点给予对应的支撑,将各种能力融会贯通,进而提升学生的自主学习和终身学习能力。

3嵌入毕业设计全过程的信息素养教育实施与效果评价

嵌入毕业设计全过程的OBE模式信息素养教育实施

学生全“覆盖”OBE教学改革工作中,支撑毕业要求指标体系的课程或教学活动必须遵守全部学生受益的原则,所以,嵌入毕业设计全过程的系列信息素质教育必须至少是覆盖开展OBE教学改革的某个专业全部学生的,这与大部分应用型高校实行的由学生自由选修信息素养教育活动是有本质区别的。OBE模式的信息素养教育对OBE毕业要求指标点具有较强的支撑力度。常规的信息素养教育由于选课学生的随机性,无法考核对OBE毕业要求指标点的支撑度。馆员—教师合作教学毕业设计阶段的信息素质教育具有很强的实践性,专业知识的掌握和运用直接影响到教学的效果和质量。对于图书馆员而言,不可能对各个学科的专业知识都有所了解,馆员教师协同合作正是解决这一问题的关键所在。从教学计划制定、教学内容设计,到学生专业信息技能的评定都需要馆员与专业教师的密切合作。例如在课题研究阶段的合作教学中,权威信息源的选择以及对检索结果文献的取舍都由专业老师来实时讲解,信息素养与专业素养有机融合的授课方式受到同学们的欢迎。教学方式多样化笔者所在图书馆开展的嵌入毕业设计全过程的OBE模式信息素质教育通过“毕业设计开题阶段的信息需求与查找途径”“外文学科资源的检索与利用”“外文摘要的撰写技巧”“WORD排版技巧”“毕业答辩PPT制作与答辩技巧”5个主题组织信息素养教学工作,在教学方式上,采用常规教学与MOOC教学相结合的方式开展。教学馆员需要在教学中借鉴国内外优秀的、成功的课程成果,合理运用到教学中。

嵌入毕业设计全过程的信息素养教育效果评价

嵌入毕业答辩环节的评价指标OBE模式的信息素养教育效果评价是OBE教学工作衡量信息素养教育活动达成度的需要,毕业设计阶段的.信息素质教育效果评价可融入毕业答辩环节来进行,具体方式可通过评分的方式进行,例如“分析课题,构建检索式”“选择检索工具并检索”“列出相关文献,撰写检索结论”可作为评价的三个一级指标,每个一级指标下均列有二级指标“列出相关文献”的下一级指标可包括“重要文献不遗漏”“通过密切相关文献、核心期刊文献、核心作者的文献、课题重要研究机构的文献、高被引文献、高下载量文献等方式筛选相关文献”“按照规范的参考文献格式著录相关文献”等指标并赋予相应的分值。开发在线反馈平台教师和馆员可利用嵌入答辩阶段的评价指标对信息素养教育效果进行评价,在线反馈则是通过学生的在线调查来评价教学效果。武昌首义学院图书馆开发在线的反馈平台,将教学效果反馈调查分阶段嵌入信息素养教育的不同环节,调查内容包括“对提高检索技巧的应用能力”“对提高收集整理有用数据和资料的准确性”“对提高操作word、ppt等常用数字工具的熟练性”“对培养批判性思维能力”等内容。笔者所在学校对接受了毕业设计阶段信息素养教育的学生进行问卷调查,结果显示毕业设计阶段的信息素养教育在提高学生的检索技巧和收集整理资料的能力方面效果显著,但“对培养批判性思维能力”方面的效果评价不高,说明毕业设计阶段的信息素养教育可以提升操作技能,而思维活动则需要循序渐进地给予引导和培养。

4总结与启示

以OBE理念指导高校信息素养教育工作

OBE理念要求教育者根据“学习产出”类型,使用多样化的教学方法,丰富的教学资源,创设丰富的教育环境,调动学生积极地参与到教学过程,最终目标为“提升学生的自主学习和终身学习能力”。信息素养不是一套孤立的技能,而是一种习惯,这种习惯一旦形成会促使学生发现自己的知识差距,主动弥合这种差距,并对他们搜索到的信息进行批判性的思考。OBE模式的信息素养可以理解为融合批判性思维的信息素养,不仅为大学生提供提升知识、能力、技能的机会,更重要的是思维习惯的养成,是大学生自主学习、终身学习的基础。

多层次、多形式的合作教学是提高学生信息素质的有效途径

信息素质培养不是一蹴而就的过程,需要循序渐进,毕业设计阶段的信息素质教育固然很有必要,但也不是一劳永逸的。图书馆应联合院系制定大学四年的全程式的信息素养教育计划,例如针对一年级新生,可采用引导型信息素质教育,教育活动通过图书馆员的现场参观式教学使学生熟悉图书馆的空间布局与服务模式;二三年级学生参赛阶段可结合参赛内容进行专题培训;同时可以联合院系举办形式多样的搜索大赛活动等。

专业信息素养评价标准

培养学生的“自主学习和终身学习”能力是信息素质教育工作的任务和目标,不同的专业对学生这一能力的要求不尽相同的,也就是每个专业都有相应的专业信息素养,期待根据信息素养教育实践,尤其是院系合作的课程教学,结合OBE教学改革中产出评估环节,细化产出评估指标体系,逐步形成适合学生专业的专业信息素养标准,反过来充实专业OBE教学改革中学生产出的评估内容,促进教育质量持续改进。总之,高校图书馆作为OBE教学改革中重要的支持条件,信息素养馆员要充分发挥想象力和创造力,因地制宜开展新的信息素养教育。同时期待与教学管理部门和教师开展更进一步的探讨与合作,通过多学科、多角度、多层面的教育实践去支撑和丰富OBE的产出评估体系,培养高素质的创新型人才。

信息检索技术的使用论文

信息检索技术论文 –基于网格的面向专业内容的Web信息检索1 引言近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1(1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。(2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。(3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。 集群系统的设计由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法:XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。图 网格中间件的设计图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下:(1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。(2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。(3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。(4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。(5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。文秘杂烩网

网络信息检索方法与应用这个原创。联系看我资料

我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之,2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔41。信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词。

现代信息检索论文: 现代信息检索方法的探讨 要想充分利用这些浩如烟海的文献信息资源,必须借助各种各样的检索工具。同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。 一、布尔检索 利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。 下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。 检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。 二、信息检索 信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。 信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。 目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。 三、知识检索 知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。 知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果。

关于信息检索的研究论文

我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之,2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔41。信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词。

现代信息检索论文: 现代信息检索方法的探讨 要想充分利用这些浩如烟海的文献信息资源,必须借助各种各样的检索工具。同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。 一、布尔检索 利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。 下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。 检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。 二、信息检索 信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。 信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。 目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。 三、知识检索 知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。 知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果。

网络信息检索方法与应用这个原创。联系看我资料

相关百科

热门百科

首页
发表服务