一般从中国知网下载论文时,知网会自动提供记录正确的所有参考文献,在论文的下方点击相应的参考文献链接就会自动跳转到相应的参考文献记录上去。当然,你也可以直接跳至论文的文后参考文献中去逐条寻找。
查找论文注意:
大学生毕业论文质量的好坏是评价高校教学水平质量高低的一个重要标准,是对学生的培养质量和综合水平的一个总体检验.通过大学毕业论文写作,可以使大学生熟悉科学技术研究论文写作的基本方法、基本的论文格式与规范,初步了解科研创作的一些技巧,了解本专业方向的一些研究内容,掌握文献资料查找的基本方法。
1 计算机信息检索的基本方法 明确检索要求和检索目标计算机检索的第一步准备工作是明确检索要求和检索目标。明确检索要求就是要搞清楚本课题属于什么学科,所需文献的类型及语种,查找文献的年代,所需文献的最佳篇数,允许支配的检索费用。这些要求对选择数据库、构造检索策略都是十分重要的。 确定检索目标也是进行计算机信息检索前应搞清楚的准备工作。例如:如果属于开题调研,则应尽可能地检索出与之相关的全部文献,即要求较高的查全率;以便充分地做好开题的准备工作;如果属于探索性、开创性的课题,则只需要查出一些启发性的文献,对查准率和查全率要求都不一定有很高的要求。 课题分析1. 课题概念的分析方法分析课题就是分析出课题所涉及的主要概念,并找出能代表这些概念的若干个词或词组,进而分析概念之间的上、下、左、右关系。对于新学科、交叉学科和边缘学科的课题,则要搞清楚这些概念之间的关系。概念分析的结果应以概念组为单元的词或词组的形式列出,以便下一步制订检索策略时使用。 2. 隐含概念的分析方法有些课题的实质性内容往往很难从课题的名称上反映出来,课题所隐含的概念和相关的内容需要从课题所属的专业角度作深入分析,才能提炼出能够确切反映课题内容的检索概念。例如:"社会保障"包含"养老保险"、"失业保险"、"医疗保险"和"社会救济"等概念,如果要检索社会保障方面的文献,应该析出上述概念,才能保证文献的查全率。 3. 核心概念的选取有些检索词中已经含有的某些概念,在概念分析中应予以排除。例如:课题"公司劳动奖励、职工培训和养老保险制度管理的理论和实践",如果把"劳动奖励","职工培训","养老保险","公司","制度","管理"六个概念全部组配起来,则会造成大量文献漏检。实际上,劳动力资源管理已经包含了劳动奖励、职工培训和养老保险三个方面,而且,劳动力管理必然是针对该三个方面而言的。因此,本课题只须采用"劳动力资源"和"管理"这两个本质概念即可。 为了提高文献的检准率,应该从相应的规范词表中选择所需的检索词。并且在确定检索词时,除了要考虑反映主题概念的同义词、近义词等相关的检索词外,还要注意选择被选用检索词的缩写词和不同拼法的词,以避免漏检有关的文献。 检索词的扩展、选择和处理目前的计算机信息检索系统,还不具备智能思考的能力,还不会对所输入的检索词以及涉及的所有词进行自动、全面的检索,因此,必须在概念分析的基础上列出与概念有关的词,从中做出选择,并利用截词等方法对检索词予以归并。 1.相同概念的检索词的扩展扩展相同概念的检索词的方法一般有同义词方法、主题词表方法和截词方法(1) 同义词方法。在同一概念的范畴内,从语言角度,选择不同的名称、不同的拼写方法和单复数形式。不同的名称包括学名和俗名、简称和全称,商品名和物质或产品名,事物的代码和事物的学名。不同的拼写方法,以英语为例,包括英式英语和美式英语的区别。 (2)截词方法。当某些检索词词干相同、词义相近,但词尾或词中间有变化时(多数英语单词的单复数变化和英美不同拼写形式),可以采用截词方法扩展检索词。这种方法要求在词干后使用截词符。截词符一般包括"?"和"*"两种。具体采用什么形式,各个系统都有明确的规定。例如:在DIALOG系统中,截词符号有无限截词算符 ("?") 和有限截词 ("??"和"?? ?")等多种,"?"有时还用做字符屏蔽符。(3)主题词表方法许多数据库都编有自己的主题词表。在数据库编有主题词表的情况下,应该尽量从词表中选择检索词。使用主题词表,不仅可以使检索词更加规范,提高检索结果的准确性,而且可以从同族词中选取更多的上位词、下位词、相关词,使获得的检索结果更为理想。 2.检索词的选择和处理运用上述方法得到的词,首先应加以选择,即注意选用本专业通用的术语(应避免使用冷僻词和根据中文术语自译生造的词),然后以概念为单位,构成组面(facets)。例如:课题"东西方社会保障制度比较研究"的概念组面和检索词为: -------------------------------------------------------------------------------- 2 计算机信息检索的基本方法 概念组面1:"社会保障"social security 概念组面2:"制度研究"system? 数据库的选择不同数据库的学科范围不同,检索指令不同,收费的标准也不同。所以,在检索之前应该阅读有关数据库的使用介绍,以便选择数据库时做到心中有数。 选择数据库,我们一般应该遵循以下几条原则1.按照课题的检索要求和目的,选择收录文献种类多、专业覆盖面宽、年代跨度对口的数据库; 2.当需要查找最新文献信息时,选择数据更新周期短的数据库;3.当还需要获取原文时,选取原文获取较容易的数据库; 4.在同时有多个数据库可供选择的情况下,应首先选择比较熟悉的数据库。 5.当几个数据库的内容交叉重复率比较高时,应选择检索费用比较低的数据库。 检索策略构成和调整方法在实际检索过程中,仅需一个检索词就能满足检索要求的情况并不很多。通常我们需要使用多个检索词构成检索策略,以满足由多概念组配而成的较为复杂课题的要求。 检索策略,又称提问逻辑,就是对多个检索词之间的相互关系和检索顺序作出的某种安排。构成检索策略就是运用计算机情报检索系统可以接受的方法,包括布尔逻辑算符、位置逻辑算符等方法,表达课题检索要求的过程。 1.布尔逻辑算符规定检索词之间的逻辑关系的算符,称为布尔逻辑算符。布尔逻辑算符包括逻辑"或(OR)"、"与(AND)"和"非(NOT)"。 (1) 或(OR)运算符。也可用"+"代替,是用来组配具有同义或同族概念的词,如同义词、相关词等。其含义是,检出的记录中,至少含有两个检索词中的一个。OR算符的基本作用是扩大检索范围,增加命中文献量,提高检索结果的查全率,OR运算符还有一个去重的功能。在实际检索中,同一组面中含义相同的词,相互之间都使用OR运算符。另外,在使用截词方法检索具有相同词干的检索词时,这些词之间也自动地隐含了逻辑"或"的关系。 (2) 与(AND)运算符。也可用"*"代替,用来组配不同检索概念。其含义是检出的记录必须同时含有所有的检索词。AND算符的基本作用是缩小检索范围,减少命中文献量,提高检索结果的查准率。在实际检索中,不同概念组面之间以及同一组面内的不同含义的词之间通常使用AND算符。 (3) 非(NOT)运算符。也可用"-"代替,但在检索时建议使用NOT,以避免与词间的分隔符"-"混淆,NOT算符是排除含有某些词的记录的,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。NOT算符的基本作用是缩小检索范围,提高检索结果的查准率. 2. 位置算符位置算符又称邻接算符(adjacent operators),适用于两个检索词以指定间隔距离或者指定的顺序出现的场合,比如,以词组形式表达的概念;彼此相邻的两个或两个以上的词;被禁用词或特殊符号分隔的词等。位置算符是调整检索策略的一种重要手段。按照两个检索词出现的顺序和距离,可以有多种位置算符,而且对同一种位置算符,检索系统不同,规定的位置算符也不同。例如,Compendex光盘数据库使用的位置算符"(N)"(表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其它词或字母,两词的词序可以颠倒)、"(F)"(表示其两侧的检索词必须在同一字段(例如同在题目字段或文摘字段)中出现,两词的词序可以颠倒)、"(S)"(表示其两侧的检索词必须在同一句子中出现,两词的词序可以颠倒)和"(W)"(表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其它词或字母,两词的词序不可以颠倒)四种。 3.字段限制字段限制也是调整检索策略的一种重要的手段。它是限定检索词必须在数据库记录中规定的字段范围内出现的文献,方为命中文献的一种检索方法。如果想指定在题名等字段中查找所希望的检索词,就需要使用字段限制。字段限制适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索结果的查准率的场合。由于字段限制采用前缀和后缀的形式,因此又称为前缀限制和后缀限制。例如Compendex光盘数据库基本字段限制的用法是在需要指定字段的检索词后加上后缀运算符"/"和段码。这个数据库辅助字段限制的用法是在需要指定字段的检索词(有时检索词须放在双引号内)之前加上段码和前缀运算符"="。 -------------------------------------------------------------------------------- 3 计算机信息检索的基本方法 4. 检索策略的调整检索策略输入检索系统后,系统响应的检索结果有时不一定能满足课题检索的要求,例如:或者检出的篇数过多,而且不相关文献所占比例很大,或者检出的文献数量太少,有时甚至为零,这时就需要调整检索策略。 调整检索策略之前,首先要分析造成检索结果不理想的原因。对于输出篇数过多的情况,应分析是否是由下述原因造成的:①选用了多义性的检索词;②截词截得过短;③输入的检索词太少;④应该使用"与(AND)"的使用了"或(OR)";⑤优先运算符"()"使用错误。对于输出篇数过少的情况,应分析是否是由下述原因造成的:①检索词拼写错误;②遗漏重要的同义词或隐含概念;③检索词过于冷僻具体;④没有使用截词算符;⑤位置算符和字段算符使用的过多;⑥使用过多的"与(AND)"算符。 针对上述原因,如果是属于需要扩大检索范围,提高文献查全率,调整检索策略的方法有:①减少"与(AND)"算符,增加同义词或同族相关词使用逻辑或(OR)将它们连接起来;②在词干相同的单词后使用截词符(?);③去除已有的字段限制、位置算符限制(或者改用限制程度较小的位置算符)。 如果是属于缩小检索范围,提高文献查准率的,调整检索策略的方法有:①减少同义词或同族相关词;②增加限制概念,用逻辑与(AND)将它们连接起来;③使用字段限制,或者限定检索词在指定的基本字段,或者指定的辅助字段出现,限制检索结果的文献类型、语种、出版国家;④使用适当的位置算符;⑤使用"非(NOT)"算符,排除无关概念。 输出格式和方式的选择所谓输出格式的选择是对记录字段的选择。所谓输出方式的选择是指对屏幕显示、打印和存盘的选择。一般情况下,如果输出的是中间结果,属于基本字段的题目(TI)、文摘(AB)、叙词(DE)和识别词(ID)字段是必须的,这些字段有利于观察结果,对检索策略做进一步调整。如果是最终结果,可以根据时间、经费条件选择其中适用的格式。 输出方式的选择,要注意的问题是,数据库是否只允许打印、存盘选中的记录;在选定打印、存盘后,是否还须进一步选择"当前记录""全部记录""选中记录";另外如果是存盘,是否还有文件扩展名的限制。
信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言 近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1 (1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。 (2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。 (3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。 集群系统的设计 由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。 集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。 下面主要说明基于专业内容的XML信息集成系统的构造方法: XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。 目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。 图2 网格中间件的设计 图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。 内部主要功能模块说明如下: (1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。 (2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。 (3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。 (4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。 (5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。 其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。
132 浏览 9 回答
320 浏览 7 回答
135 浏览 5 回答
218 浏览 2 回答
346 浏览 5 回答
103 浏览 6 回答
248 浏览 4 回答
263 浏览 6 回答
355 浏览 5 回答
247 浏览 3 回答
147 浏览 2 回答
207 浏览 2 回答
329 浏览 3 回答
89 浏览 3 回答
227 浏览 3 回答
352 浏览 3 回答
290 浏览 3 回答
178 浏览 2 回答
229 浏览 4 回答
149 浏览 4 回答
133 浏览 7 回答
211 浏览 4 回答
200 浏览 7 回答
134 浏览 6 回答