信息资源组织与检索论文

信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言近年来，互联网得到了迅速的发展，网上信息资源愈来愈庞大，且信息具有量大、分散、异构等特性，因此，传统的Web信息检索工具开始暴露出它性能低下的一面，具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录，根本无法从中再细找，或者找到的内容和要找的内容不是一个专业领域的，造成信息无效的现象。但随着人们信息意识的增强，对信息内容及信息服务的需求也在不断的演变和发展，对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务，使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构，它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理，为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计网格计算是近年来国际上兴起的一种重要信息技术，其目的是将网上各种资源组织在一个统一的大框架下，为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台，实现互联网上所有资源的全面连通，实现信息资源的全面共享。为解决不同领域复杂科学计算与海量信息服务问题，人们以网络互连为基础构造了不同的网格，他们在体系结构，要解决的问题类型等方面各不相同，但网格计算至少需要具有三种基本功能：资源管理、任务管理、任务调度。本文设计的信息检索体系结构，围绕网格计算的基本功能及信息检索的特点，主要有以下三个层次组成：见图1 （1）网格结点：结点是网格计算资源的提供者，本系统主要是由一系列的集群系统组成，它们在地理位置上是分布的，构成了一个分布检索群体，作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理，维护和查询。（2）网格计算中间件：中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分，它根据用户的信息请求任务，在整个网格内负责信息资源的匹配、定位，实现用户任务到集群系统的映射。（3）网格用户层：主要为用户应用提供接口，支持用户对所需要的信息资源进行描述、创建、提交等。图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统，集群系统对集群内的资源进行管理和任务调度，再利用网格中间件对各集群系统进行管理，从而形成对整个网格资源的管理，并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略，又可利用中间件在全局意义上对网格信息资源进行管理。 2.1 集群系统的设计由于Web信息资源数量十分庞大，用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题，往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体，并使其从客户端看来就如同一台服务器在服务，这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略，将Web信息资源按地区按专业内容分割，一方面使信息资源数量相对缩小，便于数据的组织、管理和维护，另一方面按专业内容易于制定一个公用的XML规范，便于集群内各类信息资源的描述，从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent，基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。资源服务Agent根据信息资源请求任务，利用XML信息集成系统提供的数据，为用户提供实际的资源检索操作，并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法： XML（the eXtensible Markup Language）是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准，它是一种可以对信息进行自我描述的语言，它允许开发人员通过创建格式文件DTD（Document Type Definitions）定制标记来描述自己的数据，DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本，因此具有跨平台的优点，XML的优点在于（1）简单、规范性：XML文档基于文本标签，有一套严谨而简洁的语法结构，便于计算机、用户理解；（2）可扩展性：用户可以自定义具有特定意义的标签，自定义的标签可以在任何组织、客户、应用之间共享；（3）自描述性：自描述性使其非常适用不同应用间的数据交换，而且这种交换是不以预先定义一组数据结构为前提，因此具有很强的开放性；（4）互操作性：XML可以把所有信息都存于文档中传输，而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用，因此它为基于特定专业内容的表达提供了一种极好的手段，可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类：存入仓库法（the ware-housing approach）和虚拟法(the virtual approach)，可使用这两类方法利用XML在数据组织和交换方面的优越性，采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射，建立基于XML的Web信息集成系统，其结构与获取信息的工作过程参见文献[2]。图2 2.2 网格中间件的设计图3所示的网格中间件的主要功能是（1）消除不同用户与集群系统之间数据表达的差异，使信息资源数据对用户来说是透明的；（2）管理、维护Web上分布的各集群系统，网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息，对关系数据库的操作可维护集群系统的分布式逻辑，使本结构在可变性和扩充性上具有柔性；（3）接受用户的信息请求任务，能快速定位于满足要求的集群系统，通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下：（1）接收Agent模块：主要用于登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。（2）关系数据库及数据服务Agent：关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。（3）格式转换Agent模块：提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的，各用户对同一数据有不同的表示方法（对信息资源描述存在差异）由于XML文档中这种格式差异体现在与之相关的DTD/Schema上，因此经过格式转换，可使信息资源的格式对用户是透明的。（4） XML文档分析Agent模块：提取格式转换后的XML文档中各个标签，通过查询网格中间件中的关系数据库，实现用户信息请求任务与集群系统的对应关系，并得到满足条件的集群系统的相关信息，获取各集群系统的接口参数。（5）发送Agent模块：将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术，Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征，代表用户完成用户的任务，并能动态适应环境的变化更好地满足用户的需求，提高信息检索的能力。

我给你找了一篇，摘要如下:随着Internet在全世界范围内迅猛发展，网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此，对网络信息的检索技术及其发展趋势进行探讨和研究，是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究，并对网络信息检索的发展趋势进行了预测，旨在寻找提高网络信息检索的手段和方法的有效途径，并最终提高网络信息的检索效果，使得网络信息资源得到充分有效地利用。全文主要包括六个部分，第一部分为网络信息检索述评，主要是阐述了网络信息检索所涉及到的有关概念，如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等，旨在弄清网络信息检索的技术支撑，为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述，主要从其检索机制入手，分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括，并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限，主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本，贴在下面:1.1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展，网上信息资源也以指数形式增加，网络信息资源作为一种新型的信息资源，发挥着越来越重要的作用，其内容几乎无所不包，涉及政治、经济、文化、科学、娱乐等各个方面；其媒体形式多种多样，包括文本、图形、图像、声音、视频等；其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。1.2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的信息需求查找所需信息的过程和技术，所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程，也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中，通过人工查找索引找到对应的文献索引号再获取文献原文；②联机信息检索。这其中也存在一个发展过程，由检索结果来看，从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文；由检索方法来看，从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中，全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速，成为深受人们关注的一种非常有效的信息检索技术，它是从大容量文档库中精确定位所需信息的最有效手段l3]。.3.2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br，singsystelns)。只要能够进入hitemct就能够通过浏览器，利用HTTP协议提供的WV乃万服务，浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点，它是以一定的技术和策略在intemet中搜集和发现网络信息，并对网络信息进行理解、提取和处理，建立数据库，同时以认倪b形式提供一个检索界面，供用户输入检索关键词、词组或短语等检索项，代替用户在数据库中查找出与提问相匹配的记录，同时返回结果且按相关度排序输出，从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息，另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要，所以它是面向用户的，采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。1.4网络信息检索效果评价目前，得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式，其中以查全率和查准率最为重要。现代信息科学技术的发展，为人们提供了多种多样的信息获取和传送方法及技术，从“信源”与“用户”的关系来看，可分为两种模式:“信息推送”模式(InformationPush)，由“信源”主动将信息推送给“用户”，如电台广播；“信息拉取”模式(InformationPull)，由“用户”主动从“信源”中拉取信息，如查询数据库。2.2.1信息推送技术“推”模式网络信息服务，是基于网络环境下的一种新的服务形式，即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术，是因为借助该技术使网络信息服务具有主动性，不仅可以直接把用户感兴趣的信息推送给用户，而且可有效地利用网络资源，提高网络吞吐率；再者，Push技术还允许用户与提供信息的服务器之间透明地进行通信，极大地方便了用户。所谓Push技术，又称“推送”技术、Web广播(Webeasting)技术，实质上是一种软件，这种软件可以根据用户定义的准则，自动搜集用户最可能发生兴趣的信息，然后在适当的时候，将其传递至用户指定的“地点”。因而从技术上看，“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件，该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息)，还能够主动从网上搜寻信息，并经过筛选、分类、排序，然后按照每个用户的特定要求，主动推送给用户141。(l)信息推送方式。信息推送方式分两类，即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式，它将某些页面定义为浏览器中的频道，用户可像选择电视频道那样接受有兴趣的网播信息；邮件式推送，用电子邮件方式主动将所推送信息发布给各用户，如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户，如某企业、某组织、某个人的网页；专用式推送。采用专门的信息发送和接收软件，信源将信息推送给专门用户，如机密的点对点通信。智能推送方式有:操作式推送(客户推送式)，由客户数据操作启动信息推送。当某客户对数据进行操作时，把修改后的新数据存入数据库后，即启动信息推送过程，将新数据推送给其他客户；触发式推送(服务器推送式)，由ll硕士学位论文MASTER，5THESIS⑧数据库中的触发器启动信息推送过程，将新数据推送给其他客户，当数据发生变化，如出现增加(Insert)、删除(Delete)、修改(update)操作时，触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而，主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说，Push技术可以针对用户的特定信息需求进行检索、加工和推送，并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至，Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索，收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性，控制搜索的深度，过滤掉不必要的信息，将认飞b站点的资源列表及其更新状态配以客户代理完成。因而，网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动，有效地利用网络带宽，比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要，灵活地设置连接时间，通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现，不仅需要信息技术设备，而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段，“推”技术还存在很大的缺陷，比如:不能确保信息发送，没有状态跟踪，缺乏群组管理功能等等。因此，国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制)，摒弃了Push的诸多缺点之，2硕士学位论文MASTER，5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户，同时保持连续性的用户资料，随时可以知道谁收到了信息，信息是否为该用户定制，用户环境是否适当等等[刀。2.2.2信息拉取技术常用的、典型的信息拉取技术，如数据库查询，是由用户主动查询数据库，从数据库中拉取所需信息。其主要优点是:针对性好，用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上，用户面对的不止是一个数据库，而是拥有海量信息的hitemet环境，因此，各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点，在实际中常常是将两者的结合起来，常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息)，再有针对性地拉取所需的信息。这样，便于用户注意信息变化的新情况和趋势，从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息，然后根据用户的兴趣，再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中，允许用户随时中断、定格在所感兴趣的网页上，作进一步的搜索，主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中，根据用户输入的关键词，信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务，又可以减轻网络的负担，并便于扩大用户范围[8]。因此，信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。2.3Web挖掘技术随着功temet的发展，W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时，又使得人类的信息环境更加复杂，人硕士学位论文MASTER，5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决，相反，随着信息技术的发展，信息量的激增，造成了个人实际所需信息量与研触b上的海量信息之间的矛盾，因而也就造成了个人利用信息的困难。在这种情况下，虽然出现了叭范b环境下的专门检索工具，但是由于搜索引擎是由传统检索技术发展而来，在当前用户要求不断提高的情况下，传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源，W七b挖掘作为新的知识挖掘的手段，为Web信息的利用提出了新的解决方案叨。2.3，1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料，从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段，它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识，以实现Web资源的自动检索，提高web数据的利用效率。随着Intemet的进一步延伸，Web数据越来越庞大，种类越来越繁多，数据的形式既有文本数据信息，也有图像、声音、视频等多媒体数据信息，既有来自于数据库的结构化数据，也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而，对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度，主要研究如何处理文本格式和超级链接文档，这些数据是非结构化或半结构化的。处理非结构化数据时，一般采用词集方法，用一组组词条来表示非结构化的文本，先用信息评价技术对文本进行预处理，然后采取相应的模型进行表示。另外，还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时，可以利用一些相关算法给超级链接分类，寻求认七b页面关系，抽取规则。同处理非结构化数据相比，由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构，使得表示半结构化数据的方法更加丰富。二是从数据库的角度，主要处理结构化的W匕b数据库，也就是超级链接14⑧蕊誉蕊文档，数据多采用带权图或者对象嵌入模型(OME)，或者关系数据库表示，应用一定的算法，寻找出网站页面之间的内在联系，其主要目的是推导出Web站点结构或者把W匕b变成一个数据库，以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化，研究认触b上的高级查询语言，使其不局限于关键字查询；二是信息的集成与抽取，把每个W七b站点及其包装程序看成是一个认范b数据源，通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成；三是叭几b站点的创建与重构，通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘，主要指的是通过对W七b文档的分析，从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系，W七b结构挖掘关注的则是网站中的超级链接结构之间的关系，找到隐藏在一个个页面之后的链接结构模型，可以用这个模型对W七b页面重新分类，也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据，页内结构可以用超文本标记语言等表示成树型结构，此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系，如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类，可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息，通过研究W亡b页面内部结构，可寻找出与用户选定的页面集合信息相关的其它页面信息模式，以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析，从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式，它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点，使得在认七b网上进行内容挖掘比较困难，它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构，当信息用户访问web站点时，与访问相关的页面、时间、用户ro等信息，日志中都作了相应的记录，因而对其进行信息l5硕士学位论文MASTER，5THESIS⑥挖掘是可行的，也是有意义的。在技术实践过程中，一般先把日志中的数据映射成诸种关系信息，并对其进行预处理，包括清除与挖掘不相关的信息等。为了提高性能，目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度，行为挖掘也应用到站点结构信息和页面内容信息等方面。2.3.2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程，由于用传统的信息检索技术对W己b文档的处理不够深入，因此，可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善，具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息，然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息，就可以对W七b网页的信息有大致的了解，决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别，利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围，大大提高查准率。目前，己经出现了很多文本分类技术，如TFIFF算法等，由于文本挖掘与搜索引擎所处理的文本几乎完全一样，所以可以直接将文本分类技术应用于搜索引擎的自动分类之中，通过对大量页面自动、快速、有效的分类，来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反，文本聚类指的是将文档集合中的文档分为更小的簇，要求同一簇内的文档之间的相似性尽可能大，而簇与簇之间的关系尽可能小，这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别，从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比，它的分类更加迅速、客观。同时，文本聚类可与文本分类技术相结合，使得信息处理更加方便。可以对检索结果进行分类，并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构，一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理，所以搜索引擎一般不处理这些信16硕士学位论文MASTER，S竹正515⑧息，而是将叭触b页面作为平面机构的文本进行处理。但是，在从触b结构挖掘中，通过对研触b文档组织结构的挖掘，搜索引擎可以进一步扩展搜索引擎的检索能力，改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容，通过研触b行为挖掘，不仅可以发现多数用户潜在共同的行为模式，而且还可以发现单个用户的个性化行为，对这些模式进行研究，可以更好地对搜索引擎的检索效果进行反馈，以便进一步改进搜索策略，提高检索效果。2.3.3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示，都不能完全解决W七b数据的非结构性问题，特别是汉语句子格式繁多，虚词、实词没有绝对的界限，切分词难度大，这些是造成无法对数据进行完全自动标引的根本性问题，因此，从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储，并最终实现智能化、自动化的数据表示和标引，以供搜索之用。通常数据的表示和数据的利用形式是相互关联的，因此，设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引，这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展，网站的内容也越来越丰富，结构也越来越庞杂，用有向图表示巨型网站链接结构将不能满足数据处理的需要，需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流，那么，对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等，不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3)，eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性，客户端、代理服务器端缓存的存在，使用户访问日志分别存在于服务器、代理服务器和客户端，因此，从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理，形成一个个用户一次的访问期间。通常来讲，对于静态W七b网站，服务器端的日志容易取得，客户端和代l7理服务器用户访问日志不容易取得；其次，由于一个完整的W匕b是由一个个图片和框架页面组成的，而用户访问服务器也有并发性，在确定用户访问内容时，必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外，由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的，在处理海量Web用户访问日志中也需要重新设计算法结构〔41。2.4信息过滤技术hitemet开放式的环境，为人们检索和利用信息提供了极大的方便，但同时，网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为，第一，网络环境中信息的来源复杂多样，随意性大，任何人、任何单位不管其背景和动机如何都可以在网络上发布信息，信息的产生和传播没有经过筛选和审定，因此信息的可靠性、质量和价值成为用户普遍担心的一大问题；第二，目前大多数据搜索工具的检索范围是综合性的，它们的Robots尽可能地把各种网页抓回来，经过简单加工后存放在数据库中备检；第三，搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配，返回给用户的就是所有包括关键词的文献，这样的检索结果在数量上远远超出了用户的吸收和使用能力，让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视，它的目的就是让搜索引擎具有更多的“智力”，让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中，从关键词的选择、检索范围的确定到检索结果的精炼，帮助用户在浩如烟海的信息中找到和需求真正相关的资料。2.4.1信息过滤模型信息过滤其实质仍是一种信息检索技术，因此它仍依托于某一信息检索模型，不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中，它以文献中是否包含关键词来作为取舍标准，因此，它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时，用户提交关键词。

我给你找了一篇，摘要如下：随着Internet在全世界范围内迅猛发展，网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此，对网络信息的检索技术及其发展趋势进行探讨和研究，是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究，并对网络信息检索的发展趋势进行了预测，旨在寻找提高网络信息检索的手段和方法的有效途径，并最终提高网络信息的检索效果，使得网络信息资源得到充分有效地利用。全文主要包括六个部分，第一部分为网络信息检索述评，主要是阐述了网络信息检索所涉及到的有关概念，如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等，旨在弄清网络信息检索的技术支撑，为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述，主要从其检索机制入手，分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括，并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限，主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本，贴在下面：1.1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展，网上信息资源也以指数形式增加，网络信息资源作为一种新型的信息资源，发挥着越来越重要的作用，其内容几乎无所不包，涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样，包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。1.2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的信息需求查找所需信息的过程和技术，所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程，也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中，通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程，由检索结果来看，从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看，从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中，全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速，成为深受人们关注的一种非常有效的信息检索技术，它是从大容量文档库中精确定位所需信息的最有效手段l3]。.3.2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br，singsystelns)。只要能够进入hitemct就能够通过浏览器，利用HTTP协议提供的WV乃万服务，浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点，它是以一定的技术和策略在intemet中搜集和发现网络信息，并对网络信息进行理解、提取和处理，建立数据库，同时以认倪b形式提供一个检索界面，供用户输入检索关键词、词组或短语等检索项，代替用户在数据库中查找出与提问相匹配的记录，同时返回结果且按相关度排序输出，从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息，另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要，所以它是面向用户的，采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。1.4网络信息检索效果评价目前，得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式，其中以查全率和查准率最为重要。现代信息科学技术的发展，为人们提供了多种多样的信息获取和传送方法及技术，从“信源”与“用户”的关系来看，可分为两种模式:“信息推送”模式(InformationPush)，由“信源”主动将信息推送给“用户”，如电台广播;“信息拉取”模式(InformationPull)，由“用户”主动从“信源”中拉取信息，如查询数据库。2.2.1信息推送技术“推”模式网络信息服务，是基于网络环境下的一种新的服务形式，即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术，是因为借助该技术使网络信息服务具有主动性，不仅可以直接把用户感兴趣的信息推送给用户，而且可有效地利用网络资源，提高网络吞吐率;再者，Push技术还允许用户与提供信息的服务器之间透明地进行通信，极大地方便了用户。所谓Push技术，又称“推送”技术、Web广播(Webeasting)技术，实质上是一种软件，这种软件可以根据用户定义的准则，自动搜集用户最可能发生兴趣的信息，然后在适当的时候，将其传递至用户指定的“地点”。因而从技术上看，“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件，该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息)，还能够主动从网上搜寻信息，并经过筛选、分类、排序，然后按照每个用户的特定要求，主动推送给用户141。(l)信息推送方式。信息推送方式分两类，即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式，它将某些页面定义为浏览器中的频道，用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送，用电子邮件方式主动将所推送信息发布给各用户，如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户，如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件，信源将信息推送给专门用户，如机密的点对点通信。智能推送方式有:操作式推送(客户推送式)，由客户数据操作启动信息推送。当某客户对数据进行操作时，把修改后的新数据存入数据库后，即启动信息推送过程，将新数据推送给其他客户;触发式推送(服务器推送式)，由ll硕士学位论文MASTER，5THESIS⑧数据库中的触发器启动信息推送过程，将新数据推送给其他客户，当数据发生变化，如出现增加(Insert)、删除(Delete)、修改(update)操作时，触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而，主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说，Push技术可以针对用户的特定信息需求进行检索、加工和推送，并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至，Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索，收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性，控制搜索的深度，过滤掉不必要的信息，将认飞b站点的资源列表及其更新状态配以客户代理完成。因而，网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动，有效地利用网络带宽，比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要，灵活地设置连接时间，通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现，不仅需要信息技术设备，而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段，“推”技术还存在很大的缺陷，比如:不能确保信息发送，没有状态跟踪，缺乏群组管理功能等等。因此，国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制)，摒弃了Push的诸多缺点之!2硕士学位论文MASTER，5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户，同时保持连续性的用户资料，随时可以知道谁收到了信息，信息是否为该用户定制，用户环境是否适当等等[刀。2.2.2信息拉取技术常用的、典型的信息拉取技术，如数据库查询，是由用户主动查询数据库，从数据库中拉取所需信息。其主要优点是:针对性好，用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上，用户面对的不止是一个数据库，而是拥有海量信息的hitemet环境，因此，各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点，在实际中常常是将两者的结合起来，常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息)，再有针对性地拉取所需的信息。这样，便于用户注意信息变化的新情况和趋势，从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息，然后根据用户的兴趣，再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中，允许用户随时中断、定格在所感兴趣的网页上，作进一步的搜索，主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中，根据用户输入的关键词，信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务，又可以减轻网络的负担，并便于扩大用户范围[8]。因此，信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。2.3Web挖掘技术随着功temet的发展，W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时，又使得人类的信息环境更加复杂，人硕士学位论文MASTER，5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决，相反，随着信息技术的发展，信息量的激增，造成了个人实际所需信息量与研触b上的海量信息之间的矛盾，因而也就造成了个人利用信息的困难。在这种情况下，虽然出现了叭范b环境下的专门检索工具，但是由于搜索引擎是由传统检索技术发展而来，在当前用户要求不断提高的情况下，传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源，W七b挖掘作为新的知识挖掘的手段，为Web信息的利用提出了新的解决方案叨。2.3，1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料，从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段，它主要从下面3个方面进行仁’时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识，以实现Web资源的自动检索，提高web数据的利用效率。随着Intemet的进一步延伸，Web数据越来越庞大，种类越来越繁多，数据的形式既有文本数据信息，也有图像、声音、视频等多媒体数据信息，既有来自于数据库的结构化数据，也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而，对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度，主要研究如何处理文本格式和超级链接文档，这些数据是非结构化或半结构化的。处理非结构化数据时，一般采用词集方法，用一组组词条来表示非结构化的文本，先用信息评价技术对文本进行预处理，然后采取相应的模型进行表示。另外，还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时，可以利用一些相关算法给超级链接分类，寻求认七b页面关系，抽取规则。同处理非结构化数据相比，由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构，使得表示半结构化数据的方法更加丰富。二是从数据库的角度，主要处理结构化的W匕b数据库，也就是超级链接14⑧蕊誉蕊文档，数据多采用带权图或者对象嵌入模型(OME)，或者关系数据库表示，应用一定的算法，寻找出网站页面之间的内在联系，其主要目的是推导出Web站点结构或者把W匕b变成一个数据库，以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化，研究认触b上的高级查询语言，使其不局限于关键字查询;二是信息的集成与抽取，把每个W七b站点及其包装程序看成是一个认范b数据源，通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构，通过研究web上的查询语言来实现建立并维护web站点的途径[’“]。(2)札b结构挖掘。W匕b结构挖掘，主要指的是通过对W七b文档的分析，从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系，W七b结构挖掘关注的则是网站中的超级链接结构之间的关系，找到隐藏在一个个页面之后的链接结构模型，可以用这个模型对W七b页面重新分类，也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据，页内结构可以用超文本标记语言等表示成树型结构，此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系，如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类，可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息，通过研究W亡b页面内部结构，可寻找出与用户选定的页面集合信息相关的其它页面信息模式，以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析，从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式，它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点，使得在认七b网上进行内容挖掘比较困难，它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构，当信息用户访问web站点时，与访问相关的页面、时间、用户ro等信息，日志中都作了相应的记录，因而对其进行信息l5硕士学位论文MASTER，5THESIS⑥挖掘是可行的，也是有意义的。在技术实践过程中，一般先把日志中的数据映射成诸种关系信息，并对其进行预处理，包括清除与挖掘不相关的信息等。为了提高性能，目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度，行为挖掘也应用到站点结构信息和页面内容信息等方面。2.3.2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程，由于用传统的信息检索技术对W己b文档的处理不够深入，因此，可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善，具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息，然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息，就可以对W七b网页的信息有大致的了解，决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别，利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围，大大提高查准率。目前，己经出现了很多文本分类技术，如TFIFF算法等，由于文本挖掘与搜索引擎所处理的文本几乎完全一样，所以可以直接将文本分类技术应用于搜索引擎的自动分类之中，通过对大量页面自动、快速、有效的分类，来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反，文本聚类指的是将文档集合中的文档分为更小的簇，要求同一簇内的文档之间的相似性尽可能大，而簇与簇之间的关系尽可能小，这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别，从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比，它的分类更加迅速、客观。同时，文本聚类可与文本分类技术相结合，使得信息处理更加方便。可以对检索结果进行分类，并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构，一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理，所以搜索引擎一般不处理这些信16硕士学位论文MASTER，S竹正515⑧息，而是将叭触b页面作为平面机构的文本进行处理。但是，在从触b结构挖掘中，通过对研触b文档组织结构的挖掘，搜索引擎可以进一步扩展搜索引擎的检索能力，改善检索效果〔’3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容，通过研触b行为挖掘，不仅可以发现多数用户潜在共同的行为模式，而且还可以发现单个用户的个性化行为，对这些模式进行研究，可以更好地对搜索引擎的检索效果进行反馈，以便进一步改进搜索策略，提高检索效果。2.3.3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示，都不能完全解决W七b数据的非结构性问题，特别是汉语句子格式繁多，虚词、实词没有绝对的界限，切分词难度大，这些是造成无法对数据进行完全自动标引的根本性问题，因此，从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储，并最终实现智能化、自动化的数据表示和标引，以供搜索之用。通常数据的表示和数据的利用形式是相互关联的，因此，设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引，这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展，网站的内容也越来越丰富，结构也越来越庞杂，用有向图表示巨型网站链接结构将不能满足数据处理的需要，需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流，那么，对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等，不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3)，eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性，客户端、代理服务器端缓存的存在，使用户访问日志分别存在于服务器、代理服务器和客户端，因此，从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理，形成一个个用户一次的访问期间。通常来讲，对于静态W七b网站，服务器端的日志容易取得，客户端和代l7理服务器用户访问日志不容易取得;其次，由于一个完整的W匕b是由一个个图片和框架页面组成的，而用户访问服务器也有并发性，在确定用户访问内容时，必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外，由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的，在处理海量Web用户访问日志中也需要重新设计算法结构〔’41。2.4信息过滤技术hitemet开放式的环境，为人们检索和利用信息提供了极大的方便，但同时，网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为，第一，网络环境中信息的来源复杂多样，随意性大，任何人、任何单位不管其背景和动机如何都可以在网络上发布信息，信息的产生和传播没有经过筛选和审定，因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二，目前大多数据搜索工具的检索范围是综合性的，它们的Robots尽可能地把各种网页抓回来，经过简单加工后存放在数据库中备检;第三，搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配，返回给用户的就是所有包括关键词的文献，这样的检索结果在数量上远远超出了用户的吸收和使用能力，让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视，它的目的就是让搜索引擎具有更多的“智力”，让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中，从关键词的选择、检索范围的确定到检索结果的精炼，帮助用户在浩如烟海的信息中找到和需求真正相关的资料。2.4.1信息过滤模型信息过滤其实质仍是一种信息检索技术，因此它仍依托于某一信息检索模型，不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中，它以文献中是否包含关键词来作为取舍标准，因此，它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时，用户提交关键词……………………………………太长发不全希望对你有用实在不行联系我（给我留言）我发给你邮箱。

信息资源检索与利用论文

同时，因特网信息资源的骤增及其异构性、动态性，不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理，从本质上变革信息资源检索方法，已成为现代化信息知识检索理论研究的热点。实践证明，将人工智能技术与信息技术结合，发挥人工智能的作用，是一条成功的经验。下面就知识检索与信息检索的关联和发展，作初步的探讨。一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配，是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种，分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式，计算机将根据提问式与系统中的记录进行匹配，当两者相符时则命中，并自动输出该文献记录。下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”，表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”，表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”，表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。检索中逻辑算符使用是最频繁的，对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求，除要掌握检索课题的相关因素外，还应在布尔算符对检索结果的影响方面引起注意。另外，对同一个布尔逻辑提问式来说，不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。二、信息检索信息检索起源于图书馆的参考咨询和文摘索引工作，从19世纪下半叶首先开始发展，至20世纪40年代，索引和检索已成为图书馆独立的工具和用户服务项目。信息检索通常指文本信息检索，包括信息的存储、组织、表现、查询、存取等各个方面，其核心为文本信息的索引和检索。它是基于信息组织形式，如字符串、结构化数据库，应用信息处理方法，如排序数据查找、字符匹配，实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术，改进了基本检索功能，但缺点是对精确的提问不能给出精确的回答。从历史上看，信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前，信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容；信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众，他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。三、知识检索知识检索的基本思想是，模拟扩展人类关于知识处理与利用的智能行为和认识思维方法，是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如：抽象思维方法，形象思维方法。知识检索具有明显的优势：①实现信息服务向知识服务的转化，向用户提供潜在内容知识，以及分析预测后的超前性领域成果或知识。②提供主动服务方式，自动优化用户需求，主动提供个性化检索。③面向用户，依据用户的需求及其变化，能灵活选择理想的检索策略和技术，并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术，全面提高检索效率。

“信息资源共享”课程检索报告一检索课题数字图书馆个性化服务研究现状二主题分析随着数字图书馆建设和网络通讯技术的高速发展, 数字资源越来越多, 而人们获取所需资源的可能性则越来越少, 用户需求的专业化、垂直化激化了数字图书馆大量信息数据库与用户需求之间的矛盾。1999 年, 美国图书馆与信息技术联合会(LITA) 10 位著名的数字图书馆专家在研讨会上, 把个性化定制服务列为数字图书馆发展的7 大趋势之首。目前, 数字图书馆个性化的信息服务已经开始得到普遍的关注, 人们正在为提供个性化信息服务做出努力的尝试。数字图书馆个性化服务是近几年数字图书馆研究中受到关注较多的一个研究方向，数字图书馆个性化服务是基于信息用户的信息使用行为，习惯，偏好，特点及用户特定的需求，来向用户提供满足其个性化需求的信息内容和系统功能的一种服务。关于数字图书馆个性化服务研究现状，该主题涉及到：（1）数字图书馆个性化服务的有哪些介绍（2）数字图书馆个性化服务的模式有什么（3）数字图书馆个性化服务的技术研究有哪些（4）数字图书馆个性化服务研究的最新进展（2005年-2007年）三检索情况（一）检索工具1．维普中文期刊数据库（1989-2007）2．中国期刊全文数据库（1994-2007）（二）检索过程1．检索途径关键词题名主题词2．检索用词数字图书馆关键词或题名、主题词个性化服务关键词或题名、主题词3．检索策略（1）维普中文期刊数据库(题名或关键词=数字图书馆)*(题名或关键词=个性化服务) 在高级检索中选择题名或关键词字段，输入“数字图书馆”和“个性化服务”两个检索词进行限定，年代限定在2005-2007年，共检索出78条记录。（2）中国期刊全文数据库（题名或关键词=数字图书馆）* (题名或关键词=数字图书馆)在高级检索中选择篇名字段，输入“数字图书馆”与“个性化服务”，年代限定在2005-2007，共检出89条记录。四检索结果分析（一）检索结果经检索上述两个数据库，有关数字图书馆个性化服务的研究论文众多，现选出其中具有代表性，研究主题未重复的文献。1．中国期刊全文数据库（1）数字图书馆个性化信息服务系统研究刘燕平图书情报工作 2006/S2（2）数字图书馆个性化服务系统分类体系问题叶红科技信息(学术研究) 2007年13期（3）浅析智能搜索引擎技术及其在数字图书馆个性化信息服务中的应用王林廷高校图书情报论坛 2006年01期（4）数据挖掘技术在数字图书馆个性化服务中的应用朱冰冰科技情报开发与经济 2006年24期（5）数字图书馆个性化信息服务发展研究马维华郑州大学学报(哲学社会科学版) 2006年06期（6）智能推送技术在数字图书馆个性化服务中的应用石岩情报探索 2006年11期（7）基于文本过滤的数字图书馆个性化服务技术张帆计算机工程与应用 2006年31期（8）数字图书馆信息门户的个性化服务模式何平中国信息导报 2006年08期（9）网络信息技术下的数字图书馆个性化服务张丹林区教学 2006年07期（10）MyLibrary——数字图书馆个性化服务新趋势杨华农业图书情报学刊 2006年08期（11）基于Web服务组合的数字图书馆个性化动态定制服务构建张晓青情报学报 2006年03期（12）校园网中数字化图书馆个性化服务的实现朱江峰科技经济市场 2006年01期（13）数字图书馆的个性化推送服务白雪松图书馆杂志 2005年09期（14）Web日志挖掘在数字图书馆个性化服务中的应用王英培科技情报开发与经济 2005年22期（15）国内外数字图书馆个性化信息服务系统的功能与特征比较研究张俊情报理论与实践 2005年06期（16）基于知识管理的数字图书馆个性化服务机制研究郭琳四川图书馆学报 2004年05期2．维普中文期刊数据库（17）基于Web挖掘的数字图书馆个性化技术研究王艳张帆情报杂志 2007年1期（18）基于文本过滤的数字图书馆个性化服务技术张帆杨炳儒计算机工程与应用 2006年31期（19）数字图书馆信息门户的个性化服务模式何平陈有志中国信息导报 2006年8期（20）个性化服务深度与广度解决方式探讨刘月胜数字图书馆论坛 2006年6期（21）个人数字图书馆模式的分析石德万李军现代情报 2005年9期（22）数字图书馆个性化信息环境与服务构建杜安平韶关学院学报 2005年3期（23）数字图书馆个性化信息服务的技术实现张云瑾许春漫农业图书情报学刊 2005年6期（24）个性化信息服务的模式研究及策略分析杜春光国家图书馆学刊 2005年2期（二）检索结论文献一论述了个性化信息服务的涵义,阐述数字图书馆开展个性化信息服务的有利条件,国内外图书馆的有关研究开发状况,分析国内数字图书馆个性化信息服务系统应用实例,并时其工作流程,主要功能进行剖析,指出该系统目前存在的问题,提出改进对策。文献二围绕数字图书馆个性化服务系统分类体系问题展开探讨。首先,简要介绍数字图书馆个性化服务系统的主要内容,包括其定义和服务内容。其次,从用户分类和信息分类两个方面阐述目前数字图书馆个性化服务系统存在的问题。用户分类主要存在的两个问题,根据用户特点分析提出相应建议。信息分类问题从五个方面进行讨论,列举数字图书馆个性化服务系统页面进行分析,提出解决方法。文献三介绍了智能信息检索的实质和发展方向,是智能搜索引擎技术的不断改进和广泛应用。以这一技术为基础构建数字图书馆的个性化服务系统,是数字图书馆信息服务的现实需要。文章论述了当前搜索引擎存在的不足,概述了智能搜索引擎的原理机制及其优越性,探讨了该技术在数字图书馆个性化服务中的应用。文献四阐述了数字图书馆的定义,介绍了个性化服务的工作原理和国内外个性化服务系统的现状,探讨了分类模型、关联模型、序列模型、聚类模型、回归模型以及时间序列模型的原理,对如何把其用在数字图书馆的个性化服务上以描述用户需求,提出了建议。文献五介绍了数字图书馆个性化信息服务是当今图书馆发展的重要趋势,目前国内外都已有比较成熟的数字图书馆个性化信息服务系统,服务方式及其功能也多种多样,但是探索图书馆个性化信息服务有效模式的任务仍很艰巨。文献六介绍了智能推送技术和个性化服务的内容,讨论了将智能推送技术应用于数字图书馆个性化服务,以及智能推送技术存在的优势与不足。文献七提供了一种针对数字图书馆个性化服务策略的文本过滤技术,通过在向量空间内建立用户兴趣模型和文本内容特征模型,计算它们的相似度后,将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法,最后给出了在实际的数字图书馆工程中的验证结果。文献八试图对数字图书馆信息门户下的个性化服务模式进行研究,从双向互动式信息服务、集成式信息检索服务、动态式馆藏特色信息服务、渗透式垂直信息门户服务、追踪式数据挖掘信息服务等服务模式来探讨数字图书馆个性化服务的有效模式及发展建势。文献九简述了数字图书馆个性化服务的内涵,分析了网络信息技术对其各项服务的支撑,并通过My Library实例对这些具体技术的集成化运用加以探讨,为构建可互操作的数字图书馆个性化服务系统提供参考。文献十就My Library(我的图书馆)的产生,及其概念、类型、特征、原理、功能等诸方面做了简要的论述,并介绍了它在国内外的发展现状,指出其今后的发展方向。文献十一介绍了Web服务组合是一种利用现有Web服务动态构建新的能满足用户需求的复杂Web服务的Web服务技术。将数字图书馆各种资源组件、应用组件、功能组件和管理组件进行Web服务描述,人们就能利用Web服务组合技术根据用户的个性化需求实现对不同数字图书馆各种组件的动态集成,从而实现开放环境下数字图书馆的个性化动态定制服务。本文讨论了基于Web服务组合的数字图书馆个性化动态定制服务的基本系统架构、构建模型,并对构建过程中需要注意的几个问题展开了讨论。文献十二介绍了数字化图书馆建设是图书信息化发展的必然,而个性化服务能够根据用户不同的特点,提供切实的服务,以更好地为读者服务。本文对数字化图书馆的个性化服务进行了讨论,分析了关键的实现技术,并给出了部分核心代码。文献十三介绍了个性化推送服务是数字图书馆研究的热点,也是建设数字图书馆的关键问题之一。本文针对各种不同的信息形式提出了相应的实现方案,并对实际操作中的几个难点事项做了简要讨论。文献十四介绍了Web日志挖掘的基本概念和过程,指出通过对读者在数字图书馆服务中留下的日志信息进行挖掘,可以实现个性化服务,更好地满足不同类别读者的需求。文献十五从个性化信息服务的概念入手,介绍了个性化信息服务的几种类型,包括分类定制服务、信息推送服务、智能代理服务和垂直门户服务等,并介绍了目前国内外若干图书馆已经开展的个性化信息服务的典型应用实例。在此基础上总结了这些个性化信息服务系统的共同功能与特征,并进行了一些比较研究。文献十六介绍了构建一个基于信息过滤技术的信息服务系统是数字图书馆实现个性化信息服务的有效手段。通过对信息过滤技术概念的研究和与信息检索概念的比较,抽象出此类系统的一般模型,并沿用查全率和查准率评价信息过滤的效果,最后分析了个性化信息服务系统实现的关键技术。文献十七提出一种基于Web挖掘技术的个性化实现策略，针对数字图书馆资源的文献，改进了经典的算法，分别从Web内容挖掘、结构挖掘和日志挖掘出发，建立用户动态的兴趣特征模型，使之更具有实用性和针对性。文献十八提出在数字图书馆的应用中，个性化服务可以为用户提供符合其兴趣的检索结果。提供了一种针对数字图书馆个性化服务策略的文本过滤技术，通过在向量空间内建立用户兴趣模型和文本内容特征模型，计算它们的相似度后，将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法，最后给出了在实际的数字图书馆工程中的验证结果。文献十九试图对数字图书馆信息门户下的个性化服务模式进行研究,从双向互动式信息服务、集成式信息检索服务、动态式馆藏特色信息服务、渗透式垂直信息门户服务、追踪式数据挖掘信息服务等服务模式来探讨数字图书馆个性化服务的有效模式及发展趋势。文献二十提出数字图书馆的个性化服务决定了它在借助网络技术的基础上向学科馆和联盟制方向发展，以提高资源的利用率和解决个性化服务的深度与广度问题。文献二十一根据个人数字图书馆文献信息资源存储位置的不同．把个人数字图书馆划分为远程个人数字图书馆和本地个人数字图书馆两种模式，着重对这两种模式的个人数字图书馆的功能特点进行比较分析。文献二十二提出构建数字图书馆的个性化信息服务实际上就是要在数字图书馆上实现个性化资料、个性化检索、个性化过滤、个性化服务等四种环境．数字图书馆可以开发个人图书馆、检索帮助、个性化信息咨询、信息代理、垂直门户等多种个性化信息服务。文献二十三阐述了数字图书馆个性化信息服务的概念、研究与应用的现状，并分析了实现数字图书馆个性化信息服务所需的技术。文献二十四强调个性化信息服务在数字图书馆中有其特定的定义，也是数字图书馆发展中的必需。根据网络环境下图书馆信息服务的内容及用户行为的不同，可以有多种个性化服务模式，有策略地开展服务。（三）结果分析从2005-2007年所发表的关于图书馆学个性化服务的论文可以看出，研究的主题和方向主要集中在以下几个方面：1．数字图书馆个性化服务的概念研究。在中国期刊全文数据库检索到的89篇文章中，有40篇是论述图书馆个性化服务概念的研究。在这些文章中作者都对数字图书馆个性化服务概念有自己的认识，对于这个概念的研究也越来越深入。2．数字图书馆个性化服务的方式研究。对于数字图书馆个性化信息服务模式, 也在摸索实践中。目前有以下几种方式：（1）信息分类定制服务方式。分定制是指信息用户可以按照自己的目的和需求，在某一特定的系统功能和服务形式中，自己设定信息的资源类型、表现形式，选取特定的系统服务功能等。（2）信息推送服务方式。是运用推送技术（push technology）来实现的一种个性化主动信息服务的方式。（3）信息智能代理服务方式。它是一种能够完成委托任务的计算机系统，能模仿人的行为执行一定的任务，不需要或很少需要用户的干预和指导。通过跟踪用户在信息空间中的活动，自动捕捉用户的兴趣爱好，主动搜索可能引起用户兴趣的信息并提供给用户。（4）信息垂直门户服务方式。通过汇聚网上某一特定专题信息资源并对其进行挖掘及加工，以满足用户基于专业的深入的信息需求。（5）信息帮助检索服务方式。如何帮助用户进行高效的信息检索也是当今数字图书馆信息服务向纵深发展的一个重要内容。（6）数据挖掘服务方式。从数据库中发掘人们感兴趣的知识，这些知识是隐含的、潜在的，目的是帮助用户寻找数据间潜在的关联。（7）信息呼叫中心服务方式。主要利用电话、传真等方式来服务客户，处理简单的呼叫流程。在这些方式中，现在比较热门的个人图书馆（My library）是上述部分个性化服务方式的具体应用，是当前开发应用较为成熟的图书馆个性化服务模式系统，也是一个完全个性化的私人信息空间。3．数字图书馆个性化服务关键技术研究。数字图书馆个性化信息服务的应用技术, 集现代信息技术之大成。它包括推送技术、智能代理技术、智能搜索引擎技术、网页动态生成技术、数据挖掘技术、信息过滤技术、过程跟踪技术、安全身份认证技术、数据加密技术等, 这些都可以为数字图书馆的个性化服务方式提供技术支持。4．国内外数字图书馆个性化服务现状研究。还有一部分论文是主要介绍当今国内外数字图书馆个性化服务的现状，通过介绍这些先进的技术和模式来指导我国数字图书馆个性化的服务。5．其他研究。除了数字图书馆个性化信息服务的概念、模式、技术和国内外研究现状外, 数字图书馆个性化信息服务的研究还就数字图书馆个性化信息服务的模型构建、用户评价、馆员角色的变化、存在的问题与对策等作了深入探讨。综上所述，这两年国内有关数字图书馆个性化服务的研究可谓是硕果累累，随着对数字图书馆个性化信息服务理论研究和实践的不断深入，我国数字图书馆个性化信息服务一定能够真正实现以用户需求为中心, 利用数字图书馆信息资源开展不同层次的、多种类型的、满足用户个性需求的有效信息服务。五检索情况总结由于这个学期开了数字图书馆这门课，对于数字图书馆有一些简单的了解，特别是对个性化信息服务这部分内容有兴趣，课本上涉及得比较少，所以就把这个内容作为了检索主题。在选择检索工具时选择了平时最常用的两个检索工具，本来还选用了中文Google，想找一下国内在研究这个主题的项目或者网站，但是检索到的内容数量实在太庞大，而且检索到的大量结果都来自各个数据库的论文，最后就放弃了使用搜索引擎。在构造检索策略时，因为该主题比较简单，不用构造很复杂的检索式，就选择了“数字图书馆”和“个性化服务”作为关键词，开始有想到是不是需要使用与“数字图书馆”概念相近的“电子图书馆”或者“虚拟图书馆”，但考虑到国内现在已经比较统一的使用“数字图书馆”这个概念，使用其他两个词检索到的文章不多，所以还是以数字图书馆为重点。检索途径选择了关键词，题名以及主题词，在使用中国期刊全文数据库进行检索时，一开始是使用关键词作为检索途径，检索出423条记录，但是有很多文章与该主题相关度不高，所以采用了篇名作为检索途径，这样两个词同时限定在文章题名中，检索的相关度就非常高，但也可能会造成漏检。觉得自从学习检索课程以来，检索最难的就是检索式的构造，检索式构造的好与坏，直接关系到检索结果的好坏。维普提供的字段有题名或关键词字段，使用高级检索将两个检索词都限定在这个字段中，检索出来的结果相对比较精确。检索完成之后，接下来的工作就是分析检索结果，这其实也是难度挺大的一项任务，要看完150几篇文章不是一件简单的事，文摘和篇名这个时候就帮了很大的忙了，一般看文摘可以略知一二，需要了解详细内容的再打开全文阅览。从文章中归纳出研究的主要内容和方向，找出比较有特色而又不重复的内容，最后再整理出结论，这就是我整个辛苦但却有趣的检索过程。通过完成这次作业，首先就是复习与巩固了以往的知识，平时虽然也经常在进行检索，但是严格按照检索步骤进行的就不太多，也没有这么有条理的对整个检索过程做一个安排，并按照计划一步一步的执行，直到完成检索结果。其次就是以往做作业都是完成老师布置的具体任务，有些题目比较简单或是比较有兴趣的检索起来还好，有些比较深奥的主题做起来真的十分困难，没有专业背景，拿到题目和检索出来的结果就觉得十分茫然。而这次老师让我们自己选择题目，我就可以从自己的兴趣和想了解的领域下手，这样完成作业的过程也不再那么枯燥，兴致自然也大了很多。还有最重要的是，做作业的目的不只是完成作业，更重要的是有收获，巩固了检索知识自不用说，通过这次阅读大量文章，也算对所检索的主题有了一个大概的认识和了解，增长了知识，开阔了视野，可是说从完成这次检索作业中的确是收获不少。

信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言近年来，互联网得到了迅速的发展，网上信息资源愈来愈庞大，且信息具有量大、分散、异构等特性，因此，传统的Web信息检索工具开始暴露出它性能低下的一面，具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录，根本无法从中再细找，或者找到的内容和要找的内容不是一个专业领域的，造成信息无效的现象。但随着人们信息意识的增强，对信息内容及信息服务的需求也在不断的演变和发展，对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务，使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构，它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理，为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计网格计算是近年来国际上兴起的一种重要信息技术，其目的是将网上各种资源组织在一个统一的大框架下，为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台，实现互联网上所有资源的全面连通，实现信息资源的全面共享。为解决不同领域复杂科学计算与海量信息服务问题，人们以网络互连为基础构造了不同的网格，他们在体系结构，要解决的问题类型等方面各不相同，但网格计算至少需要具有三种基本功能：资源管理、任务管理、任务调度。本文设计的信息检索体系结构，围绕网格计算的基本功能及信息检索的特点，主要有以下三个层次组成：见图1 （1）网格结点：结点是网格计算资源的提供者，本系统主要是由一系列的集群系统组成，它们在地理位置上是分布的，构成了一个分布检索群体，作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理，维护和查询。（2）网格计算中间件：中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分，它根据用户的信息请求任务，在整个网格内负责信息资源的匹配、定位，实现用户任务到集群系统的映射。（3）网格用户层：主要为用户应用提供接口，支持用户对所需要的信息资源进行描述、创建、提交等。图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统，集群系统对集群内的资源进行管理和任务调度，再利用网格中间件对各集群系统进行管理，从而形成对整个网格资源的管理，并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略，又可利用中间件在全局意义上对网格信息资源进行管理。 2.1 集群系统的设计由于Web信息资源数量十分庞大，用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题，往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体，并使其从客户端看来就如同一台服务器在服务，这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略，将Web信息资源按地区按专业内容分割，一方面使信息资源数量相对缩小，便于数据的组织、管理和维护，另一方面按专业内容易于制定一个公用的XML规范，便于集群内各类信息资源的描述，从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent，基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。资源服务Agent根据信息资源请求任务，利用XML信息集成系统提供的数据，为用户提供实际的资源检索操作，并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法： XML（the eXtensible Markup Language）是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准，它是一种可以对信息进行自我描述的语言，它允许开发人员通过创建格式文件DTD（Document Type Definitions）定制标记来描述自己的数据，DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本，因此具有跨平台的优点，XML的优点在于（1）简单、规范性：XML文档基于文本标签，有一套严谨而简洁的语法结构，便于计算机、用户理解；（2）可扩展性：用户可以自定义具有特定意义的标签，自定义的标签可以在任何组织、客户、应用之间共享；（3）自描述性：自描述性使其非常适用不同应用间的数据交换，而且这种交换是不以预先定义一组数据结构为前提，因此具有很强的开放性；（4）互操作性：XML可以把所有信息都存于文档中传输，而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用，因此它为基于特定专业内容的表达提供了一种极好的手段，可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类：存入仓库法（the ware-housing approach）和虚拟法(the virtual approach)，可使用这两类方法利用XML在数据组织和交换方面的优越性，采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射，建立基于XML的Web信息集成系统，其结构与获取信息的工作过程参见文献[2]。图2 2.2 网格中间件的设计图3所示的网格中间件的主要功能是（1）消除不同用户与集群系统之间数据表达的差异，使信息资源数据对用户来说是透明的；（2）管理、维护Web上分布的各集群系统，网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息，对关系数据库的操作可维护集群系统的分布式逻辑，使本结构在可变性和扩充性上具有柔性；（3）接受用户的信息请求任务，能快速定位于满足要求的集群系统，通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下：（1）接收Agent模块：主要用于登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。（2）关系数据库及数据服务Agent：关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。（3）格式转换Agent模块：提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的，各用户对同一数据有不同的表示方法（对信息资源描述存在差异）由于XML文档中这种格式差异体现在与之相关的DTD/Schema上，因此经过格式转换，可使信息资源的格式对用户是透明的。（4） XML文档分析Agent模块：提取格式转换后的XML文档中各个标签，通过查询网格中间件中的关系数据库，实现用户信息请求任务与集群系统的对应关系，并得到满足条件的集群系统的相关信息，获取各集群系统的接口参数。（5）发送Agent模块：将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术，Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征，代表用户完成用户的任务，并能动态适应环境的变化更好地满足用户的需求，提高信息检索的能力。

文献信息资源检索论文

信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言近年来，互联网得到了迅速的发展，网上信息资源愈来愈庞大，且信息具有量大、分散、异构等特性，因此，传统的Web信息检索工具开始暴露出它性能低下的一面，具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录，根本无法从中再细找，或者找到的内容和要找的内容不是一个专业领域的，造成信息无效的现象。但随着人们信息意识的增强，对信息内容及信息服务的需求也在不断的演变和发展，对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务，使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构，它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理，为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计网格计算是近年来国际上兴起的一种重要信息技术，其目的是将网上各种资源组织在一个统一的大框架下，为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台，实现互联网上所有资源的全面连通，实现信息资源的全面共享。为解决不同领域复杂科学计算与海量信息服务问题，人们以网络互连为基础构造了不同的网格，他们在体系结构，要解决的问题类型等方面各不相同，但网格计算至少需要具有三种基本功能：资源管理、任务管理、任务调度。本文设计的信息检索体系结构，围绕网格计算的基本功能及信息检索的特点，主要有以下三个层次组成：见图1 （1）网格结点：结点是网格计算资源的提供者，本系统主要是由一系列的集群系统组成，它们在地理位置上是分布的，构成了一个分布检索群体，作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理，维护和查询。（2）网格计算中间件：中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分，它根据用户的信息请求任务，在整个网格内负责信息资源的匹配、定位，实现用户任务到集群系统的映射。（3）网格用户层：主要为用户应用提供接口，支持用户对所需要的信息资源进行描述、创建、提交等。图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统，集群系统对集群内的资源进行管理和任务调度，再利用网格中间件对各集群系统进行管理，从而形成对整个网格资源的管理，并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略，又可利用中间件在全局意义上对网格信息资源进行管理。 2.1 集群系统的设计由于Web信息资源数量十分庞大，用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题，往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体，并使其从客户端看来就如同一台服务器在服务，这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略，将Web信息资源按地区按专业内容分割，一方面使信息资源数量相对缩小，便于数据的组织、管理和维护，另一方面按专业内容易于制定一个公用的XML规范，便于集群内各类信息资源的描述，从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent，基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。资源服务Agent根据信息资源请求任务，利用XML信息集成系统提供的数据，为用户提供实际的资源检索操作，并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法： XML（the eXtensible Markup Language）是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准，它是一种可以对信息进行自我描述的语言，它允许开发人员通过创建格式文件DTD（Document Type Definitions）定制标记来描述自己的数据，DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本，因此具有跨平台的优点，XML的优点在于（1）简单、规范性：XML文档基于文本标签，有一套严谨而简洁的语法结构，便于计算机、用户理解；（2）可扩展性：用户可以自定义具有特定意义的标签，自定义的标签可以在任何组织、客户、应用之间共享；（3）自描述性：自描述性使其非常适用不同应用间的数据交换，而且这种交换是不以预先定义一组数据结构为前提，因此具有很强的开放性；（4）互操作性：XML可以把所有信息都存于文档中传输，而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用，因此它为基于特定专业内容的表达提供了一种极好的手段，可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类：存入仓库法（the ware-housing approach）和虚拟法(the virtual approach)，可使用这两类方法利用XML在数据组织和交换方面的优越性，采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射，建立基于XML的Web信息集成系统，其结构与获取信息的工作过程参见文献[2]。图2 2.2 网格中间件的设计图3所示的网格中间件的主要功能是（1）消除不同用户与集群系统之间数据表达的差异，使信息资源数据对用户来说是透明的；（2）管理、维护Web上分布的各集群系统，网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息，对关系数据库的操作可维护集群系统的分布式逻辑，使本结构在可变性和扩充性上具有柔性；（3）接受用户的信息请求任务，能快速定位于满足要求的集群系统，通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下：（1）接收Agent模块：主要用于登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。（2）关系数据库及数据服务Agent：关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。（3）格式转换Agent模块：提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的，各用户对同一数据有不同的表示方法（对信息资源描述存在差异）由于XML文档中这种格式差异体现在与之相关的DTD/Schema上，因此经过格式转换，可使信息资源的格式对用户是透明的。（4） XML文档分析Agent模块：提取格式转换后的XML文档中各个标签，通过查询网格中间件中的关系数据库，实现用户信息请求任务与集群系统的对应关系，并得到满足条件的集群系统的相关信息，获取各集群系统的接口参数。（5）发送Agent模块：将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术，Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征，代表用户完成用户的任务，并能动态适应环境的变化更好地满足用户的需求，提高信息检索的能力。

①首先要在三大网上中文期刊数据库中查找最新的期刊论文文献。中文科技期刊全文数据库和中国期刊网 ②在清华库中有中国优秀博硕士学位论文全文数据库和中国重要会议论文全文数据库，也是撰写毕业论文的重要信息来源； ③三大中文数字图书馆（超星、方正、书生）是重要的文献信息来源； ④使用两大搜索引擎，可以帮助你扩大思考的范围，指引你找到新的文献信息资源 ⑤如果找不到足够多的文献怎么办？可以采用“滚雪球法”进行查找，即利用已找到的文献后的参考文献扩大检索范围。清华库中的《中国期刊引文——全文链接记录库》也是帮助你实现“滚雪球查找”的有力工具；

信息检索与毕业论文

《毕业论文写作与文献检索》从实际出发，既重视介绍毕业论文写作和信息检索的一般知识，更注重实用性和可操作性，其目的是使大学生全面了解撰写毕业沦文的知识和方法，提升文献资料收集整理与利用水乎，激发创新意识，培养创新能力，尽快进入写作状态，顺利完成毕业论文，并为将来走上工作岗位或进一步的深造打下一个坚实的基础。全书共分12章，前9章着重介绍了毕业论文写作与答辩等方面的知识，后3章是信息检索方面的内容，编者将这两部分内容有机地融为一体，每章后均附思考题，并配有多媒体课件等辅助性教学资料第1章毕业论文概述1.1 毕业沦文的意义和作用1.2 毕业论文的特点和分类1.3 毕业论文写作的基本要求1.4 毕业设计(论文)成绩评定和管理思考题第2章毕业论文的选题2.1 选题的意义和作用2.2 选题的原则和方法2.3 毕业论文的开题报告思考题第3章毕业论文的材料3.1 材料在毕业论文中的作用3.2 毕业论文材料的收集3.3 毕业论文材料的整理思考题第4章毕业论文的构成形式与行文格式4.1 毕业论文的基本结构4.2 毕业论文的章节、段落和层次4.3 毕业论文行文的格式要求思考题第5章毕业论文的撰写要点5.1 毕业论文结构的策划5.2 毕业论文提纲的拟定5.3 毕业论文初稿的撰写思考题第6章毕业论文写作中常见的问题6.1 选题和观点方面的问题6.2 结构和格式方面的问题6.3 材料和语言方面的问题6.4 文体和文风方面的问题思考题第7章毕业论文的修改7.1 毕业沦文修改的重要性7.2 毕业沦文修改的范围7.3 毕业论文修改的方法思考题第8章毕业论文的答辩8.1 毕业论文答辩的必要性8.2 毕业论文答辩前的各项准备8.3 毕业论文答辩的一般程序8.4 毕业论文答辩时应注意的问题思考题第9章毕业论文的指导9.1 如何争取指导教师的最佳指导9.2 毕业论文指导的内容9.3 毕业论文指导的方法9.4 指导教师的修养思考题第10章信息检索基础知识10.1 信息、知识、情报和文献10.1.1 基本概念10.1.2 文献信息的分类10.2 信息检索的发展与分类10.2.1 信息检索发展历史10.2.2 信息检索的分类10.2.3 信息检索的作用10.3 信息检索的基本原理和方法10.3.1 信息检索原理10.3.2 检索策略与检索步骤10.3.3 检索方法与检索效果思考题第11章检索语言和检索工具11.1 检索语言的基本概念11.1.1 分类检索语言11.1.2 主题检索语言11.1.3 分类-主题检索语言11.1.4 描述文献外表特征的语言11.2 常用检索工具简介11.2.1 手工检索工具11.2.2 全文数据库检索11.3 光盘检索思考题第12章因特网信息资源检索12.1 因特网信息检索概述12.2 因特网信息检索策略及技巧12.2.1 因特网信息检索策略12.2.2 因特网信息检索技巧12.3 因特网检索工具12.3.1 搜索引擎简介12.3.2 搜索引擎的使用12.4 因特网科技信息资源实例思考题附录1 标点符号用法附录2 数字用法附录3 法定计量单位附录4 例文1附录5 例文2参考文献毕业论文是高等教育的重要教学环节，也是每个大学生都要完成的一门必修课。撰写毕业论文既可以全面检验学生在校期间所学知识的理解和运用能力，还可以使学生得到从事科学技术研究的基本训练。毕业论文的质量，是反映学生素质、能力、水平的重要标志，同时也是对高等学校全程教学工作的一种综合检验。在当今信息社会，科学技术发展日新月异，随着信息网络技术的发展，网络资源、光盘数据库等越来越多地成为文献检索的工具和信息源。本书的作者都是从事高等院校教学和管理工作多年的教师，多年从事指导大学生毕业论文写作的工作，有的还负责组织毕业论文答辩工作。同时，我们还就几所应用型本科和高职高专院校的大学生毕业论文写作与答辩过程中的一些问题进行了认真的调查研究。通过以上工作我们发现，部分学生缺少写作常识，不知怎样选题和答辩，不会查找文献信息，材料的收集、分析、加工、利用的能力较弱，再加上一些高校指导毕业论文写作的力度不够，图书资料不够系统全面，使有的同学毕业论文写作陷入困境，毕业论文的质量难以得到保证。因此，我们深深地感受到编写一本指导学生进行毕业论文写作以及信息检索的教材很有必要。

论文写作中文献资料检索

在社会的各个领域，许多人都写过论文吧，借助论文可以达到探讨问题进行学术研究的目的。一篇什么样的论文才能称为优秀论文呢？下面是我收集整理的论文写作中文献资料检索，欢迎阅读与收藏。

自从有了文献便有了文献检索。当人们从中查找所需信息时,文献检索也就应运而生。只不过早期可检索的对象较少,因而检索是一个不自觉的过程。早期的文献检索主要是手工检索,人们通过“心想、手翻、眼看”的方式进行。随着社会的发展和文献量的增加,人们逐渐认识到文献检索的必要性与重要性,现代文献检索是以计算机网络技术和现代信息技术为基础,在文献检索的应用中逐渐发展起来。

一、文献检索概述

文献是用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。也可以理解为古今一切社会史料的总称。现在通常理解为图书、期刊等各种出版物的总和。

文献是记录、积累、传播和继承知识的最有效手段,是人类社会活动中获取情报的最基本、最主要的来源,也是交流传播情报的最基本手段。根据载体把其分为印刷型、缩微型、机读型和声像型。根据不同出版形式及内容,可以分为:图书、连续性出版物、特种文献。

电子文献是以数字方式将图、文、声、像等信息储存在磁、光、电介质上,通过计算机、网络或相关设备使用的记录有知识内容或艺术内容的文献信息资源,包括电子书刊、数据库、电子公告等。

文献检索,就是从文献信息集合中找出所需要的文献的过程,相当于人们通常所说的资料查寻。

二、纸质文献的检索

纸质文献的检索一般分为两种:直接检索和间接检索。直接文献检索地目的是为了获取所需要的文献。因此,有时可以直接从报刊杂志中通过浏览的方法直接获得所需文献,称之为直接检索。它具有方便、快捷的特点,适于浏览新到的书刊资料,有时是一种获得最新情报的方法,但同时又受到各种限制而漏查很多相关文献。因此,它只能作为一种辅助性的检索方法。

间接文献检索是一个利用检索工具并从中查出特定文献的过程。这一过程就称为间接检索。它可以比较系统地、全面地获得相关课题的文献信息。我们需要掌握的就是这种利用检索工具的间接检索的方法。这也是文献检索的主要方式。它大体上可以分为以下五个步骤:

(一)分析研究课题,明确检索要求:弄清楚课题的性质及学科专业范围是什么,所需的文献类型,要求的文种、年代的限定、课题的关键词等等是检索的第一步。

(二)选择检索工具:根据检索课题的要求,选择最能满足检索要求的检索工具或数据库。首先必须对各种检索工具所覆盖的学科范围有清楚的了解,然后从文献的类型、文种、出版的时间等方面来考虑选用哪种检索工具最合适。

(三)确定检索策略:选用具体的检索工具后,就要考虑选择和确定检索方法,确定具体的检索点,是从分类途径还是从主题途径检索,所查找的文献要达到什么要求,选用什么检索词等,以便具体进行检索。

(四)使用检索工具:确定了具体的检索方法后,就要利用所用的检索工具,在一定的年代和文献范围内具体查找,以获得文献信息。手工检索时可以一边检索一边分析取舍,获得符合需要的文献。(五)获取原文:检索文献最终要获取原文,如果在馆藏文献中查不到,则可通过各类联合目录获得其他单位收藏的信息,再通过馆际互借等途径或方式获取原文。这样就完成了文献检索的全过程。

文献检索方法主要有三种:

(一)追溯法(亦称滚雪球法):利用著者发表的文献后所列的参考文献为线索,由近及远,进行逐一追踪的查找办法,追查原文,再从这些原文后所附的参考文献逐一检索,象滚雪球似的获得一批批相关文献的方法。它是科研人员常喜欢用的一种简便的获得文献的途径。

(二)常用法:常用法也称工具法,就是直接利用各种文献检索工具查找文献的方法。由于检索工具的种类繁多,一般应根据课题内容特点,首先利用综合性的检索工具,然后再使用专业性的检索工具,二者结合,才不致造成文献资料的漏检。常用法根据时间范围又分为顺查法、倒查法和抽查法。

(三)循环法:循环法也称分段法、交替法或综合法,这是追溯法和常用法的结合。是将追溯法和常用法结合起来交替使用,充分发挥二者的优势分期、分段地交替使用,直到获得满意的相关文献为止。实际课题的检索选用何种方法,要根据具体情况而定:一是根据课题研究的需要;二是视所能利用的检索工具和检索手段。在检索工具比较丰富的条件下,可以利用常用法;在获得针对性很强文献的条件下可利用追溯法获得相关性较强的文献;获悉研究课题出版文献较多的年代可利用抽查法。

三、电子文献的检索

随着计算机、数据库和互联网络技术的普及,电子化图书馆、文献资料网络化服务等正成为我们获取文献资料的必不可少的手段,是我们学习、工作和科研的有力助手。利用好电子文献和检索工具,掌握好网络信息的搜索方法和策略对于获取信息是必要的。

传统的图书检索手段和方法对电子信息的检索作用有限。现代文献信息均能以数字化的形式获得,如电子图书、电子期刊、学位论文、会议论文、专利文献、标准文献、声像资料、多媒体资料等。电子文献的检索途径主要有以下几种:

(一)网络目录和搜索引擎

各种各样的Internet网络文献检索工具不计其数,根据提供检索与否,有网络目录和搜索引擎之分。

网络目录是按主题的等级排列的主题类目索引,类别目录按一定的主题分类体系组织,排列方法有字母顺序法、时序法、地序法、主题法等或是各种方法综合使用。用户通过逐层浏览类别目录、逐步细化的方式来寻找合适的类别直至具体资源。

搜索引擎则强调的是它的检索功能,能提供布尔逻辑检索、短语或邻近检索、模糊检索、自然语言检索等方式查询信息。各种资源进行标引,并为检索者提供检索的工具。基于搜索引擎的检索方法接近于通常所熟悉的检索方式,即输入检索词以及各检索词之间的逻辑关系,然后检索软件根据输入信息在索引库中搜索,获取检索结果,并输出给用户。

(二)联机馆藏目录

网络上有许多机构提供的馆藏书目信息、中外文期刊联合目录信息。其中包括各图书馆和信息机构提供(下转第137页)

(上接第36页)的公共联机检索(OPAC)馆藏书目、地区或行业的图书馆的联合目录等。

中国国家图书馆在网上提供图书目录在线检索,有题名、责任者、出版者、关键词、标准书刊号、分类号、出版地、出版国等10个检索途径。全国高等教育文献保障体系(CALIS)提供61所高校的馆藏期刊、书目和学位论文联合查询。

(三)网络数据库

网络数据库包括综合性和专业性期刊数据库、专利数据库等信息资源。这类信息资源可分为商业性和非商业性的数据库。这些数据库由专门的信息机构或公司专业制作和维护,信息质量高,是专业领域内常用数据库。

非商业性数据库因为免费使用,用户以较低的成本可获得所需的信息,所以也有很高的吸引力。如:IBM公司的免费专利文献数据库,提供美国专利的免费检索,用户可检索到1971 年以来的美国专利说明书的内容,包括专利书目信息和专利项,浏览1974年以来的专利文献。

(四)电子出版物

由于网上信息传播速度快,越来越多的出版商注重网上报刊发行。目前国内外已有很多出版高和信息服务中介商介入电子出版行业。电子出版物有电子图书、电子期刊和电子报纸。

(五)参考工具书

网络中许多参考资料是可以免费使用的,如新格罗夫音乐与音乐家大词典、英国大不列颠百科全书、汉语词典、学校或企业名录、中国国家统计局统计资料等大型工具书已加入因特网。

文献检索和使用的工作贯穿了论文写作的全过程:我们往往是先确定写作的大致内容;其次根据这个大致内容确定文献搜集的范围;然后阅读了主要的文献后再确定研究写作的具体内容;最后根据具体内容全面检索原始文献, 搜得的文献又充实了论文写作的基础。

一、文献检索的意义

文献检索在毕业论文撰写中的重要作用文献检索就是从大量的文献中迅速、准确地查出与特定的科学研究课题有关的资料。文献检索在大学生毕业论文撰写中有着不可替代的重要作用。

1.文献检索便于继承和借鉴前人的科研成果，避免重复研究

积累、继承和借鉴前人的研究成果是科学发展的重要前提，没有继承和借鉴就不可能有创新。毕业论文选题同科研选题、立项一样，必须通过文献信息检索或查新技术掌握国内外同类研究的动态进展，从中吸收有益的启示或参考数据，掌握大量相关信息，或得到更多、更有价值的论证依据。正如英国物理学家牛顿所说的是“站在巨人的肩膀上”，是指科研要熟悉别人的劳动成果，从前人研究的`“终点”中，找出自己研究的“起点”，从前人所用的研究方法、手段中受到启发，拓宽思路，分析研究所占有的资料，提炼出正确鲜明的观点。

2.文献检索有利于节省大学生查找文献时间，提高毕业论文质量

信息时代文献资料的迅猛增长，使得文献资料的`检索困难重重。如能灵活运用文献检索的技能，缩减检索时间，即能延长论文的写作时间。同时，文献信息检索利用可为毕业论文的观点提供理论依据和支持。大学生通过对文献信息检索分析比较后，才能从论题的创新性、内容的科学性等方面进行质量评价，进而提高论文质量。

3.文献检索启发学生的创造性思维与研究能力

图书馆文献是过去知识经验的总结，也是未来知识发展的向导。在文献检索过程中与论题有关联的文献信息很容易激发、调动大学生的潜在知识和智能，并从中获得灵感。不同的观点和方法，可促进大学生以发散性思维思考分析问题，拓展认识的深度和广度，进而全面获取有关学科的文献信息，及时了解学科领域中出现的新问题、新理论和新观点。图书馆文献信息检索利用的过程就是提高大学生研究能力的过程

二、文献检索的途径与方法

1.分析研究课题，确定检索要求

在进行具体的文献检索前，首先要分析课题，抓住课题的本质和要求，掌握代表课题内容的主题概念及其相关事物。依据本课题主题词来选定相应的检索工具，并从中选定检索标志，确定检索途径。在这方面自然科学、工程技术、人文和社会科学等具有不同的检索内容和要求。

2.选择检索工具

目前全世界有 2000 余种手工检索工具（书本型检索工具），还有联机检索、光盘数据库检索、Internet 网络检索等计算机检索工具。选择检索工具可利用“检索工具书指南”以及各种检索教材来了解检索工具书的收录情况。结合本课题，针对图书馆文献资料收藏情况，确定采用手工检索与机检相结合的方法。常用的检测工具包括以下几种：

书本检测工具：全国报刊索引、复印报刊资料、报刊资料索引、中国社会科学文献题录、国外社会科学论文索引等。

光盘数据库：全国报刊索引数据库、中国学术期刊（光盘版）、中国科学引文数据库、中国科技期刊篇名数据库、中国科技期刊篇名数据库等。

网络资源：中国知网、中国期刊网、、院校图书馆等。

3.文献检索的途径与方法

文献检索方法可分为常用法、追溯法和分段法三种。常用法是利用检索工具查找文献的方法，有三种类型，一是顺查，是以检索课题起始年代为起点，按时间顺序由远及近的查找文献的方法。二是倒查，是逆时间顺序由近及远的查找文献的方法。三是抽查，是针对学科发展的特点，抽出该学科发展迅速，发表文献比较集中的一段年代，抽查某几年的书籍和期刊、数据库。追溯法是利用已有文献后面所附的参考文献进行追溯查找的方法。一般参考文献中的原文结尾都附有新的参考文献目录，可视需要一直追溯下去，从而获得足够的文献资料。利用这些资料特别要注意综述性的文献资料，因为这些资料已对某一问题进行了一定的归纳整理，这样可以节约查找、阅读原始文献的时间。追溯法比较适合初写论文的大学生选用。分段法是将常用法与追溯法交替使用，既利用工具书检索，又利用文献后所附参考文献进行追溯。

另外，要检索重点资料，掌握核心期刊。核心期刊是期刊中学术水平较高的刊物，是我国学术评价体系的一个重要组成部分。它主要体现在对科研工作者学术水平的衡量方面，如在相当一批教学科研单位申请高级职称、取得博士论文答辩资格、申报科研项目、科研机构或高等院校学术水平评估等，都需要在核心期刊上发表一篇或若干篇论文。某学科（或某领域）的核心期刊，是指那些发表该学科（或该领域）论文较多、使用率（含被引率、摘转率和流通率）较高、学术影响较大的期刊。目前国内有 7 大核心期刊(或来源期刊)遴选体系：

（1）“北大核心”：北京大学图书馆“中文核心期刊”，即北京大学图书馆与北京高校图书馆期刊工作研究会联合编辑出版的《中文核心期刊要目总览》，每四年修订一次，目前是 2012 版；

（2）“南大核心”：南京大学“中文社会科学引文索引(CSSCI)来源期刊”；

（3）中国科学技术信息研究所“中国科技论文统计源期刊”(又称“中国科技核心期刊”)；

（4）中国社会科学院文献信息中心“中国人文社会科学核心期刊”；

（5）中国科学院文献情报中心“中国科学引文数据库(CSCD)来源期刊”；

（6）中国人文社会科学学报学会“中国人文社科学报核心期刊；

（7）万方数据股份有限公司的“中国核心期刊遴选数据库”。

你写毕业论文是不是要检索文献啊，如果没有文献信息检索课，你怎么找到你需要的信息呢？

学位论文信息检索资料

论文写作中文献资料检索

在社会的各个领域，许多人都写过论文吧，借助论文可以达到探讨问题进行学术研究的目的。一篇什么样的论文才能称为优秀论文呢？下面是我收集整理的论文写作中文献资料检索，欢迎阅读与收藏。

自从有了文献便有了文献检索。当人们从中查找所需信息时,文献检索也就应运而生。只不过早期可检索的对象较少,因而检索是一个不自觉的过程。早期的文献检索主要是手工检索,人们通过“心想、手翻、眼看”的方式进行。随着社会的发展和文献量的增加,人们逐渐认识到文献检索的必要性与重要性,现代文献检索是以计算机网络技术和现代信息技术为基础,在文献检索的应用中逐渐发展起来。

一、文献检索概述

文献是用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。也可以理解为古今一切社会史料的总称。现在通常理解为图书、期刊等各种出版物的总和。

文献是记录、积累、传播和继承知识的最有效手段,是人类社会活动中获取情报的最基本、最主要的来源,也是交流传播情报的最基本手段。根据载体把其分为印刷型、缩微型、机读型和声像型。根据不同出版形式及内容,可以分为:图书、连续性出版物、特种文献。

电子文献是以数字方式将图、文、声、像等信息储存在磁、光、电介质上,通过计算机、网络或相关设备使用的记录有知识内容或艺术内容的文献信息资源,包括电子书刊、数据库、电子公告等。

文献检索,就是从文献信息集合中找出所需要的文献的过程,相当于人们通常所说的资料查寻。

二、纸质文献的检索

纸质文献的检索一般分为两种:直接检索和间接检索。直接文献检索地目的是为了获取所需要的文献。因此,有时可以直接从报刊杂志中通过浏览的方法直接获得所需文献,称之为直接检索。它具有方便、快捷的特点,适于浏览新到的书刊资料,有时是一种获得最新情报的方法,但同时又受到各种限制而漏查很多相关文献。因此,它只能作为一种辅助性的检索方法。

间接文献检索是一个利用检索工具并从中查出特定文献的过程。这一过程就称为间接检索。它可以比较系统地、全面地获得相关课题的文献信息。我们需要掌握的就是这种利用检索工具的间接检索的方法。这也是文献检索的主要方式。它大体上可以分为以下五个步骤:

(一)分析研究课题,明确检索要求:弄清楚课题的性质及学科专业范围是什么,所需的文献类型,要求的文种、年代的限定、课题的关键词等等是检索的第一步。

(二)选择检索工具:根据检索课题的要求,选择最能满足检索要求的检索工具或数据库。首先必须对各种检索工具所覆盖的学科范围有清楚的了解,然后从文献的类型、文种、出版的时间等方面来考虑选用哪种检索工具最合适。

(三)确定检索策略:选用具体的检索工具后,就要考虑选择和确定检索方法,确定具体的检索点,是从分类途径还是从主题途径检索,所查找的文献要达到什么要求,选用什么检索词等,以便具体进行检索。

(四)使用检索工具:确定了具体的检索方法后,就要利用所用的检索工具,在一定的年代和文献范围内具体查找,以获得文献信息。手工检索时可以一边检索一边分析取舍,获得符合需要的文献。(五)获取原文:检索文献最终要获取原文,如果在馆藏文献中查不到,则可通过各类联合目录获得其他单位收藏的信息,再通过馆际互借等途径或方式获取原文。这样就完成了文献检索的全过程。

文献检索方法主要有三种:

(一)追溯法(亦称滚雪球法):利用著者发表的文献后所列的参考文献为线索,由近及远,进行逐一追踪的查找办法,追查原文,再从这些原文后所附的参考文献逐一检索,象滚雪球似的获得一批批相关文献的方法。它是科研人员常喜欢用的一种简便的获得文献的途径。

(二)常用法:常用法也称工具法,就是直接利用各种文献检索工具查找文献的方法。由于检索工具的种类繁多,一般应根据课题内容特点,首先利用综合性的检索工具,然后再使用专业性的检索工具,二者结合,才不致造成文献资料的漏检。常用法根据时间范围又分为顺查法、倒查法和抽查法。

(三)循环法:循环法也称分段法、交替法或综合法,这是追溯法和常用法的结合。是将追溯法和常用法结合起来交替使用,充分发挥二者的优势分期、分段地交替使用,直到获得满意的相关文献为止。实际课题的检索选用何种方法,要根据具体情况而定:一是根据课题研究的需要;二是视所能利用的检索工具和检索手段。在检索工具比较丰富的条件下,可以利用常用法;在获得针对性很强文献的条件下可利用追溯法获得相关性较强的文献;获悉研究课题出版文献较多的年代可利用抽查法。

三、电子文献的检索

随着计算机、数据库和互联网络技术的普及,电子化图书馆、文献资料网络化服务等正成为我们获取文献资料的必不可少的手段,是我们学习、工作和科研的有力助手。利用好电子文献和检索工具,掌握好网络信息的搜索方法和策略对于获取信息是必要的。

传统的图书检索手段和方法对电子信息的检索作用有限。现代文献信息均能以数字化的形式获得,如电子图书、电子期刊、学位论文、会议论文、专利文献、标准文献、声像资料、多媒体资料等。电子文献的检索途径主要有以下几种:

(一)网络目录和搜索引擎

各种各样的Internet网络文献检索工具不计其数,根据提供检索与否,有网络目录和搜索引擎之分。

网络目录是按主题的等级排列的主题类目索引,类别目录按一定的主题分类体系组织,排列方法有字母顺序法、时序法、地序法、主题法等或是各种方法综合使用。用户通过逐层浏览类别目录、逐步细化的方式来寻找合适的类别直至具体资源。

搜索引擎则强调的是它的检索功能,能提供布尔逻辑检索、短语或邻近检索、模糊检索、自然语言检索等方式查询信息。各种资源进行标引,并为检索者提供检索的工具。基于搜索引擎的检索方法接近于通常所熟悉的检索方式,即输入检索词以及各检索词之间的逻辑关系,然后检索软件根据输入信息在索引库中搜索,获取检索结果,并输出给用户。

(二)联机馆藏目录

网络上有许多机构提供的馆藏书目信息、中外文期刊联合目录信息。其中包括各图书馆和信息机构提供(下转第137页)

(上接第36页)的公共联机检索(OPAC)馆藏书目、地区或行业的图书馆的联合目录等。

中国国家图书馆在网上提供图书目录在线检索,有题名、责任者、出版者、关键词、标准书刊号、分类号、出版地、出版国等10个检索途径。全国高等教育文献保障体系(CALIS)提供61所高校的馆藏期刊、书目和学位论文联合查询。

(三)网络数据库

网络数据库包括综合性和专业性期刊数据库、专利数据库等信息资源。这类信息资源可分为商业性和非商业性的数据库。这些数据库由专门的信息机构或公司专业制作和维护,信息质量高,是专业领域内常用数据库。

非商业性数据库因为免费使用,用户以较低的成本可获得所需的信息,所以也有很高的吸引力。如:IBM公司的免费专利文献数据库,提供美国专利的免费检索,用户可检索到1971 年以来的美国专利说明书的内容,包括专利书目信息和专利项,浏览1974年以来的专利文献。

(四)电子出版物

由于网上信息传播速度快,越来越多的出版商注重网上报刊发行。目前国内外已有很多出版高和信息服务中介商介入电子出版行业。电子出版物有电子图书、电子期刊和电子报纸。

(五)参考工具书

网络中许多参考资料是可以免费使用的,如新格罗夫音乐与音乐家大词典、英国大不列颠百科全书、汉语词典、学校或企业名录、中国国家统计局统计资料等大型工具书已加入因特网。

文献检索和使用的工作贯穿了论文写作的全过程:我们往往是先确定写作的大致内容;其次根据这个大致内容确定文献搜集的范围;然后阅读了主要的文献后再确定研究写作的具体内容;最后根据具体内容全面检索原始文献, 搜得的文献又充实了论文写作的基础。

一、文献检索的意义

文献检索在毕业论文撰写中的重要作用文献检索就是从大量的文献中迅速、准确地查出与特定的科学研究课题有关的资料。文献检索在大学生毕业论文撰写中有着不可替代的重要作用。

1.文献检索便于继承和借鉴前人的科研成果，避免重复研究

积累、继承和借鉴前人的研究成果是科学发展的重要前提，没有继承和借鉴就不可能有创新。毕业论文选题同科研选题、立项一样，必须通过文献信息检索或查新技术掌握国内外同类研究的动态进展，从中吸收有益的启示或参考数据，掌握大量相关信息，或得到更多、更有价值的论证依据。正如英国物理学家牛顿所说的是“站在巨人的肩膀上”，是指科研要熟悉别人的劳动成果，从前人研究的`“终点”中，找出自己研究的“起点”，从前人所用的研究方法、手段中受到启发，拓宽思路，分析研究所占有的资料，提炼出正确鲜明的观点。

2.文献检索有利于节省大学生查找文献时间，提高毕业论文质量

信息时代文献资料的迅猛增长，使得文献资料的`检索困难重重。如能灵活运用文献检索的技能，缩减检索时间，即能延长论文的写作时间。同时，文献信息检索利用可为毕业论文的观点提供理论依据和支持。大学生通过对文献信息检索分析比较后，才能从论题的创新性、内容的科学性等方面进行质量评价，进而提高论文质量。

3.文献检索启发学生的创造性思维与研究能力

图书馆文献是过去知识经验的总结，也是未来知识发展的向导。在文献检索过程中与论题有关联的文献信息很容易激发、调动大学生的潜在知识和智能，并从中获得灵感。不同的观点和方法，可促进大学生以发散性思维思考分析问题，拓展认识的深度和广度，进而全面获取有关学科的文献信息，及时了解学科领域中出现的新问题、新理论和新观点。图书馆文献信息检索利用的过程就是提高大学生研究能力的过程

二、文献检索的途径与方法

1.分析研究课题，确定检索要求

在进行具体的文献检索前，首先要分析课题，抓住课题的本质和要求，掌握代表课题内容的主题概念及其相关事物。依据本课题主题词来选定相应的检索工具，并从中选定检索标志，确定检索途径。在这方面自然科学、工程技术、人文和社会科学等具有不同的检索内容和要求。

2.选择检索工具

目前全世界有 2000 余种手工检索工具（书本型检索工具），还有联机检索、光盘数据库检索、Internet 网络检索等计算机检索工具。选择检索工具可利用“检索工具书指南”以及各种检索教材来了解检索工具书的收录情况。结合本课题，针对图书馆文献资料收藏情况，确定采用手工检索与机检相结合的方法。常用的检测工具包括以下几种：

书本检测工具：全国报刊索引、复印报刊资料、报刊资料索引、中国社会科学文献题录、国外社会科学论文索引等。

光盘数据库：全国报刊索引数据库、中国学术期刊（光盘版）、中国科学引文数据库、中国科技期刊篇名数据库、中国科技期刊篇名数据库等。

网络资源：中国知网、中国期刊网、、院校图书馆等。

3.文献检索的途径与方法

文献检索方法可分为常用法、追溯法和分段法三种。常用法是利用检索工具查找文献的方法，有三种类型，一是顺查，是以检索课题起始年代为起点，按时间顺序由远及近的查找文献的方法。二是倒查，是逆时间顺序由近及远的查找文献的方法。三是抽查，是针对学科发展的特点，抽出该学科发展迅速，发表文献比较集中的一段年代，抽查某几年的书籍和期刊、数据库。追溯法是利用已有文献后面所附的参考文献进行追溯查找的方法。一般参考文献中的原文结尾都附有新的参考文献目录，可视需要一直追溯下去，从而获得足够的文献资料。利用这些资料特别要注意综述性的文献资料，因为这些资料已对某一问题进行了一定的归纳整理，这样可以节约查找、阅读原始文献的时间。追溯法比较适合初写论文的大学生选用。分段法是将常用法与追溯法交替使用，既利用工具书检索，又利用文献后所附参考文献进行追溯。

另外，要检索重点资料，掌握核心期刊。核心期刊是期刊中学术水平较高的刊物，是我国学术评价体系的一个重要组成部分。它主要体现在对科研工作者学术水平的衡量方面，如在相当一批教学科研单位申请高级职称、取得博士论文答辩资格、申报科研项目、科研机构或高等院校学术水平评估等，都需要在核心期刊上发表一篇或若干篇论文。某学科（或某领域）的核心期刊，是指那些发表该学科（或该领域）论文较多、使用率（含被引率、摘转率和流通率）较高、学术影响较大的期刊。目前国内有 7 大核心期刊(或来源期刊)遴选体系：

（1）“北大核心”：北京大学图书馆“中文核心期刊”，即北京大学图书馆与北京高校图书馆期刊工作研究会联合编辑出版的《中文核心期刊要目总览》，每四年修订一次，目前是 2012 版；

（2）“南大核心”：南京大学“中文社会科学引文索引(CSSCI)来源期刊”；

（3）中国科学技术信息研究所“中国科技论文统计源期刊”(又称“中国科技核心期刊”)；

（4）中国社会科学院文献信息中心“中国人文社会科学核心期刊”；

（5）中国科学院文献情报中心“中国科学引文数据库(CSCD)来源期刊”；

（6）中国人文社会科学学报学会“中国人文社科学报核心期刊；

（7）万方数据股份有限公司的“中国核心期刊遴选数据库”。

目前查找国内学位论文可通过以下几个数据库：目前查找国内学位论文可通过以下几个数据库：1．清华同方中国优秀博硕士学位论文全文数据库（已经订购，文摘，全文）．清华同方中国优秀博硕士学位论文全文数据库（已经订购，文摘，全文）知网是目前国内相关资源最完备、收录质量最高、是目前国内相关资源最完备、收录质量最高、连续动态更新的中国博硕士学位论文全文数据库，家博士培养单位的优秀博/硕态更新的中国博硕士学位论文全文数据库，每年收录全国 300 家博士培养单位的优秀博硕、理工（士学位论文约 28000 篇。收录范围包括理工 A（数理化天地生）理工 B（化学化工能源与（数理化天地生）、材料）、理工（工业技术）农业、医药卫生、文史哲、经济政治与法律、农业材料）理工 C（工业技术）农业、医药卫生、文史哲、经济政治与法律、教育与社会科、、电子技术与信息科学。学、电子技术与信息科学。 2．中国科学院学位论文数据库（免费文摘）．中国科学院学位论文数据库（文摘）3．国家科技图书文献中心的中文学位论文数据库（免费文摘）．主要收录了 1984 年至今我国高等院校、研究生年至今我国高等院校、院及研究院所发布的硕士、博士和博士后的论文学科范围涉及自然科学各专业领域，院及研究院所发布的硕士、博士和博士后的论文。学科范围涉及自然科学各专业领域，并兼顾社会科学和人文科学，万余篇。每季更新。兼顾社会科学和人文科学，每年增加论文 6 万余篇。每季更新。4．CALIS 高校学位论文库（免费文摘）．高校学位论文库（文摘）目前有大约 25 万条学位论文文摘索引。已有万条学位论文文摘索引。家大学签订了参加项目建设的协议，多家建立了本地学位论文提交和发布系统。约 80 家大学签订了参加项目建设的协议，有 70 多家建立了本地学位论文提交和发布系统。5．中国科技信息所万方数据集团的中国学位论文全文库（免费文摘，未订购）．文摘，未订购）所收论文主要是科技理工类硕士论文较多，也所收论文主要是科技理工类硕士论文较多，有经济、法律、和外语、艺术类等论文，但数量较少。有经济、法律、和外语、艺术类等论文，但数量较少。因他的数据来源是国务院学位办规定收缴的理工类全国硕士论文，收藏的数量有 40 多万篇。定收缴的理工类全国硕士论文，多万篇。6．国家图书馆学位论文（免费文摘目录）．国家图书馆学位论文（目录）学位论文国家图书馆学位论文收藏中心是国务院学位委员会指定的全国惟一负责全面收藏和整理我国学位论文的专门机构；心是国务院学位委员会指定的全国惟一负责全面收藏和整理我国学位论文的专门机构；也是人事部专家司确定的惟一负责全面入藏博士后研究报告的专门机构。多年来，是人事部专家司确定的惟一负责全面入藏博士后研究报告的专门机构。20 多年来，国家图万种。此外，该中心还收藏部分院校的硕士学位论文，书馆收藏博士论文近 12 万种。此外，该中心还收藏部分院校的硕士学位论文，台湾博士学位论文和部分海外华人华侨学位论文。位论文和部分海外华人华侨学位论文。7．北京大学学位论文(提供题录及部分文摘信息．北京大学学位论文提供题录及部分文摘信息提供题录及部分文摘信息) 主要收藏自 1981 年以来各届毕业生中获得硕士、博士学位的论文和优秀学士学位论文，万多种，毕业生中获得硕士、博士学位的论文和优秀学士学位论文，共约 2 万多种，并以每年数千种的速度逐年增长着。种的速度逐年增长着。8．台湾地区部分高校学位论文(部分全文，请先选学校，输入繁体字．台湾地区部分高校学位论文部分全文请先选学校输入繁体字) 部分全文，学校，本系统收集全球利用 OAI 介面所提供的博硕士论文书目资料，并提供超连结至原单位撷取全文和其他更详细的资料，博硕士论文书目资料，并提供超连结至原单位撷取全文和其他更详细的资料，截至 2008-09 -17 为止共有 206,060 篇论文。篇论文。

这样进行学位论文的检索：

查找国内高校的学位论文一般有一下三个途径

1.学校图书馆。

我国各高校的学位论文在学校的图书馆都有存档，可以在学校的图书馆中进行查阅浏览。学校图书馆中不一定你有想要的相关学位论文，但这也是学位论文检索的一个有效途径。

2.国家图书馆。

每年各高校的毕业学位论文都会派送到国家图书馆进行印刷，国家图书馆会将其进行编号存档，我们可以在国家图书馆的网站上进行基本信息浏览，以查找相关学位论文。

3.论文网站系统。

一些正规的论文网站都有收录高校的学位论文，登录网站进行检索可以浏览论文的基本信息或进行下载查阅。

我国国内有一些正规的学位论文查询系统，例如：CNKI中的《中国优秀硕士学位论文全文数据库》和《中国博士学位论文全文数据库》以及万方数据公司的《中国学位论文全文数据库》，这三个文库都可以直接看到论文全文。

国家科技图书文献中心（NSTL）的《中文学位论文》共有论文85.7万篇，但它只能检索到题录和文摘信息，要查看论文全文需要进行购买。

以上就是关于“学位论文检索途径与方法”的全部内容了，想了解更多论文写作技巧知识，请持续关注PaperPass论文知识频道，小编会为大家收集更多的论文知识哦。

输入关键词，某大学，年度范围，就可以在博硕论文库中查了啊。

首页

> 期刊投稿知识库

信息资源组织与检索论文