您当前的位置:首页 > 发表论文>论文发表

信息资源组织与检索论文

2023-12-10 13:35 来源:学术参考网 作者:未知

信息资源组织与检索论文

信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言 近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1 (1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。 (2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。 (3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。 2.1 集群系统的设计 由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。 集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。 下面主要说明基于专业内容的XML信息集成系统的构造方法: XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。 目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。 图2 2.2 网格中间件的设计 图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。 内部主要功能模块说明如下: (1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。 (2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。 (3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。 (4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。 (5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。 其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。

关于信息组织论文

信息组织是指对由原子构成的实体资源的组织,下面是我精心推荐的关于信息组织论文,希望你能有所感触!

对新信息环境下信息组织的解读

[摘要]在介绍传统世界的信息 组织模式的基础上,从传统世界信息组织的缺陷入手,比较分析数字世界的信息组织在检索 语言、元数据、分类方式、组织理念上的变革和优势。从不同角度论证传统世界的信息组织存在的必然性,进而探讨新信息 环境中信息组织的 发展趋势,指出信息组织应沿着传统世界与数字世界的融合、 社会 网络和知识关联方向发展。

[关键词]信息组织 传统世界 数字世界 发展趋势

[分类号]G203

1 传统世界的信息组织

传统世界的信息组织是指对由原子构成的实体资源的组织,包括简单的安排事物——如餐具如何在橱柜中摆放,商品如何在货架中排放。但是,其最重要的组织对象是附着于各种载体上的信息,即文献信息的组织。是一种线型模式,如图1所示:

其中信息标引、信息描述、信息排序是关键的三个阶段。信息标引是指在对信息内容进行分析的基础上,根据一定规则给信息的内容属性以标识,并作出描述的过程;信息描述是指根据信息组织和检索的需要,对信息资源的主题内容、形势特征、物质形态等进行分析、选择、记录的活动;信息排序是在信息标引后,按一定规则和方法把所有信息描述记录组织排列成一个有序的整体。在传统世界中,庞杂、无序的文献信息群经过选择、标引、描述、排序后,很好地实现了有序化,保证了原子世界中的每个实体在一定空间内的唯一性,这种机制,对信息资源的开发利用以及用户检索信息有着不可替代的作用。

但是,由于传统世界的信息组织对象是原子所构成的物质,而原子的运行是遵循特定规律的:①由原子构成的物质随着时间的推移会越来越不稳定,纸张会泛黄和分解,照片底片会溶化,所以必须采取一些措施来让大自然的作用偏离它的轨道;②原子构成的物质需要占据空间,为了节省空间,必须为物质安排唯一的位置,同时要建立目录、索引等检索工具来指示物质的位置,但是这些检索工具不可能记录某个实体信息资源的所有信息,当实体信息资源的规模大到一定程度时,即便是引用 计算机与网络技术,信息的查找利用也很难做到高效、准确。在传统世界中,无论采用何种信息组织方式,都要受其信息组织对象自身以及环境的限制,毕竟在一个图书馆中,很难会把一本书放在它可以归属的多个书架上,因为这样太浪费空间。

2 数字世界的信息组织

与传统世界相比,数字世界的信息组织发生了很大变化。信息内容被数字化成比特;信息组织的范围更为广泛,不再停留在对文献特征的描述,而是深入到了知识单元;信息组织的空间更为广阔,它不再需要如传统世界那般就单一的信息组织框架体系达成一致。随着Web2.0的深入发展,信息组织在检索语言、元数据、分类方式、组织理念上蓬勃发展,展现出全新的特征,这不仅是技术上的变革,更是理念上的颠覆。

2.1 检索语言的发展——标签语言

标签语言是一种纯自然语言,它的语词来自于一个平面的命名空间,不受任何预先制定的词汇间的关系限制。以受控语言为基础的传统分类法和主题法主要 应用于图书馆的文献信息组织中,这类信息资源在一定意义上具有同质性,即由原子构成,由于实体空间的限制,它们一般是集中分布、规模有限、增长速度可控的;同时用户一般都具有一定的知识基础,对信息检索的查全率与查准率要求比较高。在这种情况下,采用受控语言的分类法和主题法可以通过较为严密的机制满足用户的需求。但是,对于数字世界中由用户产生的海量、动态、异质的信息资源,由一个采用受控语言的系统集中控制和组织的难度加大、成本增加,而标签语言的优势恰好可以解决这些困难。

2.1.1 多维度揭示信息资源 标签既不同于分类法的类目,也不同于主题法的主题词,它是在对信息进行概括和理解基础上产生的,是基于对信息内容个人理解上的私人标注,可以是针对主题,也可以是与文章主题无关的语词,因此标签的设定要比主题词自由、方便,它可以从多个维度来揭示信息内容,从多个语境来丰富其含义,例如,一张以长城为背景的照片,可能拥有“长城”、“艳阳高照”、“旅行”、“恐高”等标签。

2.1.2 具有大众性传统世界的信息组织需要专业人员或计算机来完成信息标引、描述 工作,而标签语言没有采用预先定义的分类法和词表,不需要用户拥有分类法或者本体相关的知识。这样,用户可以在几乎不需要任何学习和使用成本的情况下独立、轻松的完成信息的标注和分类。

2.2 元数据的发展——任何信息都是元数据

元数据一股被认为是“关于数据的数据(date a—bout date)”,它由专家制定,具有严格的规范性,以信息内容为出发点。其实它并不是一个全新的概念,早已广泛应用于传统世界的信息组织当中了,像图书中的版权页说明、图书馆中的目录卡片等都是元数据。元数据经过了10余年的发展,其标准越来越复杂,随着网络信息的快速增长,信息类型越来越多样化,任何标准都面临着“滞后”的风险,同时其严格的规范性也限制了用户的使用。

在数字世界中,元数据正在打破那些严格的限制,也在挑战传统的元数据的概念。如果你记不清罗贯中某部著作的名称,可以求助于Google图书的搜索框,输入“罗贯中”,就可以看到一张罗贯中著作列表。只要点击《三国演义》的链接,你就可以查到全文,其中包括那句经典的原文:“滚滚长江东逝水”。相反,如果你想知道“滚滚长江东逝水”这句话的出处,只要将这句话输入Google图书的搜索框,就能够看到《三国演义》被列出来。在第一个例子中,是用罗贯中的名字作为元数据来找到书中的内容,而在第二个例子中,是用书中部分内容作为元数据来找到作者和书名。可以说,在多元的数字世界中,不仅一本书中的每一个词都可以被看做元数据,而且链接到这本书的每一种信息也是如此,元数据和数据的唯一区别就是,元数据是你已经了解的信息,而数据是你试图找出来的信息。

2.3 分类方法的发展——Folksonomy

分类在传统世界的信息组织中占有重要地位,传统世界对信息的分类主要采用等级分类法。等级分类法将类目体系组织成一个树状结构,其结构显示直观,类目设置比较均衡,非常适和文献的分类排架。但是,这种树形结构必须以牺牲丰富性和深度为代价来达成广泛性,它构建的基础就是一遍又一遍地使用隶属关系:“B是A的一种”,或者“B应该向A 报告”,又或者“B是A的孩子”。无论各个分支体系是何种关系,这种关系都太过简单化了,根本不能体现事物自身及其相互关系的复杂性。

在数字世界中,信息空间更为广阔,由下而上的Folksonomy正在崛起。与传统的树形分类结构相比,Folksonomy拥有立体化的、非等级结构的类目体系。如果把等级分类法比喻成一颗树,那么Folksonomy可视为一堆离散分布在一个立体空间中的树叶。在这里,利用Folksonomy对“索尼照相机”这一类目进行组

织,以明晰其组织原理。首先,对“索尼照相机’’这一类目进行分析,由用户对“索尼照相机”添加各式各样的标签,标签完全不受限制,包括照相机、索尼产品、生日礼物、旅行用品等。这样“索尼照相机”就分散在多个类目下,将一片叶子挂在了属于它的多个枝头上,用户可以更方便地找到它;另外,这种标签立体图揭示的关系更为丰富多彩,例如,“索尼笔记本”、“索尼手机”这两个类别同样可能被标上“索尼产品”这个标签,然后“索尼笔记本”、“索尼手机”、“索尼照相机”就通过“索尼产品”这个标签形成了聚类,同样,通过“照相机”、“生日礼物”、“旅行用品”这些标签又可以与其他的多个类别、多个事物形成联系,这样就构成了一个密集的信息网络,就如同漫天飘舞的树叶,而且,这些飘散的树叶又是智能的,通过一个叶片可以联系到多个叶片,只是叶片之间的联系是潜在的,等待着用户去发掘和创造而已,如图2所示:

2.4 信息组织理念的发展——用户中心论

信息是普遍存在的,它与现实世界一样的广博,没有哪个个体能够完全理解它。因此,需要有人利用他们积累的知识、经验来行使信息过滤器的职能,这些人被称为专家。在传统世界中,由他们负责选择、筛选信息,制定元数据的标准,完成信息的标引与描述工作。从这个角度看,用户能看到什么信息,能找到什么信息,都是由专家决定的,信息的控制权牢牢的掌握在他们手里。与此同时,专家们在信息组织过程中无形的把“以用户为中心”与“以文献信息为中心”等同了起来,认为只要实现了文献信息资源的有序化就满足了用户的信息需求,殊不知,在对信息施以选择、分析、排序等程序虽然有利于文献信息的有序化,但这种有序化依靠的是文献信息本身的意义与他们自己的判断力来完成的,它虽然利于信息组织工作本身,但无法充分的满足用户的信息需求,毕竟专家们也无法预测每个人到底对什么感兴趣,每条信息对用户将会有什么意义。

数字世界的信息组织以构建主义哲学和自由主义哲学为指导思想。构建主义哲学思想认为:信息从本质上来说是主观的东西,无论是被记载下来的信息(信息1)还是人脑中的信息(信息2)都不可能是现实世界的如实的、客观的反映,它们永远只能是外部世界的片面的反映。认识的这种不完整性就决定了特定用户在特定背景需要寻求特定的信息来填补认识上的空白。而要满足这样的信息需求,信息组织应该关注的不是信息本身,而应该是用户的个体性以及他的具体背景,因为每个用户及其背景都是独特的,因而其信息需求也是独特的。自由主义哲学思想认为:所有的人都有权按自己的意志安排生活,都有能力为自己的需要做出适当的选择(包括信息的选择)。所以,信息组织不应该是替用户选择信息,不应该以各种权威来制约用户,信息的所有者应该主动的把信息组织的控制权转交到用户手里,为用户提供一个开放式的架构,让用户自己来选择、组织信息。

3 新信息环境下信息组织的发展趋势

3.1 传统世界的信息组织不会消亡

首先,从哲学的角度看,在传统世界中,我们对实体信息资源的组织实际上是由亚里士多德的理性主义指导的。亚里士多德认为:要了解一件事物,就必须看穿它的本质,并且不被恰巧符合其特点的表象所迷惑、误导。而对于这些“本质”的定义就决定了哪些东西属于一类,解释了为什么这些东西属于该类别而另外一些则不属于,这样归拢和分割的结果就是一棵分类树,其中的各个枝叶都既与一些东西聚合又与其他东西分离。这种树形结构对于理解事物是很有帮助的,例如,当有人告诉你某种动物属于鸟类时,你不需要更多解释就会明白它是动物,是有脊类的,可以繁殖,会死亡,是实物……以及其他一些信息,更重要的是,你不需要在每次看到一只鸟的时候才会考虑所有这些信息,只要是在需要的时候,你随时都可以调用这些类别信息。

在日常生活中,亚里士多德的理性主义和树形结构一次次体现在各种组织体系中,比如各种传统分类法,将一本书分成章节和次级标题,越来越专业化的机构部门,菜单上菜品的安排等。这一切都源自于我们所处的信息环境中离不开原子物质,这种物质形态必然产生一种与之相适合的意识形态,理性主义正是其产物之一,而由理性主义指导的传统的信息组织必然是与传统世界相匹配的信息组织形态。

其次,从传统世界的信息组织所依存的实体看。纸质文献是其主要对象,图书馆是其依存的主要机构。关于纸质文献和图书馆是否会被取代的争论已经持续了几十年,然而,纸质文献、图书馆在电子文献和电子图书馆的挑战下非但没有消亡反而呈上升趋势发展。显然,不能仅凭技术的进步与经济的发展就认定纸质文献和图书馆的消亡,其存在的社会和政治意义也是不容忽视的。比如,数字时代给我们造成了“谁都可以及时地、自由自在地纵览世界各地的信息”的柏拉图式的印象,实际上,它却加深了数字鸿沟,而图书馆在保证信息自由和公平中具有的潜在和巨大的作用更有利于消除数字鸿沟。

可见,在当前我们所处的信息环境中,传统世界的信息组织纵然有诸多缺陷,但它并不会消亡。

3.2 新信息环境下信息组织的发展趋势

3.2.1 传统世界的信息组织与数字世界的信息组织的融合 数字世界的信息组织也有诸如标签模糊、滥标等缺陷,需要传统世界的信息组织来校正。所以,信息组织的发展不应该是简单的替代的关系,而应该是两者之间的融合关系。这种融合可以通过网站提供的个性化服务与图书馆的连接来实现,比如,把图书馆书目数据嵌入到豆瓣网,用户在浏览一本图书相关评论的同时也可以查找哪些图书馆藏有这本书;反过来,也可以把个性化的信息组织方式引入到图书馆中,提高书目数据信息的丰富性和可利用性。除去上面两种简单的连接方式外,更值得研究的是利用web2.0的原理和理念来架构图书馆信息网络,实现真正意义上的融合,如图3所示:

3.2.2 基于社会网络的信息组织 社会网络普遍存在于传统世界与数字世界中,只不过在传统世界中,由于时空等多方面的限制,由个体之间形成一个群体,由群体形成社区面对着诸多困难。而在数字世界中,个体之间通过社会性网络软件,打破时空限制,建立更加紧密的社会关联,由此产生的各种相关的信息通过多种交互关系而联系组织在一起,从而形成一个个大小不一的紧凑型与松散型网络社区。这种社会网络以交互为基础,包括个体间的小范围的交互,也包括群体间、社区间的大范围的交互,在交互的过程中产生的相关信息会以“话题”为标准形成具有一定方向性的聚合。同时,基于社会网络的信息组织伴随着信息流的多向运动,它是对处于即时运动、变化中的信息的组织,而非以往的对静态信息的组织,而且,其深受社会关系的影响与控制。可见,基于社会网络的信息组织面临着更为复杂的情境,而如何建立一个稳定的、有效的信息组织机制仍需继续探索。

3.2.3 知识关联任何形式的信息组织都是基于信息元素之间一定的关联性而存在的,只不过传统世界的信息组织是基于文献实体关联,数字世界的信息组织则基于知识关联,而研究和揭示知识之间相互关联的规律又是有效组织、检索和管理知识的基础。目前,各种知识组织方式,无论是语词的还是符号的,大都是基于概括知识内容的概念之间的关联性来组织、存储的,这种关联性体现的是一种概念逻辑,但是,知识之间的关联性是多样的,概念逻辑仅是其中的一种,显然,加强对那些潜在的、隐含的知识关联的研究是很有必要的。

此外,随着现代信息技术的快速发展和广泛应用,信息组织的发展方向不应该是仅仅简单实现信息、知识的整序、存储,而应该是根据知识之间的相互关联通过融合分析、归纳、推理等方式来实现知识创造、知识挖掘和知识发现。

点击下页还有更多>>>关于信息组织论文

信息检索与利用论文

现代信息检索论文: 现代信息检索方法的探讨 要想充分利用这些浩如烟海的文献信息资源,必须借助各种各样的检索工具。同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。 一、布尔检索 利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。 下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。 检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。 二、信息检索 信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。 信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。 目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。 三、知识检索 知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。 知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果。

急急急~网络信息检索方法与应用 论文

我给你找了一篇,摘要如下:
随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。
全文主要包括六个部分,
第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。
第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。
第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...
第四部分分析讨论了检索技术的另一分支—基于内容的检索技术
第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。

好不容易给转成 .txt文本,贴在下面:
1.1网络信息资源
网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。
随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作
为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉
及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文
本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学
和工程技术等各个领域。
1.2信息检索技术
信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信
息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的
过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索
仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所
需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如
烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原
文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供
目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法
来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索
到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息
的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比
较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文
档库中精确定位所需信息的最有效手段l3]。
.3.2web信息检索
其检索方式有:浏览器方式和搜索引擎方式。
(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏
览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提
供的检索方式访问数据库。
(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检
索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信
息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提
供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在
数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从
而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务
器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满
足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。
网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。
1.4网络信息检索效果评价
目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查
准率、收录范围、输出格式,其中以查全率和查准率最为重要。
现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法
及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”
模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;
“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,
如查询数据库。
2.2.1信息推送技术
“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信
息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术
之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具
有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用
网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器
之间透明地进行通信,极大地方便了用户。
所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质
上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生
兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技
术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息
服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的
某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,
然后按照每个用户的特定要求,主动推送给用户141。
(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。
网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,
它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣
的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,
如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送
信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专
门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。
智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息
推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动
信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由
ll硕士学位论文
MASTER,5THESIS⑧
数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生
变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器
启动信息推送过程。
(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效
性·灵活性和综合性I5]。
主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将
数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。
这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。
针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求
进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索
界面。
智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定
期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自
动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主
题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要
的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网
络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务
(SDI)不能比的。
高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push
技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据
量的多媒体信息。
灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连
接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。
综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且
还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。
但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不
能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研
究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继
承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之
!2硕士学位论文
MASTER,5THESIS管
后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所
有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资
料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当
等等[刀。
2.2.2信息拉取技术
常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,
从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求
有目的地去查询、搜索所需的信息。
Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网
络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因
此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合
起来,常用的结合方式为:
(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针
对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而
动态地选取需要深入了解的信息。
(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针
对性地推送相关的其它信息。
(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感
兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。
(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键
词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用
户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。
因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信
息系统为用户提供主动信息服务的一个发展方向。
2.3Web挖掘技术
随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet
给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文
MASTER,5THESIS⑧
类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解
决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量
与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在
这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是
由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技
术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘
作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。
2.3,1姗eb挖掘的内容
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,
提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其
中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文
件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识
发现的手段,它主要从下面3个方面进行仁’时。
(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web
资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web
数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、
声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML
标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信
息挖掘主要从下面两个角度进行〔”]。
一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这
些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,
用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,
然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、
概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,
可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同
处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文
档内部超链结构,使得表示半结构化数据的方法更加丰富。
二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接
14⑧蕊誉蕊
文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,
应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web
站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数
据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使
其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装
程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研
究web上的查询语言来实现建立并维护web站点的途径[’“]。
(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从
文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,
W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个
个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以
用于寻找相似的网站。
W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述
网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结
构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映
了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b
页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web
页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出
与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展
示的信息完整程度。
③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日
志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的
数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、
检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、
分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,
它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务
器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的
页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息
l5硕士学位论文
MASTER,5THESIS⑥
挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映
射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为
了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、
模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和
页面内容信息等方面。
2.3.2web挖掘技术在网络信息检索中的应用
(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述
中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,
因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分
进行进一步的完善,具体而言表现在以下几个方面。
①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简
洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信
息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。
②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题
类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息
检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很
多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几
乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,
通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。
③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是
将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能
大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类
技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的
信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,
文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果
进行分类,并将相似的结果集中在一起。
(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一
种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但
是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信
16硕士学位论文
MASTER,S竹正515⑧
息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘
中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的
检索能力,改善检索效果〔’3]。
(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘
总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究
内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而
且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜
索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。
2.3.3web挖掘技术的局限及方向
(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,
都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、
实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标
引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进
行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。
通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查
全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数
据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。
(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰
富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理
的需要,需要设计新的数据结构来表示网站结构。
由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对
用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用
的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要
研究方向之一。
(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、
代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和
客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如
何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期
间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代
l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个
图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容
时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。
另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来
的,在处理海量Web用户访问日志中也需要重新设计算法结构〔’41。
2.4信息过滤技术
hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同
时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第
一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背
景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审
定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目
前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种
网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供
给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有
包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能
力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现
象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让
搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到
用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,
帮助用户在浩如烟海的信息中找到和需求真正相关的资料。
2.4.1信息过滤模型
信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模
型,不同的检索模型有不同的过滤方法。51。
(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索
中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据
进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括
关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词

……………………………………
太长 发不全 希望对你有用 实在不行联系我(给我留言)我发给你邮箱。

信息资源的组织与过程管理

4.2.1 信息资源的开发和利用

信息资源的开发是为了更有效地利用信息资源,也就是说,开发是利用的前提,而利用则是开发的最终目的。所谓信息资源的开发是指为了更好地利用现有信息资源而开展的一系列活动。从广义上说,信息资源开发包括信息本体开发、信息技术研究、信息系统建设、信息设备制造,以及信息机构建立、信息规则设定、信息环境维护、信息人员培养等活动。信息资源的开发过程包括信息源分析、信息的采集、整序、存储、加工、研究及增值信息产品的开发等信息活动。

4.2.1.1 信息源分析

信息源就是信息的来源。对信息源进行分析是信息资源开发和利用的重要步骤,其目的在于指导信息搜集,明确信息的搜集方向,使得信息的采集更为高效和准确。

4.2.1.2 信息采集和转换

信息采集就是通过各种途径对相关信息进行搜索、归纳、整理并最终形成所需有效信息的过程。目前由于各种条件的局限性,以及网络技术的发达、便捷,我们进行信息采集的主要途径来自于网络,主要工具就是计算机。有效信息就是对我们切实有用的信息,不是随便一条信息对我们都是有用的。信息采集的目的在于获取能满足组织用户需求的信息,达到和满足用户的目的。由于信息来源不同,获取手段也会存在差异,其方法多种多样。下面介绍一些常用的信息采集方法:

(1)积累。对于个人和组织而言,这是获取内部信息的主要方式。积累是依靠长时间的关注和收集相关信息,达到信息量增加,提高个人和组织技能和水平的目的。

(2)购买。购买是指通过有偿的方式直接获取信息资源,如购买专业技术资料,订购相关的期刊、报纸,是组织获取外部信息的主要方法之一。

(3)面谈。由于隐性知识,如经验、技巧等保存在人的头脑中,因而,与信息资源的拥有者进行的面谈和彼此沟通来获取此类信息资源。然而,面谈的效果在很大程度上取决于面谈的方法和技巧,因此进行相关的沟通技能培训,才能有效、及时获取有用的、真实的信息。

(4)观察。观察是获得第一手资料以及微观信息资源的主要方式之一,如为了获得企业员工的工作积极性、企业文化,则需要深入到基层和第一线,通过观察员工,了解员工的情况。

(5)参加社交活动。社交活动可以称为非正式的信息“发布会”。由于社交活动的形式多样,参加人员的身份、职业等情况也多种多样,因此获得信息也较为广泛。但由于社交活动的信息相当庞杂,因此所获得的信息可能是无效的,甚至有可能是具有误导性的,因此必须加以甄别和筛选。

(6)参加本行业的正式会议。行业的正式会议相对于社交活动而言,其所获取的信息比较可靠。行业正式会议的形式也较多样,如产品展销会、信息发布会、交易会、博览会、广交会、世博会等。参加这些会议,要求具备较强的沟通、交流、观察、表达等人际交往能力。

(7)联机检索。联机检索是指用户借助通讯线路,通过终端设备同检索系统联机所进行的文献与数据检索。这种计算机系统一般设有较多的数据库,而一个数据库可以包括几十万、几百万条文献的书目款目或科技数据。每检索一个课题只需数十秒钟,检索到的题录、文摘或数据还可立即在终端上显示和打印出来。联机检索的实现,对于图书馆传统的收集、查找与提供资料的方式来说,是一次革命。世界上已投入运行的联机情报系统很多,国际上较大的检索系统有100多个,数据库有3000多个。

(8)联网。联网是指组织内部为了达到共享信息和提高效率的目的,而将组织内部计算机进行互联。由于组织提高管理水平的需求,以及计算机在组织管理中应用的不断深入,单个部门各自处理事务的能力已无法满足管理的需求。因而,人们利用网络技术将分布在组织内不同部门的计算机连接起来,最初仅限于一幢办公楼或一个工厂内部,后来,由于组织规模的不断扩大,其办公地点可能分布在同一城市不同的地方,甚至不同的城市或国家。例如,世界最大的零售商沃尔玛最早开始通过卫星将分布在全世界 5000多个商场和物流中心的计算机联网。

虽然,信息获取方法和手段很多,但每一方法和手段都不同程度地受到场合和环境的制约,也有各自的优缺点。因此应结合组织自身的条件,并根据信息源的类型采用适当的方法获取信息。

4.2.1.3 信息资源的组织

信息资源组织是指信息资源的有序化活动,包括对于信息资源有序化规律的认识,以及应用认识得来的规律从事有序化工作,即利用一定科学规则和方法,通过对信息外在特征和内容特征的描述和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。一般来说,对信息进行整序的方法有三种:分类法、主题法和数据库技术方法。

分类法是图书馆、科技信息部门组织信息的主要方法。分类就是按照事物的性质、特点、用途等作为区分的标准,将符合同一标准的事物聚类,不同的则分开的一种认识事物的方法。分类法是指将类或组按照相互间的关系,组成系统化的结构,并体现为许多类目按照一定的原则和关系组织起来的体系表,作为分类工作的依据和工具。在我国进行这项工作的主要依据是《中国图书馆图书分类法》,简称《中图法》。它是综合性的分类体系,主表共分22个大类,然后逐级细分,共有大小类目2万多个,涵盖了各类学科的内容,体系庞大。但是非文献信息部门的信息量相对来说小得多,综合性也不强,不能生搬硬套这种分类法。因此,在组织的信息资源整序过程中,只能参考这种方法的分类原则,而不应全盘照搬使用。

主题法就是以自然语言中的词语或规范化的词语作为揭示文献主题的标识,并以此标识编排组织和查找文献的排检方法。主题指文献所具体论述的对象和研究的问题,它以词语作为检索标识,按字顺排列,直观性强,也是一种普遍使用的信息组织方法。它不像分类法以学科体系为中心,而是利用词语来表达信息资源中论述的主题概念。用来表达信息内容的词语称为主题词。主题词不同于自然语言,它是将自然语言中的词语经过人工规范后的语言,即经过词汇控制的词语。主题法根据选词方法的不同可分为四种方法:标题法、关键词法、单元词法和叙词法。

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今约50年前,随着信息技术和市场的发展,特别是20世纪90年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库方法主要依靠二维表的方式,在表与表之间建立联系,达到快速检索和更新的目的。

信息整序是通过对信息的选择、组织和加工整理,把无序信息流转化为有序信息流的信息产品开发过程。这是一种专业性较强的工作,作为负责此项工作的人员,应掌握相应的图书分类及主题标引的方法并加以运用。同时,由于信息技术的日益普及,数据库技术已成为实现对信息有效存储和整序的重要手段。因而,掌握这方面的知识并学以致用,是非常重要的。

信息的存储是另一项重要的工作。相对于信息的搜集与整序而言,信息的存储较简单。信息存储是指通过多种形式记录和排序信息的过程。它包含三层含义:一是将所采集的信息按照一定规则记录在相应的信息载体上;二是将这些载体按照一定的特征和内容组织成系统有序的、可供检索的集合体;三是应用计算机等先进的技术和手段,提高信息存储的效率和利用水平。

4.2.2 信息资源的利用

4.2.2.1 信息资源检索

当今的世界是信息的世界,如何快速、有效地获取所需的信息显得尤为重要,因此信息资源检索是信息资源利用的关键性环节。检索包括手工检索和计算机检索。信息资源检索是查找出所需信息的行动。信息资源检索是指从以任何方式组成的信息资源集合中,查找特定用户在特定时间和条件下所需信息资源的过程。完整的信息资源检索含义还包括信息资源存储,它的实现过程一般分为两个部分:

(1)信息资源标引和存储过程。信息资源标引和存储是对大量无序的信息资源进行标引处理,使之有序化,并按科学的方法存储,形成检索工具或检索文档,即组织检索系统的过程。

(2)信息资源需求分析和检索过程。信息资源需求分析和检索是分析用户的信息需求,利用已组织好的检索系统,按照系统提供的方法与途径检索有关信息资源,即检索系统的应用过程。

4.2.2.2 信息资源的传播和服务

信息资源传播是将信息资源传递给受众的社会性活动。信息资源服务是信息管理活动的出发点和归宿,是信息管理学研究的重要内容和领域,是用不同的方式向用户提供所需信息的一项活动。信息资源服务活动通过研究用户、组织用户、组织服务,将有价值的信息资源传递给用户,最终帮助用户解决问题。从这一意义上看,信息资源服务实际上是传播信息资源、交流信息资源、实现信息资源增值的一项活动。从广义上说,信息资源服务涵盖了整个信息工作内容,包括信息资源的搜集、整理、存储、加工、传递、提供和利用等各项活动,信息资源服务本身也是在进行信息资源传播。

信息资源传播和服务的性质与范围因信息资源管理机构在传播过程中所处的位置而异。广播、电视等单位处于一级传播位置,其信息资源的传播多在大空间中进行传播,他们可以在瞬时间内将信息传播给广阔空间中的众多用户,因此可称之为空间传播。互联网也是一级传播,虽然其传播方式大多是通过线缆的方式进行传播,但是由于其传播范围广,也属于一级传播。图书馆、档案馆等单位则处于二级传播位置,它们的传播空间有限,只能将系统存储的信息资源传播给一定空间中的未来用户,即不能达到即时共享的目的,因此可称为时间传播。

一般而言,信息资源传播和服务可以认为是信息资源管理机构面向社会和市场的窗口。信息资源管理活动的效益和价值也要通过传播和服务来体现。例如可以通过图书报刊的发行量、图书馆藏书的利用率、电视节目的收视率、互联网的点击率和访问率等对信息资源传播和服务的效果进行衡量,同时也间接体现了信息资源管理活动价值。从用户角度考虑,信息资源传播和服务过程也就是用户对信息资源的利用过程,这个过程通常又体现为信息资源消费与生产的统一。

信息资源传播和服务的方式大体可分为三种类型:一是信息资源提供服务,即基于信息检索的传播和服务;二是信息资源咨询服务,即基于信息资源开发的传播和服务;三是网络信息资源提供和开发服务,主要基于现代信息网络技术的网络信息资源提供和开发服务。

信息资源提供服务是信息资源检索过程的逻辑延伸,没有信息资源检索也就谈不上信息资源提供的服务。信息资源提供服务是最基本的信息资源传播和服务方式,它是在基本不改变所采集或存储的信息资源的形态下,有选择地为用户提供信息资源和服务。归纳起来,信息资源提供服务大约有以下形式:①文献复制服务;②图书、报纸和杂志的出版发行;③图书、图片或档案展览;④图书馆藏书的外借和阅览;⑤档案的开放和提供利用;⑥广播电视节目的播放。

信息资源咨询服务是在信息资源提供服务的基础上发展起来的一种传播和服务方式,其前提是信息资源的开发,其实质是信息资源开发活动向市场的延展。它的基本特点是通过改变所采集或存储的信息资源的形态和内容,以产出新的信息产品。信息资源咨询服务的表现形式主要有:①信息预测服务;②出版发行书目服务;③报刊论文索引服务;④图书、档案馆藏线索咨询服务;⑤事实、数据咨询服务;⑥定题、定向情报服务;⑦科研项目追踪服务;⑧用户教育服务。

网络信息资源提供和开发服务是以计算机硬件和通信设备为依托,以应用软件为手段,以数据库信息资源为利用对象。因此,这种信息资源服务是建立在现代信息技术的基础上的。这种服务的优势在于:一方面将信息资源提供服务和信息资源咨询服务统一起来服务于大众;另一方面又有助于最大限度地实现个别化服务。它的主要形式有:①用户电子论坛;②用户点播服务;③电子函件;④电子公告板服务;⑤联机公共目录查询服务;⑥远程检索服务;⑦远程电视会议服务;⑧图文信息电视广播服务;⑨电子出版物和电子杂志的发布。

信息资源的传播和服务是连接信息资源管理机构和信息市场的重要活动。从是否有偿或部分有偿的情况来看,信息资源的传播和服务分无偿与有偿两种方式。一般而言,信息资源提供服务多采取无偿服务方式,信息资源咨询服务和网络信息资源服务则多采取有偿服务方式。

信息资源传播和服务的目标是根据用户的需求,提供用户需要的信息资源生产或信息资源消费所需的各种信息资源和服务。因此,信息资源既可以作为消费资料为最终用户服务,也可以作为生产资料形成新的信息。作为消费资料,信息资源在被用户消费的同时,为用户增加了信息资源储备以及相应的产值;作为生产资料,信息资源被用户作为生产信息甚至“原材料”投入信息再生产过程,以形成新的信息资源,这将是新一轮信息资源管理过程的起点。信息资源传播和服务就是这样通过影响用户进而影响社会,它肩负着实现信息资源管理活动价值的使命,同时也维系着信息资源管理过程的动态平衡。

相关文章
学术参考网 · 手机版
https://m.lw881.com/
首页