我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:1.1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。1.2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.3.2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。1.4网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。2.2.1信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之,2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。2.2.2信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。2.3Web挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。2.3,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。2.3.2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。2.3.3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔41。2.4信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。2.4.1信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词。
最近一直在研究历史,往很深的方向去研究。特别是对于那些考纲不会考到的内容,我总会因为好奇而去往深里研究。 对于这些内容,看起来毫无用处,但意义匪浅。于是每次都会把不懂的关键词进行搜索,并且理解其内涵。 经常用到的就是搜索引擎,包括百度,由于百度广告很多,后开我也就用夸克了,夸克一点好,就是没广告。 用文字搜索引擎就一点不好,很多复杂的东西,你不好搜索出来,就算搜索出来了,文字的解释很难让你立即懂,需要花时间去揣摩。 往往会因为一段话里面的很多关键词查找花了很多时间。 因为经常看抖音,后来也就想着,能否用抖音搜索试试看? 对于古籍里面很对古文字词,包括成语,还有一些术语,有的时候,在抖音里搜索关键词,居然有视频的讲解,有声音的感染力,理解就会更快。 例如你搜索“抖肩”、“马步舞”、“马头琴”等等,就会出现相应的表演视频。有的时候,还会有声音讲解加上动漫画面的呈现,让你豁然开朗。 所以,之后有文字搜索的内容,不好理解的,不妨用视频作为搜索引擎试试看。 不过抖音和视频号目前还有一个需要改进的地方,很多内容的标题都被剪辑放在视频画面里了,没有放在发布链接上,导致很多东西都不到。 如果视频平台,能做到把标题放到链接上,甚至说,通过关键词,能搜索到视频画面上的标题的文字的功能,那就太好了,视频搜索引擎效率将会更高。
一、1、下列哪种图书不属于工具类图 :A.科技专著2、下面那些属于白色文献?:B.期刊 C.报纸3、文献的构成要素:A.信息内容 B.载体材料 C.信息符号4、文献中,ISSN是指:C.国际连续出版物号5、下列哪种文献不属于白色文献?:A.军事情报 C.个人隐私材料 D.企业内部资料6、下列选项中属于特种文献类型的是:C.标准文献7、在下列哪种检索工具中可以得到历年的统计数据?:C.年鉴8、关于检索,如按检索对象不同,可分为以下三种:A.数据检索 B.事实检索 C.文献检索9、下列选项中属于连续出版物类型的选项是:A.科技期刊10、文献检索效果的主要指标是:B.查全率 D.查准率11、文献中,ISBN是指:A.国际标准书号12、下列哪些是零次文献?:A.未公开发表的文献 B.技术档案 C.作者日记13、下面哪些属于二次文献?:B.题录 C.目录 D.文摘14、文献是记录有知识的:D.载体15、下列关于检索目的的说法正确的是:A.学习前人的优秀方法,提高工作效率 B.避免重复研究、建设 C.了解前人的工作,以便继承发展16、百科全书属于:D.三次文献17、下列哪些手段会达到缩小检索范围,提高查准率的作用?:A.字段检索 B.限制检索 C.短语检索18、在布尔检索法中,“A AND B ”表示能查找出:C.同时含有这两个词的文献19、在下列文献中以刊载新闻和评论为主的文献是:C.报纸20、下列哪种文献属于二次文献?:A.目录21、DOI是指:B.数字对象唯一标识符22、下列哪些手段会达到扩大检索范围,提高查全率的作用?:B.全文检索 C.增加算符 D.使用上位词23、文献按级别分为一次文献、二次文献和三次文献,共三个级别。:错24、文献中,ISBN指国际连续出版物号。:错25、不同的检索系统使用的截词符不同、各数据库所支持的截断类型也不同。:对26、连续出版物就是期刊。:错27、检索策略(Retrieval Strategy),是指为实现检索目标而制定的全盘计划或方案,是对整个检索过程的谋划与指导。:对28、任何一种截词检索,都隐含着布尔逻辑检索的“或”运算。:对29、中国图书分类法将人类知识分为四大部分。:错30、现代文献有文献信息、文献载体、符号系统和记录方式四个要素构成。:对31、截词检索是预防漏检提高查准率的一种常用检索技术。:错32、分类途径就是按照文献的名称体系查找文献的途径。:错33、文献按加工程度分为一次文献、二次文献、三次文献和零次文献。:对34、联合目录反映多个图书馆的书刊订阅收藏情况。:对35、文献知识的内容与其记录方式、载体材料无关。:对36、参考工具是二次文献。:错37、信息检索中,查全率和查准率之间往往存在互逆关系,所以在检索中要求高查准率时,查全率往往会降低,反之亦然。:对38、信息检索的本质是信息用户的需求和信息集合的比较与选择,即匹配的过程。:对39、布尔逻辑符有与(and)、或(or)、非(not)三种。:对二、1、在万方数据资源的资源总览中,每个数据库的名称后有一个数字,这个数字代表:B.数据库记录的条数2、下列哪个数据库能检索到核心期刊的全文?:C.维普中文科技期刊数据库3、期刊论文的外部特征有: A.文献题目 B.著者 C.文献出处4、下列几组概念之间属于上下位关系的是:B.局域网与无线局域网 C.家用电器与电视机5、利用图书馆的数据库检索期刊论文时,可供选择的中文数据库是:C.维普数据库6、如果对某个课题进行主题检索时,可选择的检索字段有:A.关键词 D.题名 E.文摘7、使用中国学术期刊全文数据库的分类浏览时,当展开到最后一层子目录,点击子目录名会出现:B.属于该目录的全部文献8、万方数据资源系统可以检索的文献类型是:D.以上都有9、在中国期刊全文数据库检索时,字段限定在作者字段,检索式“李红”,选择“精确匹配”,可以命中哪些记录?:A.作者为“李红”的记录10、我校图书馆所购买的下列数据库中可以检索期刊论文的是:D.万方数据知识服务平台11、期刊浏览器的功能包括:A.浏览全文 B.识别文本 D.全文查找12、下列能满足读者族性检索需要的检索途径是:A.分类途径13、为了提高查全率,下列哪个检索式是正确的?:D.土豆或马铃薯或洋芋14、进入维普数据库中的传统检索,检索式为“K=(基金)”,选择“精确”检索时,则下列关键词哪些不会命中?:A.封闭式基金 B.货币基金 C.基金会15、期刊论文记录中的“文献出处”字段是指:A.刊载论文的期刊名称及年卷期、起止页码16、在维普数据库检索有关“多媒体网络传播”方面的文献,正确的检索式为:C.多媒体 与 网络传播17、在中国期刊全文数据库检索时,字段限定在作者字段,检索式“李红”,选择“模糊匹配”,可以命中哪些记录?:A.作者为“李红”的记录 B.作者为“李红英”的记录 C.作者为“李红霞”的记录18、请将馒头、食物、面食、食品等概念按照上下位的关系依次排序:(1) 食物(2) 食品(3) 面食(4) 馒头19、请将英语、英语口语、外国语、语言等概念按照上下位的关系依次排序:(1) 语言(2) 外国语(3) 英语(4) 英语口语20、请将萝卜、白萝卜、根类菜、蔬菜等概念按照上下位的关系依次排序:(1) 蔬菜(2) 根类菜(3) 萝卜(4) 白萝卜21、登陆中文数据库检索,将李豫颖、高杰欣、 李社英和袁小红等作者与下列篇名匹配起来:(1) 混合记忆信息与记忆信息筛选(2) 教学评价信息系统设计与信息应用(3) 善于把工作信息变为新闻信息(4) 高校信息教学资源利用有效性研究22、CNKI中国知网数据的全文有PDF和CAJ两种格式。:对23、中国知网、万方数据都包含多个子数据库。:对24、题录型检索工具,其著录项目主要包括文献篇名、作者、文献出处。:对25、中国知网和万方数据都是综合性的大型数据库,收录有多种类型的文献。:对26、中国知网、万方数据、维普数据俗称“三大中文数据库”,只收录中文文献。:错27、《中国学术期刊全文数据库》的分类专辑起着选择检索范围的作用。:对28、核心期刊是指经常使用的期刊。:错29、族性检索是对具有某种共同性质或特征的众多事物、概念的检索,分类搜索引擎是族性检索的首选工具。:对30、将“彩色电视机”拆分成“彩色”并且“电视机”进行检索,所得结果的数量比拆分前多。:对31、万方数据资源系统中除可以检索期刊论文外还可以检索到标准、专利、科技报告、学位论文等其他类型的文献。:对32、《中国学术期刊全文数据库》的导航浏览只有中图法浏览。:错33、中国知网、万方数据、维普数据都收录有一定量的英文文献。:对三、1、在EBSCO数据库检索时,输入comput?,表示 ? 处允许有多少个字母?:D.1个字母2、EBSCO数据库中,检索字段代码为TI、SO、AU分别表示的是:C.题名、刊名、作者3、在EBSCO数据库中收录了许多著名的刊物,问《Harvard Business》收录在EBSCO的哪个字库?:C.Business Source Premier4、EBSCO数据库中的哪个字库收录有期刊《US-China Foreign Language》?:A.Academic Search Premier5、检索表达式computer/ti指的是在什么字段中检索含有computer的文献记录?:A.标题6、常用布尔算符有:and、or、not等,当采用同义词进行检索时应当选用的算符是:A.or7、下列哪个数据库能检索到外文期刊论文全文?:C.Springer Link8、在EBSCO数据库检索时,输入comput* ,表示 * 处允许有多少个字母?:C.0-N个字母9、利用EBSCO的ASP数据库检索文献篇名中含有CD-ROM或DVD技术方面的文献,其他项默认,下面正确的表达式为:C.TI (cd rom or dvd) and TI technolog*10、检索表达式computer/so 指的是在什么字段中检索含有computer的文献记录?:A.来源出版物11、用EBSCO数据库检索时,如果想扩大检索结果的数量,可以采用下列哪些措施?:B.增加同义词或上位词C.使用截词检索D.将检索字段Title改为ALL Text12、下列哪些数据库包含期刊论文全文?:A.EBSCO数据库 C.SpringerLink数据库 D.维普数据库13、对于输出篇数过多的情况,其原因可能是:A.使用了过多的截词方法 D.应该使用逻辑 与 的使用了逻辑 或14、输入wom?n可检索到包含以下单词的文献:A.woman B.women15、在EBSCO数据库检索时,检索式“TI online N2 searching” 的含义是:B.标题中含有ONLINE和SEARCHING,顺序可以颠倒C.标题中含有ONLINE和SEARCHING,中间可以插入其他词语16、EBSCO系列数据库中的Academic Search Complete子库提供的检索途径包括:A.Title B.Author D.Journal Name17、从概念之间的关系,判断下列检索策略,那些是符合逻辑的?:B.cycle OR bicycle D.bank AND management18、利用Springer检索有关“计算机数据通讯网络研究”方面的期刊论文,可用到的检索词有:A.computer B.data C.communication D.network19、输入comput* 可以检索到包含下列字段的文献:B.computing C.computation D.computer20、在EBSCO数据库中检索时,检索字段代码TI、SO、AU、TX依次表示的是:A.标题 B.来源出版物 C.作者 D.全文21、SpringerLink数据库收录有包含下列类型的文献:A.电子期刊 B.电子图书 C.丛书 D.参考工具书 E.实验室指南22、在外文数据库检索时,使用截词检索可以提高信息检索的查全率,但是可能会降低信息检索的查准率。:对23、EBSCO数据库中的ASC是学术期刊集成全文数据库Academic Search Complete的简称。:对24、在外文数据库检索时,遇有Fulltext链接时,说明该库可提供原文。:对25、常用布尔算符有:and、or、not等,当采用同义词进行检索时应当选用的算符是and:错26、SpringerLink数据库由美国Springer(施普林格)出版社出版:错27、德国斯普林格(Springer-Verlag)出版社是世界上最大的科技出版社之一 ,以出版学术性出版物而闻名于世,它也是最早将纸本期刊做成电子版发行的出版商。:对28、SpringerLink将收录的所有文献类型按期刊、图书、丛书、参考工具书、实验室指南等进行划分。:对29、禁用词(STOP WORD)是指不表达实际意义的虚词,如冠词、介词、连词等。通常在检索系统生成索引的过程中会忽略这些虚词。:对30、EBSCO数据库中的BSC是商管财经类全文数据库Business Source Complete的简称。:对31、在使用截词方法检索具有相同词干的检索词时,这些词之间自动地隐含了逻辑 与 的关系。:错32、在使用截词方法检索具有相同词干的检索词时,这些词之间自动地隐含了逻辑 或 的关系。:对33、在EBSCO数据库检索时,输入:ne?t 可以检出neat ,nest,next或net:错34、在题名字段检索输入 Comput* 可以检出题名中包含有Computing、Computed、Computer等词之一的文献。:对四、1.下列哪一种文献提供了检验商品的通用依据:标准2. GB3793.83是下列哪种文献的编号:国家标准3.专利的有效期:从申请之日开始4. 如果想要了解即将举办的会议的信息,下列途径最好的一种是:专业学会以/协会网站5.特种文献是指:图书、期刊以外的文献6.授予专利的时候给出的编号是:专利号7:中国国家标准的代码是:GB8.以下哪种申请能授予专利权:药品的制造方法9.狭义的专利文献是指:专利说明书10.当专利权期限届满时,其专利权为谁所有:公共财产11.各国对授予专利权的发明均要求具备“三性”,其中不属于这“三性”的是:专有性12. 如把已问世的电子表做成圆形方形等外观形状,或对其色彩进行设计,则应属于:外观设计专利13: 依照我国专利法规定,以下发明将不被授予专利权的是:B. 疾病的治疗方法C. 吸毒工具D. 新式武器14. 专利文献中常见的几种号有:A. 申请号B. 分开号C. 公告号D. 专利号15. 我校哪些数据库可以检索到学位论文:A. CNKI中国知网C.万方数据知识服务平台16. 下列哪些文献属于特种文献:A. 专利文献B. 学位论文C. 会议文献17. 根据文献类型与文献载体代码规定,请依次写出以下[J]、[M]、[C]、[D]四个符号表示哪种类型文献:A. 期刊B. 专著C. 论文集D. 学位论文18. 我国国家标准有:强制性国家标准、推荐性国家标准和指导性标准,分别用以下代码表示:A. GB B. GB/TC. GB/Z19. 按照约束力来分,标准可分为:A. 强制性标准B. 推荐性标准C. 指导性标准20. 专利文献中常见的几种日有:A. 申请日B. 公开日C. 公告日D. 优先权日21. 专利具有以下几大特点:A. 独占性B. 排他性C. 地域性D. 时间性22. 按照我国专利法规定下列哪些发明将不被授予专利权:A. 发明一种新的教学方法B. 发现一颗新星C. 发现新的物种23. 中国专利可以通过以下哪些途径检索:B. 万方数据C. 国家知识产权局24. 下列哪些文献属于特种文献:A. 会议录B. 科技报告25. 一项发明创造要获得专利权必须具备:B. 实用性C. 新颖性D. 创造性26. 专利的类型有:A. 发明专利B. 实用新型C. 外观设计27、国内的专利可以通过下列哪个数据库检索到?:B.万方数据知识服务平台 C.CNKI中国知网28、特种文献的特点是:A.出版形式特殊 B.获取途径特殊 C.出版发行无规律 D.类型复杂多样29、专利文献中常见的几种人有:A.申请人 B.发明人 C.专利权人 D.代理人30、CNKI中国知网检索系统可以检索博、硕士论文。:对31、GB3793.83是专利文献的编号。:错32、专利文献是集技术、经济和法律于一体的特种文献。:对33、专利是受法律保护的,其中发明专利的保护期限是10年。:错34、对无确定形状的产品,如气态、液态、粉末等以及工艺、方法等技术发明,属于实用新型专利的保护范围。:错35、在科技论文正文后的参考文献的著录中,[M]代表该文献是一篇会议论文。:错36、强制性标准具有法律属性,一经颁布,必须贯彻执行。:对37、了解嘉兴学院申请专利的情况,可以通过国家知识产权局专利检索系统来实现。:对38、一项发明创造要获得专利权必须具备新颖性、创造性和实用性。:对39、中国标准分为国家标准,行业标准,地方标准和企业标准四级:对五、1.利用百度,在嘉兴学院网站()上进行有关“毕业环节”的搜索,其最佳的检索式是: site:(www.zjxu.edu.cn) "毕业环节"2.利用百度搜索引擎搜索word文档,下面搜索语法正确的是: 检索词filetype:doc3.百度属于下列那类搜索引擎: 全文索引4.百度搜索引擎的名称“百度”来源于下列中的那一句词,其作者是谁: 众里寻他千百度,辛弃疾5. 如果希望了解某种产品在使用中可能出现哪些故障,存在哪些缺陷,最好通过下列哪种渠道检索:产品论坛6. 在baidu搜索时,要实现字段的精确检索,可以用下列哪种方法:双引号7. 利用Google搜索引擎搜索PowerPoint文档,下面搜索语法正确的是:.检索词filetype:PPT8. 用google搜索中文教育科研类别网站(edu.cn)上所有包含“金庸”的页面。最佳检索式是:金庸site:edu.cn9. 使用搜索引擎进行信息检索时,下列措施中对提高查准率有帮助的是:限定检索词必须出现在网页的标题10. 谷歌属于下列那类搜索引擎:全文索引11. 利用现代信息技术,改变传统的网络信息搜索模式,通过人找人、人问人、人碰人等方式实现搜索的虚拟与现实的对接,揭露事情真相,变枯燥乏味的查询过程为“一人提问、八方回应”的人性化搜索体验,这种前卫的搜索模式被称为:人肉搜索12. 全球最大的中文音乐搜索平台是:百度MP313. 利用baidu搜索信息时,要将检索范围限制在网页标题中,应该使用的语法是:intitle:14: 搜索含有“data bank”的PDF文件,正确的检索式为:data bank filetype:pdf15. 类别域名是依照申请机构的性质划分出来的域名,以下域名正确的是:A. .edu 教育机构B. .gov 政府部门C. .com 商业公司D. .net 网络服务16. 网络信息检索工具的作用有哪些?A. 提炼信息C. 有序化组织D. 快速检索17. 当检索结果为零或太少时,就需要扩大检索范围,通常采用的方法是:B. 使用同义词C. 使用相关词D. 使用近义词18. 网络信息资源的特点:A. 潜在的失控性B. 离散性与共享性C. 不均匀性D. 离散性与共享性19. 通过搜索引擎检索产品信息时,可以包括哪些方面的关键词?A. 产品名称B. 产品型号C. 生产厂商D. 产品价格20. 关于网络信息的特点,正确的说法有哪些?A. 内容丰富、涵盖范围广泛B. 多媒体组合,形式多样C. 信息来源分散、无序,缺乏统一管理D. 自由,缺乏管制,无国界21. 类别域名是依照申请机构的性质划分出来的域名,教育机构、政府部门、商业公司、网络服务的域名依次为:(1) .edu(2) .gov(3) .com(4) .net22. 搜索引擎也是一种检索工具,可以检索INTERNET上巨大的信息资源:对23. 百度和Google这两个搜索引擎中,都用符号( - )表示逻辑“非”操作:对24. 在百度搜索引擎中,查找关于网络技术的课件,可用检索式(网络技术 filetype:ppt):对25. Google 搜索不区分英文字母大小写,所有的字母均当做小写处理:对26. 最常用的全文搜索引擎有百度、谷歌(Google)等:对27. 百度和Google这两个搜索引擎中,都以“空格”表示逻辑“或”操作:错28. Google 会忽略最常用的词和字符,这些词和字符称为忽略词。如:和、的、how、where、and 等:对29. INTERNET是基于 TCP/IP 协议的:对30. 百度和Google这两个搜索引擎中,都以“空格”表示逻辑“与”操作:对31. 在Google搜索时,如果您想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就可以了:对32. GOOGLE和BAIDU是国内外分类目录式搜索引擎:错33. INTERNET上的WWW是WORLD WIDE WEB的缩写:对34. TCP/IP协议的作用是保证各种不同类型的计算机网络实现相互通信:对35. 我想在新浪网上搜索关于世界杯赛程的消息,只需要用Google搜索“site:sina.com.cn 世界杯赛程”即可得到结果:对36. "在 Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语(比如""like this"")在查询到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。":对37. 多数网页采用HTML编写,这里的HTML指的是:超文本标识语言:对38. 每个 Google 搜索结果都包含从该网页中抽出的一段摘要,这些摘要提供了搜索关键词在网页中的上下文:对39. Google不具有学术搜索功能:错40. 当您搜索所有中文网页时,Google会对搜索项进行简繁转换后,同时检索简体和繁体中文网页:对
我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:1.1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。1.2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.3.2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。1.4网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。2.2.1信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之!2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。2.2.2信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。2.3Web挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。2.3,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁’时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[’“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。2.3.2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔’3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。2.3.3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔’41。2.4信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。2.4.1信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词……………………………………太长 发不全 希望对你有用 实在不行联系我(给我留言)我发给你邮箱。
194 浏览 6 回答
118 浏览 4 回答
238 浏览 3 回答
347 浏览 4 回答
263 浏览 3 回答
337 浏览 4 回答
344 浏览 6 回答
180 浏览 7 回答
265 浏览 3 回答
216 浏览 7 回答
308 浏览 2 回答
220 浏览 5 回答
254 浏览 3 回答
182 浏览 2 回答
123 浏览 3 回答