数字媒体 摘 要网络发展到现在,已经可以使我们在网上冲浪、收发邮件、听到远方传送来的声音、搜索感兴趣的内容、下载软件、点播节目、即时聊天等等、等等……实现的功能好像已经不少,但,人的欲望无止境,享福的人还想更享福,还有许多目标没有达到,例如,怎样才能使我们在网络上,像平时用遥控器那样,操作空调器、电风扇、厨房电器,或网络远端的电器设备呢?如何利用网络上的计算机资源,使这种“遥控”更具智能化?甚至,将一系列相关的控制写到一个脚本中,以便用户定制自己所喜爱的控制流程?…等等。实现诸如此类的效果,将是有巨大需求的应用技术。如果实现通过网络用UPnP控制家用设备,将给我们的生活带来很大的方便和很多新的体验。目前用UPnP协议就可以实现这些操作!这正是windows xp系统急于加入UPnP的原因。正因为UPnP是一个协议,UPnP的使用可跨越各种操作系统平台,开发应用程序也没有开发语言的局限。可工作于各种形式的网络结构。且仅以现在的网络设施为基础,仅仅加上这个UPnP协议,既不用添加新的设施,也不用重新架设网络介质就可以投入使用!本文讨论了UPnP协议的发展现状,体系结构,包括组成UPnP协议的现有协议:http协议,soap协议,ssdp协议,xml 语言,DHCP协议等等。还介绍了UPnP设备间互操作机制,UPnP网络的基本组成(服务、设备和控制点),并举出了两种利用UPnP网络实现的架构:AV架构和RUI架构,加以说明。阐述了在数字媒体适配器系统中用来保护媒体内容的加密协议,DTCP-IP协议。最后论述了一个利用UPnP协议实现的应用实例----数字媒体适配器系统。所做的主要工作、技术难点与创新处如下:1. 对UPnP协议栈进行了详细的分析,它是一种建立在现有网络协议之上的协议,揭示了UPnP协议不依赖任何操作系统,不依赖任何语言,不依赖任何硬件设备的特性。 2. 详细描述了UpnP设备是如何动态地进入网络,获得IP地址,并查找自己应当进行的操作和服务信息的。“感知”别的设备是否存在以及它们的作用和当前的状态 。这一切都不需要人工干预。3. 总结了UPnP网络的3个基本要素:服务、设备和控制点,和UPnP网络的一般规律,服务是最小的单位,设备中可以包含设备,最小的设备又由若干的服务组成,这些设备又必须由控制点来控制。并举出了两种利用UPnP网络实现的架构:AV架构和RUI架构,这两种架构是目前在数字家庭中常用架构。4. 简单介绍了DTCP-IP协议的来源和发展,详细讨论了它的5个基本内容,并更深层地研究了它所用到的一些密码技术和原理。由于DTCP-IP协议健全的体系结构,不仅有对数据的加密技术,还有对用户身份的认证,控制拷贝次数等等,所以我们在数字媒体适配器系统使用它来保护媒体传输,免遭 非法复制、拦截和篡改。5. 本系统中利用UPnP协议的RUI架构的特性实现用户在具有显示功能的设备(如电视机)上玩PC机上的游戏,利用UPnP协议的AV架构实现在显示设备上观看PC机上的媒体,充分利用PC机上闲置的资源。6. 本系统中采用了电源管理,即在PC机不使用时,可以处在休眠状态,当DMA客户端需要与PC通信时才将PC唤醒,这样可以减少PC端的能源消耗。7. 本系统在媒体播放时,采用网络流量监控技术,监控网络流量,TCP/IP丢帧状况,HTTP Client帧率,当达到网络拥塞阀值,会向HTTP Client发出警告,HTTP Client向HTTP Server提出降帧请求。本产品已经面向市场,并多次参展,从功能和外观都受到用户的好评。关键字: UPnP协议,DMA,DMS,HTTP, SSDP,SOAP,DHCP,AV,RUI目 录摘 要 4ABSTRACT 5第一章. UPnP协议简介及发展现状 71.1.UPnP协议介绍 71.2.UPnP论坛 71.3.UPnP的发展 8第二章. UPnP 协议体系结构 92.1.Http 协议 92.1.1.Http 协议概述 92.1.2.Http 请求消息 102.1.3.Http 响应消息 112.1.4.Http 通用头域 112.1.4.Http 实体 122.2.Soap简单对象访问协议 132.2.1.Soap 简介 132.2.2.Soap 消息结构 132.2.3.Soap消息交换模型 142.2.4.Soap与xml的关系 152.2.4.Soap封装 152.2.5.Soap编码 162.2.5.在rpc中使用soap 162.3.Ssdp 简单服务发现协议 162.3.1.Ssdp 协议介绍 162.3.2. HTTPU 和 HTTPMU 含义和区别 172.4.Xml 语言 172.4.1.Xml语言概述 172.4.2.XML语言定义 172.2.3. UPnP中使用XML 182.5.DHCP协议 182.5.1.DHCP协议定义 182.5.2.DHCP协议工作原理 19第三章. UPnP设备间互操作机制介绍 213.1.寻址 213.1.1.决定是否采用Auto-IP 213.1.2.选择一个地址 213.1.3.测试地址 213.1.4.定期检查动态地址的可用性 223.1.5.设备命名与DNS交互 223.1.6.名称到IP地址的解析 223.2.发现 223.2.1.宣告 233.2.2.搜索 27
我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:1.1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。1.2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.3.2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。1.4网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。2.2.1信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之,2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。2.2.2信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。2.3Web挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。2.3,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。2.3.2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。2.3.3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔41。2.4信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。2.4.1信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词。
我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:1.1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。1.2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.3.2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。1.4网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。2.2.1信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之!2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。2.2.2信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。2.3Web挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。2.3,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁’时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[’“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。2.3.2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔’3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。2.3.3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔’41。2.4信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。2.4.1信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词……………………………………太长 发不全 希望对你有用 实在不行联系我(给我留言)我发给你邮箱。
汽车专业运用与管理毕业论文范文 一、概述 信息资源是指信息的生产、分配、交流(流通)、消费过程。它除信息内容本身外,还包括与其紧密相联的信息设备、信息人员、信息系统、信息网络等。以往我国只把物质、能源当作资源,把信息当作一般的“消息”,自邓小平同志“开发信息资源,服务四化建设”题词公开发表后,人们对“信息”的认识,发生了质的飞跃,认识到信息也是一种宝贵的战略资源,它与物质、能源一起成为当今社会发展的三大战略资源。 1、信息对生产要素起优化作用。信息可通过优化生产素质,导向生产要素的合理有效配置,促进生产力系统运行的有序等方面发挥功能作用,这表现在: (1)信息通过与劳动力相互作用,增加其他生产要素的信息含量,从而提高生产力系统的素质水平和利用效率。增加了信息含量的生产要素一旦进入生产过程,一是可以缩短劳动者对客体的认识及熟练过程,使生产要素以较快较准的状态进入生产运行系统,从生产过程的时效上表现与发挥生产力的功能。二是可增强生产的有序性与安全系数,带来机会收益。三是可引发对生产过程、生产工具、操作方法和工艺技术的技术革新与发明创造。 (2)信息通过与领导层相互作用,导向生产要素的最优组合,从而提高生产力。信息对领导者的导向功能主要有:一是引导领导者注意力的转移,把注意力放到新的工作上去。二是引导领导判断形势,从而作出正确的决策。三是引导领导决策的制定,决策方案形成过程,是领导对信息综和处理的过程。 (3)信息通过与生产管理者的的相互作用,增强管理者与管理对象的可知性和透明度,从而提高生产力系统运行的有序度。生产力系统是由多个生产要素构成的整体,而生产是通过一系列生产要素的信息来运行的,准确的信息有利于管理者把握生产运行的尺度,使生产正常、有序、高效地进行。 2、信息对资源起补充作用。物质、能源、人力和资金构成社会的基本资源,而信息的发展,对这些社会的基本资源起到补充作用,它的表现为: (1)信息可大大节约社会经济活动中各项资源的使用和消耗。 (2)智能机器人的使用,使人力资源得到补充和替代。以高度信息化、智能化的机器人装配线为龙头,汽车公司的无人车间源源不断地生产出大量的汽车,由于人力的节省还使汽车的成本大大降低;以高度信息化的数据库,人们一按电钮就可查到全国乃至全世界的有关资料,省去了在浩瀚文献中查找资料的时间,从而大大节约人力资源。 (3)信息还可以替代资本,从而使资金更方便、更快、更有效地为社会经济建设服务。电子货币的出现,以信息卡为载体的信用信息使现代社会经济活动中由货物交换方式演变成信息交换方式;电子转帐出现,把货物流和票据流的资金运动变为信息流的运动,不但大大减少了在途运输资金的麻烦,而且加快资金周转速度,提高资金利用率,从而解决社会经济建设中资金不足的矛盾。 3、信息对财富起增值作用。信息不但对生产要素起优化作用和对社会资源起补充作用,而且可直接创造财富,对社会财富起增值作用。 (1)信息可使非资源转化为资源,投入相应的信息都会使其产生价值或价值增值。呆滞的资本得到资本需求的信息就会变为赢利的投资。 (2)直接出售信息产品和信息服务,从而创造财富。在美国、日本等信息业发达的国家,信息服务业和信息产品制造业的直接收入惊人,据统计,美国信息业销售额1982年为2370亿美元,1985年为4000亿美元,1988年为4700亿美元,预计2000年将接近一万亿美元。 (3)信息可缩短流通时间,从而创造财富。电报和电话所起的作用就是加快信息传递速度,缩短信息流动的时间,提高工作效率,从而达到创造财富的目的。通过信息和信息技术缩短流通时间给我们带来的财富的例子很多,如通讯、电话、传真、电子邮件、联机检索、电视会议等一系列先进技术设备,使信息流动时间由过去以周、日计算缩短为现在以分、秒计算,从而大大加快了财富的增值过程。 (4)信息可扩大增值空间,从而创造财富。由于信息技术具有很强的辐射能力,使现代的信息活动在更广泛的空间进行,从而创造财富。因此,在信息化不断提高的今天,财富的增值空间不但在某一自然地域或某一国家和地区,而且扩大到全球其他国家和地区。 总之,信息经济是“低耗能”的经济,在工业经济中,国内生产总值(GDP)的增长与能源、原材料是同步增长,而在信息经济中,单位GDP所耗能源却下降,美国、日本等国近年来国民经济生产总值在增长,而能源却减少了。我国是人均自然资源劣势的国家,特别是能源较缺,如要把经济建设搞好,就必加快发展信息产业。 二、人类社会对信息的需求 当今社会,人类对信息需求日益高涨,世界所有国家,无论是发达国家,中等发达国家,还是发展中国家,都立足于新世纪的竞争。而要在竞争中取得胜利,就必须通过各种手段,捕捉有效的信息,从而掌握经济发展的主动权。可以预料,随着社会经济的发展,人们对信息的需要将日益高涨,因为: (1)现代信息处于爆炸的时代,文献量在成指数的增长,社会的信息量在迅速的增加。据不完全统计,当今社会,全球每年大约产生100万份发明专利,450万篇科技文献,1亿2千万册各类出版物,以及数以亿计的各种机构文件和资料。其中每年我国发表的经济类学术论文和资料就有3万多篇,也就是说,每天平均有100多篇,它们分别发表在1000多种报刊上。这些文件和资料每十年大约要翻一番。此外各类信息系统内部以及地区之间、国际之间昼夜不停的信息传递也达到难以统计的程度。面对如此巨大且日益膨胀的信息量,没有足够的计算机系统和互联网络的支持和处理是不可思议的。 (2)社会逐渐信息化,信息逐渐社会化和产业化是当今社会发展的潮流与趋势,也是当今的社会特征之一。信息对社会各个领域的渗透日益明显,几乎到了处处存在信息、事事离不开信息的地步。 (3)企业的生存和发展,在竞争中立于不败之地,不得不掌握与其命运攸关的有关信息。随着经济的发展,信息在企业的经营活动中更为重要,这是因为:一方面,各种新技术、新设备、新材料不断产生,同时这些新技术、新设备、新材料又被广泛的应用于新产品的开发和应用上,因此,不了解这些信息,企业就不能用最新的科学技术、最先进的设备生产出最新的产品,企业就不能注入新的活力;另一方面,市场经济要求企业的生命越来越和市场连在一起,这就要求企业加强对市场的调查研究,随时了解市场行情,把握市场变化的信息,生产出适销对路的产品。只有这样,企业才能适应复杂多变的市场环境,企业才能生存,才能发展。 总之,信息产业和信息技术影响超过了历史上任何一次的技术革命,它不仅影响着物质产品的生产过程,而且影响了信息和知识型产品的生产过程,它不仅影响到各国经济的发展,而且对各国的政治、军事、社会发展等产生了越来越大的影响。 三、我国汽车维修业对信息资源的需求及存在问题 传统意义上的我国汽车维修业,长期以来一直处于原始、落后的现状,是公认的脏、苦、累、差行业,这种落后表现在管理水平、技术水平、人员素质、设备装备等诸方面,而信息资源方面的落后表现得尤为突出。 一百多年前诞生的汽车,只不过是一个简单的四轮交通工具,是被一些人,包括马车夫所嘲笑的笨重怪物。谁也不曾想到,就是这样一个笨重怪物,历经100多年的发展,由原始汽车变化成为一个高科技的结晶体。特别是电子技术、电脑技术的飞速发展,使汽车的高科技化程度不断得到提高。电子燃油喷射系统的应用,ABS 防抱死制动系统、SRS安全气囊系统、电子控制自动变速箱系统、空气悬挂系统、动力转向系统、自动巡航系统、中控门锁及防盗系统、动力牵引系统、自我诊断系统……,这一系列高新技术,不断完善着汽车的性能,展现在我们面前的汽车再也不是比马车强不了多少的简单的交通工具,而是一个集现代文明和智慧的高科技产物,而这个高科技产物,还在不断地向高科技领域纵深发展。这种汽车自身的高科技特征,加上世界各个汽车制造厂商每年不断地推出新的车型车种,先进技术的不断采用,多种系统的不断发展,使得广大汽车维修技术人员对汽车维修信息方面的需求越来越强烈。 传统的汽车维修资料信息查询,主要借助于传统的媒体(如图书、杂志、报刊等),这种传统媒体,存在着信息量小、查询速度慢、资料更新迟缓,特别对于改革开放以后大量涌入国内的进口汽车,更因缺乏维修资料,给维修工作带来很大的困难,就现在汽车维修技术人员而言,没有一个人能将数千种车型的维修资料、数据、程序等记忆在大脑中,汽车维修技术人员的知识技术、经验以及对信息的全面掌握,越来越显示出自身的局限性。 我国汽车维修业对维修资料信息的需求日益强烈。而解决这一不足的就是汽车维修专业互联网络,即INTERNET互联网。INTERNET互联网的出现,彻底打破了资讯传递在空间、时间上的局限,能在第一时间最全面、最快速地将资讯迅速的传递到地球上的每一个角落。而INTERNET互联网络中国现代汽车维修行业中已崭露头角,从国际汽车维修行业看,维修行业技术资料查询、故障检测诊断、技术培训网络化,已成为全面普及的局面。以美国汽车维修业为例,在维修信息综合管理、专家集体会诊、网上查询资料、网上解答疑难杂症、网上开展技术咨询、网上购买汽车维修资料,已经成为维修行业的基本特征。早在80年代末90年代初,就已经全面实行。 我国汽车维修专业互联网络,是从90年代中期开始起步,以欧亚・笛威汽车维修专业网站为例,从1995年起,即开始建立了在会员单位内部使用的远程通迅BBS。从96年起,开始投入巨资,大规模建立汽车维修INTERN ET互联网站。目前已发展成为专业性最强的汽车维修专业网站,涵盖欧美亚各车系的发动机、变速箱、空调、悬挂、转向、定速、安全气囊、防盗等各系统的基本保养、检修程序、各类数据、各类元件位置图、机械拆装图、电气线路图,并实现了在网上答疑、网上咨询、网上查询、网上培训等功能。这种以电脑信息处理技术为特点的互联网站,已构成现代汽车维修企业的一大高科技特征。 汽车维修专业互联网的另外一项重要功能是可以迅速、快捷地提供汽车配件、汽车维修检测设备、汽车维修资料、汽车维修技术与管理人才等方面的供需信息,使企业经营者和管理者能够及时获得信息,作出正确的选择和决策。而互联网上的技术讨论和技术交流,又加速了汽车维修技术人员的整体技术水准。网上的远程汽车维修技术培训,也给需要不断吸取新技术和新知识的汽车维修技术人员的再训练提供了又一条途径。 此外,电脑管理系统软件与技术在现代汽车维修企业中的应用,也是信息资源与信息技术在汽车维修业的应用实例。目前,汽车维修企业正面临一场革命。一大批新的汽车维修企业成立,相应的汽车维修服务行业急剧扩张,维修行业的规模也随之变得庞大。到目前为止,全国大大小小的维修企业已经发展到近30万家。如何面对接踵而来行业内的挑战,提高企业在维修界的竞争力,提高企业自己的生产利润,已成为现代汽车维修企业经营者和管理者所面临的主要问题。解决这一问题的关键主要在于两个方面:一方面在于提高企业的技术水平,而更重要的另一方面就是提高企业的管理水平。完善的管理制度,现代化的管理方法,精确的管理数据分析以及电脑在企业管理中的应用,对于一个现代化的汽车维修企业更为重要 现代汽车维修企业有两个显著特征:一是先进的检测维修设备和维修资料的应用,二是计算机网络的应用与电脑管理。是信息化和电脑技术把汽车维修企业引向现代管理模式和管理方式。企业发展的根本在于人,在于管理。“服务”将成为未来竞争最重要的手段。良好的服务包括维修服务、售前服务及售后服务。这种主动服务,就是建立稳定的客户关系,依赖于客户信息和维修档案的建立与管理。而大量的企业经营数据信息,仅凭人工来完成是难以想象的。利用电脑技术,建立企业网络数据库才是必由之路。 事实上,由于汽车维修行业业务过程复杂、数据信息量大,仅仅依靠人力往往难以对维修、配件、客户档案、车辆档案、员工及各部门工作进程的监督、企业经营数据进行准确的统计和分析。而运用电脑管理,速度快、时间短、资料全、效率高。一个30人的维修企业的月度工时统计,如采用人工计算,需要一个统计员1-2 天的时间,采用电脑进行统计仅仅需要几秒种,效率提高何止几千倍。 采用电脑进行维修企业管理的优点是: 1、上层管理者可以通过电脑管理网络系统及时了解全厂的运作情况,从而可以对全厂各部门的工作进行统筹安排。 2、准确及时的统计报表大大减少了管理者主观判断上可能造成的失误,这样就加强了全体员工的工作积极性,可以形成良好的企业文化,加强企业的凝聚力。 3、可以使汽车维修企业彻底改变手工作坊式的工作模式,实现一个质的飞跃,以此来解决作为企业领导每天面对庞大的客户资料、维修记录、凌乱的库存管理以及因此而产生的诸多客户纠纷和纷杂事务。 4、厂长经理们可以从繁琐的统筹安排,生产调度,统计报表中解脱出来,去争取更多的客户,带来更多更好的效益。 5、标准规范的电脑化管理能够提高服务厂在顾客心目中的形象。电脑管理下的客户及车辆档案,为长期、灵活的客户服务奠定了基础。 6、车辆、客户的动态跟踪可以让业务部具体掌握所有车辆以及客户的每一个细节,随时提醒客户进行维修、保养和零件的更换,更体现了服务的完整性。 7、图表分析功能可以为工作繁忙的厂长经理们提供一个简单直观的查询功能。 8、可以消除在会计方面人为的失误。 9、对于顾客的提出的询问能作出迅速确实的反应,尽可能少占用顾客的宝贵时间。 10、提高工作效率,合理调配零件,节省人力物力等。 与发达国家相比,信息资源在我国汽车维修业的应用方面还存在以下问题: 首先,政府扶持政策的力度还不强,资金投入更是不足,资金短缺,投资分散,正常融资环境不健全等,都在阻碍着信息资源和学习技术在我国汽车维修界的应用,从事汽车维修专业互联网站的公司大多于依靠自有资金、人才、技术进行发展,缺乏政府的政策扶持。 其次,电脑在众多汽车维修企业的应用不够,有很大一部分汽车维修企业装备的电脑 还只是花瓶式的摆设,并没有真正成为生产力。可以说,由于许多汽车维修企业厂长、经理的认识局限,许多汽车维修企业对电脑的兴趣,甚至还不如许多家庭高。电脑已经大规模的进入家庭,甚至许多小学生都能够熟练的操作电脑,而在很多汽车维修企业,电脑还是稀罕物,许多员工还是电脑盲,这不能不说是我国汽车维修业的悲哀。 再次,由于我国汽车维修业长期处于原始落后的状态,人员素质普遍较低,对电脑、互联网及信息产业有一种本能的神秘和畏难情绪,存在着电脑难学,不会上网等困难,而企业领导者更愿意将资金投入到厂房、设备等硬件设施方面,对电脑、互联网方面的投入的力度及对员工在这方面的培训力度很小。 最后一点,由于我国电信部门长期处于垄断经营的地位,网络收费过多,服务不良等现象,也直接影响到我国汽车维修界的电脑应用和互联网络的应用。 四、我国信息资源在汽车维修界的应用前景 尽管由于多种条件的限制,信息资源在我国汽车维修业的应用还存在一系列的问题。但是信息产业的浪潮正以汹涌澎湃之势,不可遏止地向全社会各领域冲击。也自然将给进入新世纪的我国汽车维修行业产生更大的推动作用。信息资源在汽车维修界的应用前景将是十分广阔的。 (一)汽车维修专业互联网在汽车维修企业的应用中,会因汽车维修技术人员方便、快捷地查询进口汽车维修资料,迅速排除故障,减少车辆维修时间而显著提高生产效率,仅此一项即可为企业节约可观的经济收入,以欧亚・笛威汽车维修互联网为例,该网站目前已有网员600余家,每家会员修理厂利用互联网方便、快捷查询资料,提高生产力,所产生至少5万元/年的经济效益,全年的总经济效益可达3000万元/年,由此产生的影响是十分巨大的。 (二)随着电脑的迅速普及,大批掌握使用电脑和互联网的人才将源源不断地进入汽车维修企业,为企业的职工队伍注入新的血液和活力。由于他们的文化素质较高,求知欲强,对新生事物具有很强的敏感性,因此从企业内部产生了掌握现代信息技术的需求,这种需求将会更进一步推动信息资源在汽车维修业的应用。 (三)现代维修企业采用电脑的管理方式不仅势在必行,而且时机也已经成熟:其一,电脑硬件的价格已经降低到很低的水平。其二、软件的开发、设计方面也越来越成熟,功能方面也越来越适合维修企业的实际运作。其三、随着一些大中专汽车专业毕业生进入维修企业,为实行电脑管理奠定了良好的人才基础。其四、远程通讯技术的诞生为软件的售后维护工作奠定了坚实的基础。 (四)我国已将现代信息产业作为国家的支柱产业来发展,原邮电部改为为信息产业部就是一个极好的例证。 1、我国的信息化建设自改革开放以来已取得长足进展,主要表现在以下几个方面:(1)信息基础设施不断完善。 “八五”期间,我国共投入约290亿美元资金,基本建成以光缆为主、数字微波和卫星通信为辅的通信干线网络,技术上基本实现了数字化和程控化。 (1)信息产业有了较大发展。信息产业在我国仍是一个正在逐步形成的新兴产业,但经过十几年的发展,其整体实力不断增强,信息技术和信息服务产业都取得了较大进展。1995年我国电子工业总产值达2457亿元,为1980年的24。5倍,已形成一批具有较强实力和市场竞争力的大型电子骨干企业和企业集团。信息服务业发展迅速,其服务范围不断拓宽,服务水平逐步提高。据统计,我国信息服务业销售额由1990年的2亿元增长至 1995年的77亿元,全国从事信息服务业的企事业单位共2万多家,已建立各种数据库1000多个。我国信息服务业正朝着计算机化、数据化、网络化和有线咨询信息网等方向发展。 (2)信息技术开发与应用初见成效。我国“863”星火计划中包含有许多信息领域的高技术研究课题,如先进的感测系统、智能计算机、自动化技术、现代通迅技术等主题项目,这些课题目前大多已被攻克。“八五 ”期间,我国计算机装机量由1990年的50万台增长到1995年的330万。信息技术在工业控制、计算机辅助设计、企业管理等方面的应用取得重大进展,应用程度已从单项应用向集成化、综合化方向发展。在信息资源开发方面,我国目前已建成了经济、科技、统计、银行、邮电、电力、铁路、民航、海关、气象、人口等12个国家信息系统,初步建成了国家公用分组交换数据网。1993年后我国又开始实施以金桥、金关和金卡构成的“三金”工程为重点的国民经济信息化“金”字工程。这些大型应用系统在开发的同时建设了一批较大型数据库,从而大力促进了我国信息资源的开发与利用。 综上所述,在迈入新世纪之后,信息资源和信息技术在我国汽车维修业的应用前景是十分广阔的。我们要把握好这个难得的机遇,推动整个汽车维修行业技术与管理的全面提升,为尽快赶超世界先进水平而不懈努力。另外,团IDC网上有许多产品团购,便宜有口碑
340 浏览 3 回答
248 浏览 2 回答
97 浏览 2 回答
219 浏览 2 回答
230 浏览 1 回答
308 浏览 3 回答
326 浏览 4 回答
275 浏览 3 回答
336 浏览 3 回答
203 浏览 3 回答
203 浏览 1 回答
133 浏览 1 回答
332 浏览 3 回答
262 浏览 4 回答
306 浏览 3 回答