首页

> 学术发表知识库

首页 学术发表知识库 问题

搜索引擎对比研究论文

发布时间:

搜索引擎对比研究论文

Google Scholar能够帮助用户查找包括期刊论文、学位论文、书籍、预印本、文摘和技术报告在内的学术文献。它不提供任何广告链接,普通Google出现的赞助商链接都不会出现。补充了专业数据库(例如 PubMed)学科面太窄的缺点,而且可以让科学家及其研究结果通过网络学术搜索引擎而公开化,使科学家的工作业绩变得更加透明,从而以防止学术造假、评审不公等弊病。

我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:1.1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。1.2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.3.2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。1.4网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。2.2.1信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之,2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。2.2.2信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。2.3Web挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。2.3,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。2.3.2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。2.3.3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔41。2.4信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。2.4.1信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词。

一般的论文查询网站的搜索范围更广,但是内容不一定是学术论文,根本无法准确定位。比如 IEEExploer, ISI Web of Knowledge 等网站的反应速度相比 Google scholar 慢,而且有时加载不出来。另外,ISI Web of Knowledge是收费服务,除了在部分高校校园内部,其他情况下基本无法使用。

google scholar是根据相关性的搜索结果进行排序,最相关的信息会显示在页面的最上方。而且,这个排序对应考虑了每篇文章的全文内容、作者、发表该文章的刊物,以及该文章被其他学术著作引用的次数等要素,上面的各种分析数据,在某些方面更有统计价值。还有,如果有正确的题目或者作者信息等,在可能的情况下google scholar会搜索全文,搜索效率非常高,搜索结果应该是非常全面的,并且绝大多数还提供了下载的链接,不用进入论文网站,方便操作能节省不少时间。

同时, google scholar只限定在学术上搜索,搜索结果链接到的都是数据库提供者或出版社的网页。因为不提供任何广告链接,所以学术纯洁性是非常高的。还有一点特别之处是,google scholar还包括了没有在线发布的学术研究结果。比如爱因斯坦的很多著作并未在线发布,但是却被很多学者引用。

总而言之,Google Scholar是一个专业性和功能性很强大,覆盖范围广泛,以及使用方便快捷准确的网站。

我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:1.1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。1.2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.3.2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。1.4网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。2.2.1信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之!2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。2.2.2信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。2.3Web挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。2.3,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁’时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[’“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。2.3.2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔’3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。2.3.3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔’41。2.4信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。2.4.1信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词……………………………………太长 发不全 希望对你有用 实在不行联系我(给我留言)我发给你邮箱。

搜索引擎营销研究论文

网络营销论文2500字

无论是在学校还是在社会中,大家都经常接触到论文吧,借助论文可以有效提高我们的写作水平。你所见过的论文是什么样的呢?以下是我精心整理的网络营销论文2500字,欢迎阅读,希望大家能够喜欢。

回望金融危机以来中国经济运行中的闪光足迹,令人印象尤为深刻的,莫过于“节能减排持续深入开展”、“家电下乡轰轰烈烈”、“‘用工荒’引发企业‘加薪潮’”、“现代文化创意产业的迅速崛起”,以及“电子商务发展迎来又一春”,并成功地助企添翼增力了。对于中国的针织服饰企业来说,响应并落实党和国家关于“节能减排”的一大举措,就是要在减少对土地、原料、器材、能源等消耗的情况下,把营销渠道做大做畅。“家电下乡”等活动为启动农村消费、拉动国民经济复苏起到了积极的作用,家里领着补贴种粮、外头打工搛钱的中国农民真的是“不差钱”了网络营销论文,目光敏锐的针织企业家们不约而同地举起了“城市包围农村”的大旗。

而海外市场的相对疲软导致以外向型经济为主的东南沿海地区出现了严重的“用工荒”问题,迫使企业通过“加薪”10—30%的不等幅度来招聘人才,也使得企业家们认真思考起如何在节约或减少产品销售渠道的费用又扩大产品销售的问题了。而电子商务瞅准了危机中的新机遇,在内强素质的同时,也与现代文化创意产业一起从不同角度上积极地介入到企业的生产和销售领域,在帮助和服务企业洼地重起的进程,不断伸展开强健的翅翼论文网站大全。所有这一切,都给金融危机重创下的、正为资金“瓶颈”而发愁的纺织企业家们带来了希望,尝试“触网”的热情再度升腾,网络营销因而也就成为了“低碳化”时代的最时髦的营销话题之一。

展望到品牌“无缝隙营销”的美好未来

实现工业信息化的发展目标是党和国家从十六大以来一直特别强调要着重抓好的一项重点工作,尤其是“十一五”规划期间,我国信息高速公路建设快速推进并覆盖了广大的城市乡村,同时还与国际互联网进行了亲密的接触,这不仅为由高科技一手打造起来的电子商务经济模式的发展提供了无限的可能,也为广大的实体经济企业描绘了一种全新的营销模式――“网络营销”的发展前景。业内有人又将企业和电子商务借助信息高速公路打通的网络营销渠道称为“虚拟营销渠道”,而将企业面向终端市场构建起来的,主要以旗舰店、连锁店、商场专柜(专厅)、专卖店等为代表的营销网点称为“实体营销渠道”。根据最新统计数据表明,中国目前已经拥有4亿网民,2009年中国纺织服装品牌借助电子商务平台实现网络购物成交额高达308.7亿元。

虽然网络购物在已经成为一种购物消费的时尚新趋势网络营销论文,但在络购物的普及率目前仅为上网人数的26.2%,而且大多在17――30岁的年龄范围。这与网络购物普及率高达67.8%的美国、57.3%的韩国相对差距甚大,而平均每分钟就新100位网民的中国大陆,网络购物具有巨大的发展潜力。另外,电子商务平台的“入市”门槛较低,网络购物价格相对于实体营销价格也很优惠,这都极大地吸引着广大的企业与消费,网络营销商机无限。根据市场研究分析,4月26日,百度董事长兼首席执行官李彦宏在2010百度联盟峰会上指出,“未来五年、十五年,中国互联网面向商业发展的机会很多”、“互联网‘好戏才演半场’”。随着信息技术的不断发展,信息高速公路建设的升级换代,电子商务与企业合作互动的日益亲密和紧密,纺织企业扩大营销渠道,实现品牌“无缝隙营销”指日可待。网络无所不在,营销无孔不入。

感受到品牌建设所面临的严峻挑战

电子商务为纺织企业量身打造的品牌视窗,以高科技的技术手段,借助现代文化创意的写实手法网络营销论文,将纺织服饰的品牌理念、品牌文化、功能特点和服务特色等,全面地、细致地、真实地展现在了世人的眼前,营造出各种神奇的视觉效果论文网站大全。

如,日前在香港举办的“亚洲零售博览会”上,网络平台上的智能专卖店里配有利用无线射频识别技术开发的智能货架系统、智能试衣镜,在给顾客带来一种全新的购物体验的同时,也对品牌的所有细节进行了生动的描绘和真实的展示。借助电子商务平台,纺织企业品牌信息上网方便了消费者对品牌的认识和了解,推动了企业的品牌营销战略。但从另一个层面来说,这也公开了企业的经营“秘密”,特别是品牌的流行款式,很容易引起针织同行们的效仿,甚至是抄袭,从而加重了产品同质化竞争的恶性循环。而要解决这一潜在的威胁,纺织企业就得在品牌特色、品牌优势的“不可复制性”方面下足功夫。随时替换或更新能吸纳低碳纺织原料的、能对接新能源的最新纺机设备自不必说,增强款式设计的文化创意品味、提升设计手段的高科技智能化水平都至关重要。而且在品牌影响力相当而又各领风骚的竞争环境下,围绕低碳纺织的新要求来培育、巩固并不断增强自主品牌的特色服务,以值得信赖的品牌形象聚集更多的网络购物人群,从而实现不断提升产品营销额的目的。

同时网络营销论文,网络平台加快了品牌信息的传播与消费意见的反馈,促进了企业与消费者的良性互动,便于企业及时地根据消费者的意愿和市场流行趋势的变化可能,改进品牌建设,新增品牌活力,提高品牌竞争力。另外,品牌上网也强烈呼吁整个社会要尊重与维护好纺织品牌的知识产权,加快网络经济立法,营造良好的网络营销风气,为纺织品牌建设提供有力保障。

为广大纺织企业寻找到突围发展的新路径

在国内市场的纺织大牌中,金融危机爆发之前李宁品牌年销售额一直排在耐克和阿迪达斯之后。为了改变这种受制于人的窘境,李宁品牌在营销观念上来了一次重大的变革,觅得危中之机踏上了电子商务平台,大举进军网络营销市场,先后在淘宝等电子商务平台上建立了1000多家网店,终于在2009年实现销售收入83.87亿元,一举超越了这年销售额约为70亿元的阿迪达斯,与这年销售额仍为冠军的耐克差距甚微,并以一家主要依托互联网平台和IT技术手段的“轻公司”的新形象网络营销论文,树立在纺织大牌的最前沿,也为广大的纺织企业树立了通过网络营销实现品牌从激烈的市场竞争中成功突围的典型案例。

再看金融危机影响下的国内市场上的其他纺织企业(特别是中小纺织企业),迫于转型升级的压力、劳动力成本骤增的压力、企业向中西部或海外转移的压力,一时难以将有限的人力、财力和物力用于扩大营销渠道之上论文网站大全。当它们看到以阿里巴巴等为代表的电子商务企业抛出的营销橄榄枝时,也都纷纷尝试起“触网”来,希望能像李宁品牌那样,借助网络平台能将自己所积累的用户资源迅速地转变为消费受众的市场功能,来实现自主品牌逆势飘红、企稳拉升、再创辉煌的意愿。此时,金融危机中迎来发展新机遇的电子商务领域,也在不断强化内功,实现了从原来单一的提供网络营销平台到开通网络支付功能的转变,甚至是实现了向纺织品牌的“网络代理商”角色的成功转换。如,由阿里巴巴集团创办的“网货交易”,就是通过电子商务的网络平台,由淘宝卖家先扮演企业品牌代理商的角色,再将其向广大企业所采购来的大量商品卖给国内广大消费者的商品流通模式。

据悉,“2010年(第五届)网货交易会”将于9月上旬在杭州和平会展中心举行。在“网货交易”模式中,独立承担起商品销售的电子商务又与物流、包装等行业建立起战略合作关系,甚至是在其内部衍生出相似功能的配送机构来网络营销论文,从而创造出新的就业岗位来,为消费市场的扩大提供了更大的可能,也激发了企业生产的热情。另外,自世界金融危机从2008年9月爆发以来,已经出现过了美国次贷危机、迪拜危机、欧元危机等的多次变脸。海外市场变化多端、风云莫测,对于众多外向型的纺织企业来说,利用电子商务平台来做品牌的网络广告,不仅覆盖面大而广,而且也开通了规避诸多风险的广告投入新路径,在以“中国智造”创世界名牌的口号声中,品质卓越、服务提升的网络商品,会赢得良好的网络口碑,产生品牌形象传播的“鲶鱼效应”。“低成本、高效益、零风险”的网络广告模式,纺织企业家们何乐而不为呢!

在全球化时代,信息的沟通和共享给消费者带来了更多的选择,绝大多数产品都面临供过于求的问题,在处于“丰饶”“富足”经济的状态下,中国占90%以上的中小企业如何杀出竞争激烈的红海,实施蓝海战略,自身的市场定位与营销策略息息相关。

网络营销可以降低企业的经营成本、营销销成本和储存成本,甚至可以实行无店面销售,而且供需双方可以直接见面,减少了中间环节,企业内部各部门之间的信息传递也更加快速准确,有利于提高效率。特别是可以发挥中小企业规模小的优势,与客户和顾客紧密联系,灵活运作,市场适应能力强,并且可以及时发布合作信息和产品动态,在激烈的市场竞争中,寻找合作伙伴,形成战略联盟,实现双赢共享的合作。借助网络营销,中小型企业也可以在全球国际化的大市场中参与市场竞争,寻求自己的市场空间。

但是根据有关调查报告显示,页面每天访问量在50以下的企业网站超过半数, 近四成企业网站通过网站发布的信息占其所有公布信息的比例低于二成 ,每周至少更新一次网站信息的企业仅占到三成 ,这说明我国中小企业的网络营销应用水平较低,大量可以利用的资源被浪费。在山东临沂,情况要稍微好一些,几家较知名的企业都建了自己的网站,作为企业宣传及产品展示、信息发布的平台,天元集团、鲁南制药厂、银凤陶瓷等企业的网站都较好发挥了形象展示和信息沟通的作用,但还没有充分利用网络来展开深入的互动式营销。

分析中小企业网络营销的现状,可能有以下几个原因:

1、资金、技术、人才问题。大量的中小企业由于缺乏门户网站的'支持,要进行网络营销只有建设自己的网站,但是对于资金财力和人力资本都十分有限的中小企业来说,建立自己的网站并进行维护和更新的难度非常大,网络营销包含了许多技术性的工作,企业自身很难做到,延缓了新技术和新营销手段的应用,从而差距进一步加大。

2、意识观念问题。网络营销不仅涉及大量的投入和技术上的变革定制营销,而且还涉及到企业的业务与管理流程、组织结构、管理制度等一系列问题。许多中小企业这方面意识薄弱,影响了中小企业网络营销的顺利进行,不少企业上网了,但往往存在“重建设轻维护更新”、“重硬件轻软件”、“重技术轻管理”等倾向和误区,只是把企业名称、地址、电话留下,发布一下信息,没有以Web2.o、Web3.0的理念意识,扩展网络销售,网络营销调查、数据库挖掘分析,和售后服务等深层次业务,进一步开发潜在顾客需要,保持顾客忠诚度。

3、网络营销目标不明确或缺乏预期。是为了增加销售渠道、提升推广品牌形象、还是为了寻求凸显企业核心竞争力?盲目根据服务商的名气或价格的高低进行投放广告,缺乏对网络营销的模式、方法的筛选与营销成果的预测, 网络营销收效甚微论文网站。

下面作相应对策的探讨。首先,做好企业和产品的整体营销规划,将网络营销作为有机的组成部分,对实施的方式,投入维护,及资料数据分析,回馈反应机制、预期效果与评估,包括实施中可能遇到的问题做详细的考察,和周密计划。有条件的企业考虑建立完善的网络营销系统,与传统营销方式整合,共同推广自身品牌,提高产品市场占有率。由于资金、人才等资源缺乏网络营销有难度的中小企业,可以考虑将这块找专业公司或专门人士来打理,进行外包。

其次,对具体网络广告的投入方式,及营销策略的可行性进行科学分析。除了建设企业网站之外,网络营销还包括网站推广、Email营销、 网络广告等丰富的内容。企业可以根据自身条件及产品特点、行业特性进行合理选择。比如,博客营销。美国的Twitter不愿接受大量企业做媒体广告的要求,但同意在自愿的前提下,用户的博客上出现收费的商业性广告,根据用户与企业签订的协议分成,用户可以拿走大部分广告费,也可随时终止广告,按实际投入的天数计算费用。

在知识经济条件下,网络技术的普及使市场被无限的细分。那些满足无数细分市场的利基产品经过长尾集合器,变得易于寻找,又通过互联网搜索引擎的过滤器的强大指引作用鼓励人们更多地探索。基于对个性化需求的重视,长尾理论在网络营销中被经常应用,当然,它的实现是一些必备条件的:一定的经济、技术背景,所适用的产业领域和能够实现的盈利模式。否则,边际成本的增加带不来相应的收益,长尾就没用了,但是,对长尾理论的延展思考却可能带来新的商机。

唐海军认为,长尾理论提供了一这种商业模式,体现了推动型模式与拉动型模式之间,广泛性与个性化需求之间的差别。这种商业模式,来自于对消费者需求心理的把握,和敏锐的消费者洞察。对中小企业来说定制营销,则提供了难得的市场机遇,可以考虑下面的策略进行实施:寻求较为准确的目标市场定位,打造核心竞争力,实现定制营销,从而把握商机,突破发展瓶颈。

一、把握网络消费的脉搏,从产品到企业实施战略定位。

所谓定位,“就是令你的企业和产品与众不同,形成核心竞争力;对受众而言,即鲜明地建立品牌。”定位理论的产生,源于人类各种信息传播渠道的拥挤和阻塞,可以归结为信息爆炸时代对商业运作的影响结果,媒体、产品、广告等外在多种因素的交叉组合,与消费行为、心理个性的差异,使消费者需求难以整体把握,满意度指标也在漂移中。网络营销中这种市场的裂变更为显著,体现在:消费者只能接收有限的信息,消费者喜欢简单,讨厌复杂、消费者缺乏安全感、消费者的想法容易失去焦点等方面,这就为中小企业提供了市场定位的契机。定位的方法有多种,如强化自己已有的定位、比附定位、单一位置策略、寻找空隙策略、类别品牌定位、再定位等。企业在尽量延长已有产品产品生命周期,进行重新定位的同时,也应该寻找市场空隙,对自身重新定位。搜集网络在线营销的反馈数据与信息,对网上产品开展的市场调查,都是定位的参考依据之一。

二、调整产业链结构,打造核心竞争力。

波特的五力竞争模型阐述了企业与供应商、批发商、竞争者,顾客等的多重关系,网上营销可以同时开展B2B/B2C方式的营销,在面对全球化合作的今天,共赢的合作可以让资源在全球范围内进行合理优化的配置,有些公司,如苹果公司除了保留其核心开发技术,其它环节都进行外包,形成了一个独特的产业价值链。日本的一些中小企业则处于一些核心企业的外围,是上游或下游的关系,为之提供服务,这种合作关系的紧密程度随市场形势的变化而定论文网站。中国的中小企业在有了合理明确的定位后,可以通过建立自己的网站、借用GOOLE、百度两个搜索引擎营销和投放流媒体等其他网络广告的形式,选择全球合作伙伴,突出自己的核心竞争力。

三、争取先机,服务为王,定制营销。

由于网络营销的的特点,可以进行大规模定制服务,更好地满足个人化需求,这是网络营销的优势,同时,网络营销要更多地考虑人性化,打消人们下订单的顾虑,在影响消费者购买行为的实现过程中定制营销,服务会产生信誉,服务会让企业走向成功。在充分竞争的网上购物红海中,开展B2C业务的Zappos被誉为“卖鞋的亚马逊”。创始人谢家华说:Zappos的定位是一家服务公司,它只是碰巧卖的是鞋子。公司的承诺是,给顾客最好的购物体验。“鞋合适就穿,不合适就换”,Zappos因此成为网上买鞋的首选,创造了年销售额超过8亿美元的业绩。

在今天,企业仅仅能够适应现在的市场环境是不够的,应该有对未来市场的预见和前瞻。以消费者的需求变化为导向,在工业经济时代的大批量复制生产之后,是大规模定制营销时代的到来。中小企业的网上定制营销,会更加曲尽人意,有更多的灵活性和生长空间。如果能够市场嗅觉灵敏,争取在未来市场中把握先机,就占据了竞争的优势地位。企业可以通过功能模块化设计,对一定范围内不同功能或相同功能不同性能、不同规格的产品进行功能分析,划分并设计一系列功能模块, 通过模块的选择和组合构成不同的产品,在这一过程中,可以利用顾客数据库,让顾客参与产品的设计,进行新的组合,来更好地适应消费者的需求变化。产品的成本在设计阶段就可确定下来,企业尽量对产品成本影响较大的零部件标准化,而通过把其他较小零部件变型或采取手工制作来满足顾客个性定制的需求。那个更大范围内应用的标准化部件可以作为帕雷托“二八原则”的体现,而变形零部件或手工创意制作的,聚合的长尾部分则可能带来更大的利润,中小企业的网络营销策略,也可以是对长尾理论和帕累托原则的再思考灵活应用。

参考文献:

1、克里斯·安德森长尾理论[M] 北京:中信出版社,2006.

2、里斯·特劳特王恩冕、余少蔚译定位中国财政经济.2002.

3、长尾理论经济学原理探析唐海军现代管理科学.2009年第1期.

4、定制营销浅析李桂隆黄蓓蓓经济理论研究全国商情.经济理论研究.2009年第1期.

个人意见仅供参考,1、先分析一下网络营销的环境,比如说在搜索某一个关键词的时候,经过优化的网站其搜索排名会更考前2、导入到关键词的设定上,关键词的设定是关键,那就要看你服务的企业或者产品的主要消费群是谁,他们会搜索什么,结合这些关键词在进行论述

毕业论文婚纱搜索引擎研究

主要做好关键词的内锚+外链+内容 ,就ok了 有不明白的可以问我,希望能帮助您

第一步是对网站进行诊断。对网站进行全面的检查,找出网站不利于排名的原因。第二步是改网站。按照网站诊断结果对网站进行优化。第三步就是优化关键字,如果前面的基础打得好,这一步会比较轻松。最后一步就是实现排名后进行维护了。搜索引擎是根据一定的算法进行网站排名的。通过搜索引擎优化,可以提高关键字排名。比较有效的方案就是整站优化,优化网站内部,提高网站权重。我们公司给上海电信、法国刻宝、中华药业、美国贝迪等客户提供的都是整优化的方案,流量平均提高300%

其实优化对行业没什么要求啦,只要看你们这行做优化关键词的多不,如果多就不太好做,少就好做,还有就是做优化要坚持,坚持发外链,更新网站内容,最好是原创。多看你们同行百度前几名的网站架构、外链啦什么的,积累相关经验。蜘蛛周期性的访问,如果做的好的网站没有坚持,而你坚持下来了,你的站就能上去,他的就下来。加油吧。坚持就是胜利。

网站优化,技术方面都是很简单的工作,关键是网站内容和站外反向链接需要投入大量的精力去做。并不是向以上某位说的没有行业要求,就拿网站内容来说,对行业不了解是做不了的,还有反向链接也是要经常浏览和关注行业的相关网络平台,发布文章做上去的。艾特网络营销是专门为婚纱摄影行业提供网络整合营销的公司,对于网站优化一般从三个方面入手:1、技术优化 网站导航优化 根目录优化 页面分类标签化 网页标题优化页面静态化 网站“减肥” 关键词密度和位置调整 (通过合理的搭配页面元素,优化网站的整体结构,尽量多采用静态页面少用带参数的动态页面,减少不必要的脚本程序,规范网站导航及内部链接以提高搜索引擎对网站的友好度,保证搜索引擎对网站页面的抓取。)2、站内更新最终的排名效果需要网站的内容来配合,文章要突出关键词;网站更新的次数越频繁,搜索引擎蜘蛛爬行的也就越频繁;一个页面的主题越紧凑,搜索引擎对它的排名就越好,文章切块,分成几个主题更密切、长度更适宜的文章,应避免内容重复;有意做些导出链接会提高网站在搜索引擎中的排名。3、站外链接外部链接的锚文字、外部链接页面内容与关键词的相关性、外部链接页面的主题性、外部链接页面在相关主题的网站社区中的链接流行度、外部链接的创建和更新时间、外部链接网站的PR值。您可以大致了解下!!

搜索引擎优化方法研究论文

你这家伙是洛阳理工学院的吧,要二千五百字也不给别人点分,怎么能行呢?下面是一部分,功能:网站优化-百度搜索引擎的特点1. 基于字词结合的信息处理方式。巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。 2. 支持主流的中文编码标准。包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。 3. 智能相关度算法。采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。4. 检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。5. 百度搜索支持二次检索(又称渐进检索或逼进检索)。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。 6. 相关检索词智能推荐技术。在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%。 7. 运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。百度搜索引擎在中国境内提供搜索服务,可大大缩短检索的响应时间(一个检索的平均响应时间小于0.5秒) 8. 可以提供一周、二周、四周等多种服务方式。可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。 9. 检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。支持用户选择时间范围,提高用户检索效率。 10. 智能性、可扩展的搜索技术保证最快最多的收集互联网信息。拥有目前世界上最大的中文信息库,为用户提供最准确、最广泛、最具时效性的信息提供了坚实基础。 11. 分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。 12. 高可配置性使得搜索服务能够满足不同用户的需求。 13. 先进的网页动态摘要显示技术。 14. 独有百度快照, 15. 支持多种高级检索语法,使用户查询效率更高、结果更准。已支持“+”(AND)、“-”(NOT)、“|”(OR)、“site:”、“link:”,还将继续增加其它高效的搜索语法。其它的你自己找吧。我也还没有找到。

1、抓取网页每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。2、处理网页搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。3、提供检索服务用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。全文搜索引擎在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。编辑本段目录索引与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。

搜索引擎的研究与实现论文

摘 要网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本论文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的Java搜索引擎——新闻搜索引擎。新闻搜索引擎是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。 关键字:搜索引擎,网络机器人,Lucene,中文分词,JavaCC AbstractThe resources in the internet are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structure of search engine based on the internet in detail, and then gives a minute explanation form Spider search, engine and web server. In order to understand the technology more deeply, I have programmed a news search engine by myself in Java.The news search engine is explained and searched according to hyperlink from a appointed web page, then indexes every searched information and adds it to the index database. Then after receiving the customers' requests from the web server, it soon searches the right news form the index engine,In the chapter of introducing search engine, it is not only elaborating the core technology, but also combine with the modern code, pictures included, easy to understand. Key Words:Search Engine, Spider, Lucene, Phrase Query, JavaCC 目 录第1章 引言··· 11.1 选题背景:··· 11.2 现实意义··· 1第2章 搜索引擎的结构··· 32.1 系统概述··· 32.2 搜索引擎的构成··· 32.2.1 网络机器人··· 32.2.2 索引与搜索··· 32.2.3 Web服务器··· 32.3 搜索引擎的主要指标及分析··· 42.4 小节··· 4第3章 网络机器人··· 53.1 什么是网络机器人··· 53.2 网络机器人的结构分析··· 53.2.1 如何解析HTML· 53.2.2 该类几种重要的方法。··· 63.2.3 Spider程序结构··· 63.2.4 如何构造Spider程序··· 73.2.5 如何提高程序性能··· 83.2.6 网络机器人的代码分析··· 93.3 小节··· 10第4章 基于Lucene的索引与搜索··· 114.1 什么是全文检索与全文检索系统?··· 114.2 什么是Lucene全文检索··· 124.3 Lucene的系统结构分析··· 134.3.1 系统结构组织··· 134.3.2 数据流分析··· 144.4 Lucene索引构建逻辑模块分析··· 154.4.1 绪论··· 154.4.2 对象体系与UML图··· 164.4.3 Lucene的包结构··· 204.4.4 Lucene的主要逻辑图··· 214.4.5 对Lucene包的小结··· 224.5 Lucene查询逻辑··· 224.5.1 查询者输入查询条件··· 224.5.2 查询条件被传达到查询分析器中··· 224.5.3 查询遍历树··· 234.5.4 返回结果··· 234.6 Lucene 检索原理··· 234.7 Lucene和Nucth的中文分析模块··· 254.7.1 Nutch分析··· 254.7.2 Nutch中文搜索3.1 中文分词··· 264.7.3 利用JavaCC构造中文分析模块··· 274.7.4 分词小结··· 284.8 Lucene与Spider的结合··· 284.8.1 Index类的实现··· 284.8.2 HTML解析类··· 294.9 Lucene 小结··· 31第5章 基于Lucene的搜索引擎实现··· 325.1 基于Tomcat的Web服务器··· 325.1.1 什么是基于Tomcat的Web服务器··· 325.2 用户接口设计··· 325.2.1 客户端设计··· 325.2.2 服务端设计··· 335.3 在Tomcat上部署项目··· 355.4 小节··· 35第6章 搜索引擎策略··· 366.1 简介··· 366.2 面向主题的搜索策略··· 366.2.1 导向词··· 366.2.2 网页评级··· 366.2.3 权威网页和中心网页··· 376.3 小节··· 38结束语··· 39参考文献··· 40致 谢··· 41外文资料原文··· 42外文原文翻译··· 48 第1章 引言1.1 选题背景:面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展:第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm (WWWW)平均每天承受大约1500次查询。大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。结束语本课题对基于因特网的Java搜索引擎结构和性能指标进行了分析,了解Spider程序的结构和功能。在进行海量数据搜索时,如果使用单纯的数据库技术,那将是非常痛苦的,速度将是极大的瓶颈。所以本文提出了使用全文搜索引擎Lucene进行索引、搜索。解决中文分词和有效的中文搜索信息。同时解决了如何把Lucene全文搜索引擎和Spider程序互相集合来实现新闻搜索的功能。对于如何构架基于Tomcat的Web服务器,使得用户通过浏览器进行新闻的搜索有了一定的理解,对Tomcat如何部署进行了说明。在些基础上,终于可以调试出一个简单的在本地搜索新闻Java搜索引擎。参考文献[1] Jeff Heaton(美), Programming Spiders, Bots, and Aggregator in Java.[2] Borland Software Corporation(美),JBuilder培训教程(译者:周鹏 [等] 译)北京:机械工业出版社[3]徐宝文,张卫丰. 搜索引擎与信息获取技术.北京:清华大学出版社,2003.5[4]车东.基于Java的全文搜索引擎Lucene[5]罗旭.主题搜索引擎的设计与实现[6]Bruce Eckel(美).Thinking in Java.北京:机械工业出版社[7] Otis Gospodnetic Erik Hatcher (美).Action in Lucene.电子工业出版社,2007.1[8]耿祥义,张跃平. JAVA2实用教程(第二版).北京:清华大学出版社,2004.2[9]刘彬.JSP数据库高级教程.北京:清华大学出版社,2006.3[10]刘卫国,严晖.数据库技术与应用——SQL Server.北京:清华大学出版社,2007.1[11]闫宏飞.Tiny Search Engine: Design and implementation(PPT). Oct.2003[12]李晓明,闫宏飞,王继民.搜索引擎——原理、技术与系统.北京:科学出版社,2004 更多参考请点击

1、抓取网页每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。2、处理网页搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。3、提供检索服务用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。全文搜索引擎在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。编辑本段目录索引与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。

提供一些关于搜索引擎的毕业论文参考文献,供参考。[1] 王希瑶. 浅析搜索引擎技术及技巧[J]电脑知识与技术, 2005,(21) . [2] 彭波,李晓明. 搜索引擎倒排文件的一种分块组织技术[J]电子学报, 2005,(02) . [3] 黄强. 搜索引擎技术研究[J]计算机与现代化, 2004,(11) . [4] 林彤,江志军. Internet的搜索引擎[J]计算机工程与应用, 2000,(05) . [5] 黄西安. 利用“百度”搜索网络信息资源[J]科技情报开发与经济, 2005,(04) . [6] 陈新明,钟涛,万钧,吴杰,张世永. WWW搜索引擎的数据采集技术[J]计算机工程与应用, 2002,(07) . [7] 都云程,卢献华. 中文搜索引擎现状与展望[J]中文信息学报, 1999,(03) . [8] 丁承,邵志清. 基于字表的中文搜索引擎分词系统的设计与实现[J]计算机工程, 2001,(02) . [9] 刁倩,张惠惠,王永成. Internet上的英文搜索引擎[J]计算机工程, 1999,(07) . [10] 陆兴. 八个著名中文搜索引擎的特征及其评析[J]图书馆理论与实践, 2003,(02) .

相关百科

热门百科

首页
发表服务