网络知识挖掘在数字参考咨询中的实现

【内容提要】文章着重阐述了网络知识挖掘产生的背景及其概念、技术，探讨了网络知识挖掘在数字参考咨询服务中的应用。

【摘要题】信息需求与服务

【关键词】数字参考咨询/数据挖掘/网络知识挖掘

【正文】
　　　　1　网络知识挖掘产生的背景及其概念、技术

对知识挖掘的设想始于20世纪80年代末。当时出现了从源数据中发掘新信息模式及算法，被称为数据中的知识发现（knowledge discovery in database，kdd）。这种想法的出现是由于此前的信息或知识数据库存在着种种局限，限制了对数据库中蕴涵知识的有效利用[1]。知识发现被认为是今后具有重要影响和应用前景的关键技术。知识发现（knowledge discovery）也称数据挖掘（data mining），源自人工智能的机器学习领域，是在一个已知状态的数据集上，通过设定一定的学习算法，从数据中获取所需的知识[2]。数据挖掘广泛应用于数据仓库和分布式数据库中，根据数据间的相互关系进行数据分析，提取潜在有用的信息和知识，经挖掘后被发现的知识可用于信息管理、查询优化、科学研究、决策支持、过程控制等。现有的数据挖掘工具有：model quest miner、knowledge seeker、business miner、anser tree等几十种。数据挖掘是网络知识挖掘的基础。WWW.133229.COm网络知识挖掘是指利用数据挖掘技术，自动地从由异构数据组成的网络文档中发现和抽取知识，从概念及相关因素的延伸比较上找出用户需要的深层次知识的过程[3]。网络知识挖掘可分为网络内容挖掘（web content mining）、网络结构挖掘（web construct mining）、网络使用挖掘（web usage mining）。一般而言，网络知识挖掘的发现技术主要包括以下几个方面。
　　1.1　路径分析
可以用许多曲线图解法来进行路径分析，一个曲线代表了web页面间或者其他事物之间的一些联系。
　　1.2　关联规则
关联规则用于发现数据项之间的联系，在网络挖掘中就是发现某一顾客的引用页面和服务器上多种页面之间的联系。
　　1.3　序列模式
应用序列模式是为了发现一些交互模式，如在一时间段内某一数据项后面跟着另一个数据项。在服务器日志文件中，记录了一段时间内客户的访问信息，对web服务器中访问日志的序列模型分析可以使用企业预测用户访问模式，帮助广告进行目标定位，发现在一个时间段内访问某一文件的所有客户的相同特征等。
　　1.4　聚类和分类
根据一些数据项的共同特征来对数据库进行分类。在网络挖掘中，分类技术可以基于用户的一些人口统计信息和访问模式对访问某文档的用户进行偏好描述。聚类分析可以将有相似特征的用户或者数据聚集在一起，聚类web日志的用户信息和数据可用来制定未来市场营销策略[4]。

　　　　2　网络知识挖掘与数字参考咨询知识库的建立

数字参考咨询的概念起源于20世纪80年代的美国，早期的电子邮件咨询服务起源于1984年的华盛顿大学健康科学图书馆和马里兰—巴尔迪摩大学健康图书馆[5]。在美国，图书馆界对数字图书馆的发展存在两种看法，其中一种把图书馆看作是一个在图书馆员的协助下为广大用户提供智能服务的透明的知识网络。数字参考台就是根据这种意见建立起来的对话式的智能服务系统[6]。数字参考咨询是伴随着数字图书馆的研究和实践热潮出现的又一大热点，也是网络环境下图书馆参考咨询服务的主流发展方向。利用网络知识挖掘技术，可以了解用户访问图书馆的目的和趋势，了解用户的兴趣和需求，改进服务质量，变被动服务为主动服务，提高数字参考咨询服务的效率。
数字化信息资源是数字参考咨询的物质基础，它由各类知识库构成。数字参考咨询是从积累知识库到进行知识服务，可以在面对面与用户沟通中判断用户的实际需求，由此来加深知识服务层面的深度和广度。知识库的建设直接影响到数字参考咨询服务。可想而知，如果没有知识库或知识库内容非常少，仅凭咨询员个人的知识经验很难满足不同用户的各类需求。网络在提供丰富资源的同时，也给查找和获取有效信息带来了难度。传统的数据挖掘涉及的主要是结构化及半结构化的数据库，而网上的信息变化频繁且具动态性，是一个巨大而又复杂的异构型数据库，对网上的信息进行挖掘要比面向单个数据库复杂得多。数字资源的多元性和分散性，使数字化信息的知识化挖掘和链接成为信息服务所面临的前沿挑战。因此，对数据的进一步加工和内容分析显得越来越重要。在这样的背景下，网络知识挖掘的新技术应运而生。
网络知识挖掘的类型可分为对网络知识的挖掘和对用户知识的挖掘。对网络知识的挖掘主要是指通过对网络信息的定性定量的增值处理，找出信息分布的规律，发现信息内在的关联性，挖掘隐藏在网络信息中的知识并形成模型。对用户知识的挖掘是指对用户访问网络时的信息和用户个人信息的挖掘。网站服务器会保留用户的访问记录，记录关于用户访问和交互的信息，对此进行分析和挖掘，有助于理解用户的信息活动，了解用户的信息需求，从中得出用户的访问模式和访问兴趣，从而改进网站的结构，也可以用于为用户提供个性化的服务[7]。此类知识库建立方法在实际中的应用如复旦大学，复旦大学的实时咨询提醒用户如果在线咨询员没有空闲，可以参考图书馆faq中的一些常见问题的解答；如果用户的问题仍未解决，不妨使用电子邮件咨询服务，或稍候使用实时在线咨询服务。用户所提的问题及其相应答复可能被收入复旦大学图书馆参考咨询台后台知识库中，在知识库中用户的所有个人信息都会被删除，收入数据版权归复旦大学图书馆所有[8]。
基于internet建设起来的知识库，其质量好坏直接影响数字参考咨询。作为信息资源的知识库，要形成一定的规模且检索便捷、内容新颖，能够不断地更新，以保持数据的准确、全面和及时。如当今世界上最大的图书馆网络oclc把互联网上的信息经过系统化的整理，通过主题词即可检索；且oclc的worldcat数据库随时更新，每年以200多万条记录的速度增长[9]。oclc之所以始终保持在高新技术前列，是由于在研究开发上的大量投资。oclc平均每年投资研究与开发项目达1000万美元以上，仅在2002-2003财政年度就投资1400万美元[10]。所以研究开发先进的知识挖掘、分析和提炼技术，形成一个丰富的知识库来满足用户的需求，提高用户的满意度，给用户更好的服务，是做好数字参考咨询服务所必需的。

　　　　3　网络知识挖掘为数字参考咨询提供技术支撑

图书馆对新技术尤其是信息技术保持高度敏感。随着电子技术、计算机技术和通信技术的迅猛发展，互联网在全球范围得到迅速普及，同时多媒体技术、实时交互技术等与之配套的技术如雨后春笋般出现，这为图书馆开展数字参考咨询服务提供了技术保障。经过几年的努力，图书馆的数字化建设与服务已具备了较好的技术和硬件基础，这也为开展数字参考咨询服务提供了强有力的技术支撑。
知识挖掘的技术基础是统计学与人工智能。知识挖掘的主要特点是能对原有的数据进行高度自动分析、归纳推理，从中挖掘出潜在的模式，预测用户的行为，帮助决策者调整策略，作出正确的决策。人工智能是以自动机为手段，通过模拟人类宏观外显的思维行为，从而高效率地解决现实世界问题的科学和技术。可以看出，人工智能的目标非常高，除需要复杂的算法外还需要特定的机器。但知识挖掘仅仅利用了人工智能中一些已经成熟的算法和技术，如人工神经网络（artificial neutral networks）、遗传算法（genetic algorithms）、决策树（decision trees）、规则推理（rule induction）（即通过统计学方法归纳提取有价值的if-then规则，如关联规则挖掘）、模糊逻辑（fuzzy logic）、cvsm等[11]。

数字参考咨询服务无非是在保证提供符合用户要求的同时缩短提供时间和提供个性化服务。数字参考咨询服务的交流方式主要由解答式和交互式两种。前者是比较初步而简单的服务方式，如faq、非实时的电子邮件、web表单、bbs和messageboard（留言版）等；后者主要是指实时性的交互模式，如2002年7月，oclc与美国国会图书馆协同研制开发推出网上联合数字参考咨询服务questinpoint。但不管是哪一种，现在的提供方式虽然也在借鉴和应用计算机的自动处理，但智能化的程度有待提高。其中最主要的一点是要提高对提问信息的分析正确度，如何从提问信息中提取最相关的单词、词组，并对提取的单词、词组在已有知识库中进行准确无误匹配，这就用到词表技术。目前，词表技术研究的一个重要发展趋势就是与网络检索这类应用系统的结合。通过概念空间词表界面，用户可以随意输入任何一个单词或词组，这时搜索界面会在一个显示框中显示按与用户检索词相关程度排序的空间词汇，用户可以从中选择合意的词添加到搜索框中，从而检索出用户所需的信息，更提高检索的精确度。其次是对检索结果集的筛选和提炼问题。网络知识挖掘的目的是将用户从浩如烟海、错综复杂的网络信息源中解放出来，摆脱原始数据细节，直接与数据所反映的知识打交道，使处理结果以可读、精练、概括的形式呈现给用户，使用户能把主要精力真正用到分析本质问题、提高工作效率和资源利用率方面。网络知识挖掘能够真正支撑起数字参考咨询服务系统的显性知识与隐性知识全方位开发策略。目前对检索结果的筛选和提炼这个工作环节大部分是由人工完成的，虽然保证了质量，但随着以后工作量的日益增加，采取智能处理是必然趋势。知识挖掘虽然仍处在发展的前期，还有很多研究难题，但我们在建设数字参考咨询服务系统的时候，必须考虑对知识管理功能的开发，预先设计好底层数据标准和二次开发接口等。

　　　　4　网络知识挖掘在数字参考咨询个性化服务中的应用

数字图书馆的内涵不仅仅应体现在其数字化资源的建设上，更应体现在服务上。数字参考咨询服务是数字图书馆建设的必然结果。数字参考咨询的用户需求不仅是简单的查询，而且是需要深入内容的信息处理技术，希望摆脱表层信息的干扰，对网络数据作更深层次的分析与挖掘。这就要求图书馆从纷繁复杂的信息资源中，以面向“个人”的方式来挖掘知识，提取真正有用的信息。这是数字图书馆建设中要考虑的问题之一，是做好数字参考咨询的前期基础。
个性化服务是指使用多种数据分析技术，根据用户兴趣的信息向用户及时、主动地推荐用户需要的且以往没有获得的知识资源信息，并能根据用户对推荐内容的反馈进一步改进推荐结果。个性化服务是一种高层次的智力技术活动，其重要的特点是知识增值与智能重组。网络知识挖掘工作运用最新的智能工具来挖掘蕴藏于海量显性信息中的隐性知识，并形成专业知识库和知识仓库，将隐性知识显性化并给予管理、利用，非常符合网络用户对个性化、隐性知识的需求。网络知识挖掘在数字参考咨询个性化服务中的应用主要体现在以下两个方面。
　　4.1　收集与用户有关的信息，建立用户信息库
通过各种方式收集用户兴趣，比如表单、跟踪日志、系统导入等，从而建立用户个性化的信息库。
（1）填写表单。数字参考咨询服务可以在主页上提供个性化服务的注册入口。在进入页面，设计一个表单，内容包括用户的背景信息，如用户的学历、年龄、职业、地域、要求等和用户的特殊信息，如感兴趣的专业、方向，想获取的信息以及获取方式和联络方式等。
（2）跟踪日志。数字参考咨询服务可以在用户进入图书馆网站开始，对用户的行为进行跟踪，产生日志文件，并将该日志文件并入用户信息库。对用户的web日志记录进行挖掘可以比较真实地反映其信息需求。从web日志记录中可以挖掘出关联模式、序列模式和web访问趋势等，从而理解用户的反映和动机。
（3）系统导入。通过联合图书馆方式将其它图书馆的用户信息库导入，也可以与其它网站合作，导入其用户数据。
　　4.2　利用知识挖掘技术，分析用户信息库
为了开展个性化服务，必须了解用户，了解用户的信息需求，包括显性需求和隐性需求，进行以下分析。
（1）用户分类。通过对用户的兴趣、爱好、研究领域、知识结构、利用图书馆的程度和对图书馆提供服务手段掌握的熟练程度等方面，将用户进行分类。
（2）用户行为分析。要将信息主动推送给用户，必须了解用户的信息需求，它包括显性需求和隐性需求。显性需求是通过填问答表的方式了解，做到这一点比较容易，关键是如何了解用户的隐性需求。隐性需求主要是系统通过观察用户信息使用行为，比如用户访问的页面、访问次数、逗留时间、保存行为等，以此来准确地获取用户的信息需要。要做到这一点，必须完善相应的人工智能方法和机器学习等技术。
（3）用户反馈挖掘。用户反馈挖掘是通过自动聚类技术将用户相关反馈的结果聚类，形成某些层次以描述用户信息需求，具体包括关联聚类、矩阵聚类、标量聚类，其目的是找出用户感兴趣的区域。为了提高服务质量，要求用户对所提供的信息作出反馈，并将用户的反馈信息再次分析、调整。如厦门大学图书馆在主页上列有问题反馈类目，包括留言讨论、馆长信箱、致信webmaster、鼓浪听涛xmu-library版。
（4）协同过滤。不考虑资源具有什么形式的具体内容，仅通过收集到用户对一些资源的评价（一般通过评级打分），比较用户之间的兴趣相似程度（距离），根据他与其它用户之间兴趣的相似程度（距离）和其它用户对资源集合的评价进行资源的推荐和共享[12]。

【参考文献】
1　李宏.知识管理与知识挖掘在情报研究工作中的实现.情报理论与实践，2003（3）：199-201
2　晏创业，张玉峰.智能检索中的网络数据挖掘技术探索.