0 引 言
用户使用百度搜索引擎的时候,都会留意到搜索引擎能够提供一种称为“相似搜索”建议的服务。当用户因输入的关键词不够准确而无法检索到所需要的资料时,相似搜索服务会给出建议的关键词,引导用户进行有效检索。相似搜索服务建议的关键词都是包含用户关键词的一系列扩展短语。很多时候,用户缺乏背景知识,对搜索意图(关键词)无法准确描述,相似搜索无法给出用户想要的结果。基于此,本文将开展关联规则挖掘技术的研究,通过统计大量用户的搜索行为数据,挖掘关键词中存在的关联,并对用户输入的关键词给出关联建议,引导用户进行有效检索。
1关联规则挖掘
关联规则挖掘[1]采用关联算法查找数据集中的不同属性之间的相关性。设I是项的集合,关联规则是形如 的蕴涵式,其中 , , ,拥有支持度support和置信度confidence,即:
,
(1)
在此定义,同时满足最小支持度阈值和最小置信度阈值的规则即可称为强规则。关联规则的规范表示为:
其中,R是取值范围;x是变量,在R上取值;Pm (m=1,2,…,i)和Qn (n=1,2,…,j)是谓词变量,作为任务相关数据的一部分说明的相关属性或维;uv (v=1,2,…,r)和tw (w=1,2,…,l)是对象变量,在关于x的谓词上取值;s是规则的支持度,c是规则的置信度,均取百分比值。例如,一个典型的关联规则如(3)式所示:
该规则表示,同时购买计算机游戏和影碟的人占顾客总数的40%;在购买计算机游戏的顾客中又购买影碟的概率是66%。为简化表示,将(3)式简化表示为“计算机游戏 影碟 [40%,66%]”。
2关联检索建议
与百度搜索引擎提供的“相似搜索建议”服务不同,本文提出的是“关联检索建议”服务。“关联检索建议”预先通过计算大量关键词之间的关联度,当用户输入关键词进行搜索时,系统根据用户输入的关键词,查找与其存在强关联的关键词(不一定语意相近),作为检索建议,由此引导用户进行有效检索。尤其用户缺乏背景知识,对搜索意图(关键词)无法准确描述时,“关联检索建议”模型可利用其它用户的搜索知识,给用户提供与当前关键词存在一定关联的其它内容方面的检索建议。
3模型设计
3.1模型总体架构
模型总体架构[2]如图1所示。系统收集用户检索时产生的关键词,并经过数据清洗操作,产生干净的符合要求的数据,把该数据按照一定的格式存放在数据库中。关联规则挖掘器使用关联挖掘算法,从数据库中读取关键词数据,进而提取一系列的关键词关联规则。导航器则根据关联规则为用户提出检索建议,引导用户进行更有效和针对性的检索。
图1 模型总体架构
Fig.1 General framework model
3.2挖掘模型设计
研究将用户每一次的检索过程看作是一个事务记录。每个事务记录包含若干个用户检索产生的关键词组;而同一个事务记录里的关键词之间则不分先后次序。具体来说,关键词数据是以事务记录为单位,且存储在数据库中。关联规则即挖掘模型从数据库中读取经过清洗的干净数据。数据的格式如表1所示,表中各行代表一个事务记录。
表1 事务数据
Tab.1 Transaction data
TID 关键词数据
1 关联规则挖掘,防火墙联动
2 SQL Server,VB,信息管理
3 女性,综合素质,就业,伟人
4 余世伟,MBA
... ...
关联规则挖掘分两步进行:
(1)找出所有频繁项集
(2)由频繁项集产生强关联规则 每个关键词,可将其称作“项”,两个或两个以上的关键词构成“项集”。关联规则挖掘的第一步,即找出在所有事务中出现次数达到某一数值的项集,而将这些项集称为频繁项集,并将该数值称为最小支持度计数。产生频繁项集的一个高效快速的算法是FP-增长算法,目前已有人在FP-增长算法基础上提出可以实现增量更新的算法[3]。进一步地,当前研究也已表明:相对来说,由频繁项集产生强关联规则是较为简单的。
4模型应用
4.1关联规则解释
关联规则挖掘器将挖掘得到一系列的关联规则,部分关联规则如表2所示。对于规则1,有0.35%的低支持度,说明很少人检索该方面内容;但却有100%的置信度,说明该类用户每次检索关联规则挖掘资料时,将必然检索防火墙联动方面的资料。又如规则3,有7.80%的高支持度,说明较多用户都在检索有关女性、综合素质以及就业问题;另有70.25%的较高置信度则说明用户在检索女性和综合素质方面资料的同时,较多人也会进一步检索并了解有关女性综合素质对就业、伟人等影响的文献资料。
表2 部分关联规则
Tab.2 Association rules
序号 关联规则 支持度 置信度
1 关联规则挖掘 防火墙联动 0.35% 100.00%
2 SQL Server,VB 信息管理 1.74% 90.00%
3 女性,综合素质 就业,伟人 7.80% 70.25%
4 MBA 余世伟
1.39% 67.41%
挖掘器挖掘出来的关联规则存放到数据库中,供导航器参考使用。当用户进入检索页面输入关键词检索资料时,导航器实时将依据用户输入的关键词,在关联规则库中查找和匹配,找出所有包含有用户关键词的关联规则,相应地给出检索建议。例如,当用户要检索有关“MBA”资料时,系统查找到规则4满足要求,并给出“余世伟”的检索建议。当然不是所有规则都有价值,只有强关联规则才是用户感兴趣的内容。系统管理员可以设定最小支持度阈值和最小置信度阈值,以筛选获取用户所需的强规则。
4.2业务应用
(1) 用户检索兴趣分析。关联检索建议模型首先收集大量用户检索的关键词,这些关键词反映用户检索的兴趣和需求。收集和分析用户需求有助于理解当前用户的需求,以便搜索引擎提供更有针对性、及实用性的的搜索服务。
(2)提供关联检索建议。关联检索建议模型提供的是一种关联搜索建议服务,只要关键词之间存在一定的关联,模型就会给出与关键词关联的搜索建议,引导用户进行更为有效的规范化科学检索。
(3) 图书采购决策支持[4-5]。图书采购将在相当程度上决定一个图书馆馆藏书目的质量和阅读可能性。将关联规则挖掘应用到
图书检索系统上即可统计出当前大部分读者检索的内容,并且可以进一步计算出哪些内容之间是存在关联的。因此,关联规则挖掘可以作为图书采购人员的决策支持的现实应用范例,从而更准确、合理地采购到读者真正需要的图书。
5结束语 本文由wWW. DyLw.NeT提供,第一 论 文 网专业写作教育教学论文和毕业论文以及发表论文服务,欢迎光临DyLW.neT
本文讨论了利用关联规则挖掘统计分析用户检索的关键词,计算关键词间的关联度,最后给出关联检索建议,引导用户进行更有效检索。关联规则挖掘分析用户检索兴趣,可以为后续研究进行更深层次的用户行为挖掘[6]。
参考文献
[1] Jiawei Han, Micheline Kamber. Data Mining Con-cepts and Techniques[M]. Beijing: Higher Education Press, 2001:227-242.
[2] 钱智勇.基于数据挖掘的重点学科专题知识库开发[J].图书馆,2004(3):50-53.
[3] 朱玉全,孙志挥,季小俊.基于频繁模式树的关联规则增量式更新算法[J].计算机学报, 2003(1): 91-96.
[4] 罗凤莉.图书流通数据的关联规则挖掘[J]. 情报探索,2006(8):40-41.
[5] 白新勤.基于数据仓库的高校图书馆数据管理[J].图书馆工作与研究,2014(11): 31-33.