摘 要:文章介绍了Web挖掘技术的概念、意义x、研究现状以及分类,阐述了Web挖掘的处理流程和常用的数据挖掘技术。最后指出了Web挖掘技术现在面临的挑战。
关键词:Web挖掘;数据挖掘技术;分类聚类
信息技术的发展使得Internet正在以前所未有的速度渗入到人类的生产和生活的各个方面。这就使得越来越多的用户感觉到在互联网上寻找自己想要的信息犹如“大海捞针”一样困难。所以如何快速、准确且高效地从浩瀚的Web信息资源中搜寻和发现用户感兴趣的信息和知识已经成为一个迫切需要解决的问题在Apriori算法和有向图存储结构的基础上,提出了会话矩阵和遍历矩阵的概念,设计了用户频繁路径快速挖掘算法。
5.3 关联规则(Association Rules)
关联规则是指经常被一起访问的,支持度超过特定阈值的页面集合。它主要用于发现用户之间、页面之间以及用户浏览页面和网上行为之间存在的潜在关系。比如挖掘可能得出“浏览/products/ Electronic Product.html 的用户75%都会浏览/products/ Software.html ”, 并且“ 浏览/products/Software.html 的用户50%都会下订单”的规则,那么管理员应该在电子商品目录页面提供进入计算机软件目录页面的直接途径。最为著名的关联规则挖掘算法是R.Agrawal提出的Apriori
算法,其余算法大多是以Apriori为核心,或是其变体,或是其扩展。如Apriori TID算法,Apriori Hybrid算法,DIC算法,Partition算法等,VO126,NO7,1999, 7:44-49