1 引言
Web搜索技术在一定程度上解决了用户查找网络信息的问题,但却没有解决知识发现的问题,并没有充分地揭示Web信息资源中隐藏的知识,人们迫切需要一种比Web数据挖掘技术更高,可以从Web上快速、有效地发现资源和知识的技术,基于云计算机的Web数据挖掘技术因此应运而生。
2 云计算及关键技术
2.1 云计算的定义
在维基百科中,云计算被表述为一种基于互联网的计算,在其中共享的资源、软件和信息以一种按需的方式提供给计算机和设备,就如同日常生活中的电网一样。云计算一般们提供的是基于Web浏览器的、在线商业应用程序的服务。云计算的概念已经超越了单纯的软件交付。
2.2 虚拟化技术
虚拟化是云计算最重要的技术基础,虚拟化技术实现物理资源的统一表示和逻辑抽象。通过虚拟化技术可以提高资源利用率,可以改变根据用户的业务需求,快速和灵活的资源部署。虚拟化技术不仅可以扩大硬件的容量而且可以简化软件的重新配置过程。CPU虚拟化技术还可以用单CPU模拟多CPU并行,允许一个平台同时运行多个操作系统,同时应用程序可以运行在空间上,并且相互独立的、相互影响,从而显著提高计算机的效率。如果虚拟化的未来发展将包含更多的元素,多元化的服务器、存储和网络,用户将无法区分什么是虚拟的,什么是真实的。虚拟化将改变目前传统的IT基础设施和互联网的所有资源都在一起形成一个大型计算中心,而我们却不用关心所有这一切,而只需关心提供给自己的服务是否正常。
2.3 并行编程模型
并行编程模式,通俗地说就是指并行编程的一种形式,一种方式,就像串行编程时,你是采用过程式还是结构化一般。并行编程模式只要指并行编程时,程序员将程序各模块并行执行时,模块间的通信方式,并行计算模型是提高海量数据处理效率的常用方法。云计算环境下的并行计算机模型属于面向互联网数据密集型应用的并行编程模型,云计算下把海量数据分布到多个结点上,将计算机并行化,利用多个计算机的计算资源,加快数据处理的速度。
为保证高可靠性、高可用与经济性,云计算通常是采用分布式存储的方式来对数据进行存储,使用冗余存储的方式来保证存储数据的可靠性,也就是说,同一数据的多个副本存储、云计算系统由大量服务器,以及大量用户,因此,云计算系统使用分布式数据存储模式,冗余存储的方式来保证数据的可靠性。
3 Web数据挖掘
Web数据挖掘是数据挖掘的延伸和发展,数据挖掘是指从大量的、不完全的有噪声、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的及最终可理解的模式过程。而Web数据挖掘技术是应用挖掘技术自动从Web文档和服务器上发现并提取有用信息的过程。尽管Web挖掘用到很多数据挖掘的技术,但Web挖掘不能和传统的数据挖掘等同起来,它不仅仅是直接在互联网中寻找到有用的信息,而且在复杂的网络信息中找到规律,从而实现信息的快速查找。
4 云计算技术下的Web数据挖掘
云计算技术下的Web数据挖掘借助于云计算的关键技术,实现传统Web数据挖掘技术的优化。云计算的并行处理和海量存储能力解决了数据挖掘所面临的海量数据处理问题。
4.1 数据的收集
数据收集是Web使用挖掘的基础,Web使用挖掘的对象是日志信息,是用户与系统交互时留下的日志数据,并存储在一个数据仓库。如果数据仓库的问题是数据可能会丢失。收集到的数据在云计算下对数据信息在网络上进行第一次筛选、转换和统一,并最终从数据后可以转化为一个统一的半结构化的XML文件,将其保存在一个分布式文件系统。因此,不仅可以优化数据收集方法,并避免存储数据的损失由设备故障引起的。云计算下的数据挖掘是一个很好的能保证共享技术,降低了数据挖掘应用门槛,使大规模的数据挖掘需要得到满足。
4.2 数据预处理
数据预处理保证Web使用挖掘质量的关键环节之一,它主要包括四个方面:(1)数据净化删除采集数据中的无用信息;(2)用户识别是从日志数据中识别出有多少个用户,确定哪些信息是同一个用户留下的;(3)会话识别是在用户识别的基础上,将同一个用户访问记录按照不同的访问时间段区分开来;(4)格式化是数据预处理的最后一个步骤,在这个步骤中,将预处理完的数据转换成符合挖掘算法要求的格式存储起来,供以后挖掘使用。
4.3 数据分析
数据分析是运用挖掘算法对预处理后的数据进行分析,从中发现隐含的知识。不同的挖掘目的会使用不同的挖掘算法:(1)统计分析是数据挖掘中最常用的方法,它主要是通过对日志数据的统计;(2)关联规则用于挖掘用户之间、页面之间及用户和网上行为之间存在的潜在关系;(3)序列模式是在一组时间有序的事务活动中,找出事务发生的先后次序;(4)分类聚类主要是根据用户的询问历史或过去所需信息的历史来判断用户需要什么样的信息等。
5 结束语
云计算是传统计算机技术和网络技术发展融合的产物,也是引领未来信息产业创新的关键战略性技术和手段。随着计算机网络的迅猛发展,使得网络上的各种资源信息异常丰富,而数据的迅速增加与数据分析方法的滞后之间的矛盾,也越来越突出人们希望在对已有的大量数据分析的基础上,进行科学研究、商业决策或者企业管理,而基于云计算的Web数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据分析处理而出现的,Web数据挖掘技术的发展给科技的发展、经济的推动和每个人的生活都带来了巨大的便利,云计算下的Web数据数据挖掘的应用领域不断地拓宽和深入,特别是在电信、军事、生物工程和商业智能等方面的应用将成为新的研究热点。
参考文献
.北京:高等教育出版社.2008.
[2] 李建卓.云计算及其发展综述[J].宝鸡文理学院学报(自然科学版),2010,30(3).
[3] 雷万云.云计算技术、平台及应用案例[M].北京:清华大学出版社.2011.
作者简介:
田建勇(1976-),男,苗族,贵州人,副教授,硕士;主要研究方向和关注领域: 计算机应用。