摘 要:云计算是一种新兴的共享基础架构的方法,它可以将巨大的系统池连接在一起以提供各种IT服务。由于互联网的迅猛发展和快速普及,Web上蕴藏的海量信息为数据挖掘提供了无比丰富的资源,云计算对Web信息进行有效的知识发现具有极大的挑战性。
关键词:云计算;电子商务;Web结构挖掘算法
一、云计算介绍
随着互联网、实时数据流、连接设备多样化的发展,SOA的采用、以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算这样一种计算模式迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将会推动互联网模式、企业管理模式发生革命性的变革。
云计算是指基于互联网的超级计算模式,即把存储于个人电脑、移动电话和其他设备上的大量信息和处理器资源集中在一起,协同工作。它是一种新兴的共享基础架构的方法,可以将巨大的系统池连接在一起以提供各种IT服务。很多因素推动了对这类环境的需求,其中包括连接设备、实时数据流、SOA的采用以及搜索、开放协作、社会网络和移动商务等这样的Web2.0应用的急剧增长。另外,数字元器件性能的提升也使IT环境的规模大幅度提高,从而进一步加强了由统一的云进行管理的需求。
中国网格计算、云计算专家刘鹏给出如下定义:“云计算将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务”。
二、云计算在电子商务中的应用
将云计算应用到电子商务结构优化中来,对提高网站的价值有着重要意义。电子商务结构优化包括两个方面,物理结构的优化与逻辑结构的优化。Web结构挖掘所有算法都将网页中的链接(逻辑结构)作为主要挖掘的对象,特别在实际应用中,大多数用户都是使用基于Page Rank算法的Google、Yahoo和Baidu等搜索引擎。但网站物理结构的合理性也是影响网站价值的一个重要因素。因此采取以下几种策略,将有助于用户将网站定位到相关主题的权威站点,从而获得更高的PR值,以提高电子商务网站在搜索引擎的排名,提高检索结果的质量,提高网站的访问率,提升网站的档次。
2.1网站物理结构优化
网站物理结构是指网站真实的目录及文件所存储的位置所决定的结构。网站物理结构优化不但关系到网站的易用性,还会影响到网站在搜索引擎上的排名。合理的网站物理结构可以让Google等搜索引擎轻松搜索到你网站的大多内容,收录你大量的页面,更多的关注你这个网站。虽然合理的链接可以取得一个比较理想的PR值,但由于Web结构挖掘过程是由机器搜索引擎蜘蛛(Spider)自动完成,因此就需要构建一个搜索引擎蜘蛛友好的网站物理结构。
2.2网站逻辑结构优化
网站的逻辑结构(链接结构)是由网页间链接所形成的逻辑的或链接的一个网状结构。一般来说网页被一些“重量级”的网站链接的次数越多,Page Rank的值就会越高;同样,网页的链接指向越多,Page Rank的值也会很高。搜索引擎在决定一个网站的排名时,不仅要对网页内容和结构进行分析,还围绕网站的链接展开分析,并给出相应的PR值。
三、云计算在web结构挖掘算法Pagerank中的应用
随着互联网发展,网页信息己成为一种海量的数据,保存并计算网页链接的关系也需要通过大型的并行系统实现,并且由于Pagerank算法需要多次迭代,因此Pagerank算法的并行化也成为必然。
传统方法在计算Pagerank向量的时候,要把网页间的链接关系转换成邻接矩阵的形式。当邻接矩阵的阶数特别大的时候,将转化为稀疏矩阵,因此不管是在稀疏矩阵的计算还是存储上,特别是当互联网规模不断扩大,Web网页数量成为海量的时候,Pagerank算法都会造成巨大空间和性能消耗。通过对Mapreduce计算原理的分析,一方面可以解决海量Web网页数据的存储上的困难,另一方面使文件按Hadoop中参数blocksize规定的最大值分块存储,还可以将集中式计算分布在集群中的各个节点上平摊计算消耗。下面的将提出此并行化算法的思想。
3.1算法思想
Mapreduce并行算法计算过程是Hadoop集群中的Master节点把HDFS中存储链接关系的文件分成多个文件块(inputsPlit),然后委派给集群各个slave工作结点,每个结点上可能运行M即任务,也可能运行Reduce任务。运行MaP任务的工作结点首先拿到链接关系文件的一文件块,这个Map负责把它所处理的边信息按照一定格式的
3.2算法实现
阶段1输出的每个节点的链接序列进行列表,并将结果保存到HDFS中作为并行pagerank迭代计算的输入,这是算法数据准备阶段要实现的功能。
1)pageraJ吐迭代阶段的Map方法对每一个行记录的目标节点序列中的每个目标节点输出为
2)Mapreduce框架收集Map方法的输出按每个key归类其相应value。在Reduce方法中,对每个key,把其list of Patial中每一项加和,并带入相关公式得到并输出每个页面新的Pagerank。把结果保存在HDFS中,用作下一次迭代。
结论
接下来的工作可以有以下几点:
1.在更大规模的云环境下对TB级别的海量数据测试算法性能。
2.针对Hadoop-Mapreduce在执行迭代算法时的效率低下的问题,研究Hadoop内部数据处理和消息传递的方式,争取改善Hadoop使其更适合执行需多次迭代的长作业。
参考文献:
刘丽珍等:网络结构挖掘的关键分析.计算机应用研究,2003 (5)116-118