Web结构挖掘在电子商务网站结构优化中应用.docVIP

Web结构挖掘在电子商务网站结构优化中应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web结构挖掘在电子商务网站结构优化中应用

Web结构挖掘在电子商务网站结构优化中应用   [摘要] 本文概述了Web结构挖掘技术并描述了其常见算法。针对Web结构挖掘算法,提出了提高网站结构合理性的对策。使用户通过优化网站结构来获取更多有效客户,扩大网站影响力,从而提升网站价值。   [关键词] Web结构挖掘 网站结构 超链接 PageRank HITS      一、前言   网站的推广对电子商务网站而言尤为重要。网站在常用搜索引擎上的排名会直接影响到网站的推广和网站的运营效果。因网站的结构不同,即使内容相同,外观相同的网站,在常用搜索引擎中的排名也会不同。网站结构是否合理会影响到搜索引擎在网站页面上抓取的结果,从而影响到网站的排名。在实际应用中,常使用PR(Page Rank)值来判断网站结构是否合理, PR值越高说明网站结构越合理,搜索引擎就会收录该网站更多的页面,为网站带来更多的流量。因此,提高网站结构的合理性,获取更高的PR值就显得尤为重要。只有用网站结构优化的理念去设计网站,才有可能设计一个成功的网站。基于Web的数据挖掘技术中的Web结构挖掘( Web Structure Mining)则是判断网站结构是否合理的一个有效方法。使用Web结构挖掘方法可以提高网站结构的合理性,增加网站的PR值,扩大网站的流量。   二、Web结构挖掘的概念   基于Web的数据挖掘是指使用数据挖掘技术在Web数据中发现潜在的、有用的模式或信息。基于Web的数据挖掘一般可以分为三类:Web内容挖掘(Web Content Mining)、 Web结构挖掘( Web Structure Mining)及 Web 用法挖掘(Web Usage Mining)。其中Web 结构挖掘是对Web 的链接结构进行分析, 以对超链接分析来评估Web 资源, 从而发现有用模式, 提高搜索质量及提高网站被抓取的可能性。Web结构包括不同网页之间的超链接结构和网页内部用HTML,XML表示的树形结构,以及文档URL中的目录路径结构等。Web页面之间的链接结构中包含了许多有用的信息,Web结构挖掘是从Web结构中推导知识,即对Web文档的结构进行挖掘,挖掘Web潜在的链接结构模式,通过分析网页间链接数量及对象来建立网站自身的链接结构模式。   Web结构挖掘的基本思想是将Web看成是一个巨大的以Web页面为节点、页面之间超链接为有向边所构成的一个网状结构的有向图,然后利用图论对Web的拓扑结构进行分析,从而确定其网站结构的合理性。   Web结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。HITS( Hypertext Induced Topic Search)和PageRank分别是查询相关算法和查询无关算法的代表。这些算法已经在实际的系统中实现和使用,并且取得了良好的效果。   三、Web结构挖掘算法描述   基于超链接分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法,其他一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。对超链接进行挖掘的两个典型的算法是:PageRank算法及HITS算法。   1.PageRank算法   PageRank算法是Web超链接结构分析中最成功的代表之一,该算法是评价网页权威性的一种重要工具。Google、Yahoo、Baidu等都是基于该算法的搜索引擎。PageRank算法基于2个前提,一是若网页A被多次引用,则A重要;若 A被重要网页B引用,则A重要;B的重要性被平均的传递到它所引用的网页。二是若用户访问网页A,然后跟随A的导出链接向后浏览网页B而不退回A,那么浏览B的概率就是B的PageRank值。   PageRank在具体实现时会忽略掉页面的文本和其他内容,只考虑页面间的超链接。但由于网页的链接范围领域很广,链接的页面价值参差不齐,所以仅以简单的链接数量来判断网页的重要性是不真实客观的,所以其他研究者对PageRank算法提出了改进。改进的PageRank算法不仅考虑了网页引用数量,还根据页面的导入链接的权重来计算页面的重要性。页面导入链接的权重由链接提供页面的重要性所决定,即当前页面的重要性主要由其他页面的重要性来决定,PageRank算法就是从链接结构中获取网页的重要性。   简单PageRank算法描述如下:   PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))   其中:PR(A):页面A的PR值,   PR(Ti):页面Ti的PR值,页面Ti链向页面A   C(Ti):页面Ti链出的链接数

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档