PageRan算法.docVIP

下载本文档

9
0
约1.78千字
约 5页
2017-05-15 发布于贵州
举报
版权申诉

PageRan算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PageRan算法

WEB页面搜索 PageRank算法 1-1 Web挖掘 Web技术的快速普及和迅猛发展,使各种信息能以非常低的成本在网络上获得,而从中取得的数据量便难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,因此,如何在WWW这个全球最大的数据集合中发现有用信息,无疑将成为数据挖掘研究的热点。 Web挖掘的分类和各自的算法 1、Web内容挖掘。是指对Web页面内容及后台交易数据库进行挖掘，从Web文档内容及其描述中的内容信息中获取有用知识的过程。同时还可以对Web的组织结构和链接关系进行挖掘，从人为的链接结构中获取有用的知识。由于文档之间的互连，WWW能够提供除文档内容之外的有用信息。利用这些信息，可以对页面进行排序，发现重要的页面。方法：文本总结、文本分类、文本聚类等 2、Web访问信息挖掘。是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者的行为模式，获取有价值的信息的过程。方法：一种方法是通过对日志文件进行分析，包含两种方式：一是先进行预处理，即将日志数据映射为关系表并采用相应的数据挖掘技术来访问日志数据；二是直接访问日志数据以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。 3、Web结构挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。虽然Web挖掘使用了许多数据挖掘技术，但它并不仅仅是传统数据挖掘的一个简单应用。在过去20年中，许多新的挖掘任务和算法被相继发明。方法：PageRank算法和HITS算法等 2-2 总之，pagerank算法的作用就是评价网页的重要性，衡量一个网站的好坏的重要标准。实际中，为了抵御大部分相同spam，各个搜索引擎的具体排名算法是保密的，PageRank的具体计算方法也不尽相同，本节最主要注重介绍一种最简单的基于页面链接属性的PageRank算法。（重点）2-2 公式算法的简单理解首先，我们将Web做如下抽象：1、将每个网页抽象成一个节点；2、如果一个页面A有链接直接链向B，则存在一条有向边从A到B（多个相同链接不重复计算边）。因此，整个Web被抽象为一张有向图。现在假设世界上只有四张网页：A、B、C、D，其抽象结构如下图： 2-3 Google早已成为全球最成功的互联网搜索引擎，但这个当前的搜索引擎巨无霸却不是最早的互联网搜索引擎，在Google出现之前，曾出现过许多通用或专业领域搜索引擎。Google最终能击败所有竞争对手，很大程度上是因为它解决了困扰前辈们的最大难题：对搜索结果按重要性排序。让用户有更好的体验感。而解决这个问题的算法就是PageRank。（重点）3-1算法的matlab实现网页搜索中的网页排名PageRank( L, sigma ) 基本转移矩阵M满足: M= L * D^(-1) 上标一撇表示转秩 L为网络图中的邻接矩阵,D为对角线上元素D(k,k)表示第k个点出度的对角矩阵处理悬挂网页的随机性修正: S= M + e*a/N e为所有分量均为1的列向量, N为网页总数 a为用于描述“悬挂网页”的行向量, 其第i个分量的取值由第i个网站是否为“悬挂网站”决定, 若是则为1, 否则为0 素性修正后得到的最终概率转移矩阵G: G= qS + (1-q)e*e/N 默认阻尼系数 q= 0.85（阻尼系数的作用是使得链接循环中PR传递能够稳定延续，不至于中断或者无限放大。为了处理那些“没有向外链接的页面”（这些页面就像“黑洞”会吞噬掉用户继续向下浏览的概率）带来的问题） sigma为收敛阈值最终将打印网页排名, 默认网页编号依此为1,2,3,4,5 sum(x,2);%行求和；r=size(A,1)该语句返回的是矩阵A的行数， c=size(A,2) 该语句返回的是矩阵A的列数； v=[1 0 3;2 3 1;4 5 3];diag(v) ans = 133 4-2 PageRank算法的优点在于它对互联网上的网页给出了一个全局的重要性排序，并且算法的计算过程是可以离线完成的这样有利于迅速响应用户的请求。这就是PageRank需要多项算法结合的原因。