第11章其他挖掘方法讲述.ppt

  1. 1、本文档共74页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第11章其他挖掘方法讲述

11.3.1 空间数据概述 1. 空间数据的基本类型   空间对象特征主要包含空间特征和属性特征,所以空间数据通常分为空间数据和属性数据。 2. 矢量数据模型   矢量数据利用了几何图形例如点、线和面来表现空间对象。   以二维空间为例,点对象的表示为:[地物编号;(x,y)]。例如,如图11.9所示,共有11个点,它们分别表示为[1;(2,2)]、[2;(3,1)]、…、[11;(9,5)]。   线对象的表示为:[地物编号;点序列]。例如,由点2、1、8、7构成的线对象表示为[L1;2,1,8,7]。   面(多边形)对象的表示为:[地物编号;点序列]。例如,面A的表示为[A;6,10,9,8,7,6]。   【例11.1】假设a、b、c是3个网页,其链接结构如图11.6所示。在开始计算之前先要赋给每个网页一个初始PageRank值(初始值的选取不会影响PageRank值计算的结果),假设为(0,2.5,2.5)。计算的过程如下。 (1)第1次迭代: PR(a)=PR(c)/1=2.5 PR(b)=PR(a)/2=0(式中PR(a)=0) PR(c)=PR(a)/2+PR(b)/1=2.5(式中PR(a)=0,PR(b)=2.5) (2)第2次迭代: PR(a)=PR(c)/1=2.5/1=2.5 PR(b)=PR(a)/2=2.5/2=1.25 PR(c)=PR(a)/2+PR(b)/1=1.25+0=1.25   (3)如此迭代下去,直到收敛(通常收敛条件为两次迭代之间的PageRank值小于某个阈值)。   在上述PageRank值简单的计算过程中,若某个网页的链出数为零(也称为孤立网页),计算过程就无法进行下去。为此修改PageRank值的计算公式如下:   其中,p1、p2、…、pN是N个被研究的网页,L(pj)是网页pj链出的数目。   其基本思想是:浏览者在一组无限周期性循环链接中浏览某个网页时,一段时间后会感觉到厌倦,然后随机地跳转到任何网页。用q表示停留在当前网页的概率,1-q表示随机地跳转到任何网页的概率,q也称为阻尼系数。当浏览到一个孤立网页时,可以理解为可以随机地跳转到任何网页,所以可用链出数为N。q一般取值为0.85。   E(pi)为网页pi的原始rank值,给不同的网页赋予不同的值可以使搜索结果不同,可以用于提供个性化的搜索,一般地,置每个网页的值为1,即:   N个网页的PageRank值是一个特殊矩阵中的特征向量,这个特征向量为: R是如下等式的一个解:   如果网页pi有指向网页pj的一个链接,则l(pi,pj)=1;否则l(pi,pj)=0。   可以使用幂法求解PageRank值,即转换为求解    的值,其中矩阵为A=q×P+(1-q)×E/N,P为概率转移矩阵。 幂法计算PageRank值的算法如下: 输入:矩阵A,阈值ε 输出:PageRank矩阵R(表示N个网页的PageRank值) 方法:其过程描述如下: X为任意一个初始向量,用以设置每个网页的初始PageRank值,一般均为1; R=AX; while (true) //迭代 { if (|X-R|ε) //如果最后两次的结果近似或者相同,返回R return R; else { X=R; R=AX; } }   【例11.2】假设网页链接结构图如图11.6所示的,即N=3。设阈值ε的各元素值为0.01,采用PageRank算法求各网页PageRank值的过程如下。 (1)求A矩阵 ① 求网页链接矩阵、概率矩阵和概率转移矩阵   由图11.6直接得到网页链接矩阵P。图中网页a链向网页b和c,所以一个用户从网页a跳转到网页b或c的概率各为1/2。因此由P根据每个网页的链出数求出概率矩阵P。再将P转置,得到相应的概率转移矩阵PT,如图11.8所示。 ② 求E/N。 求E/N的结果如下: ③ 求A矩阵 A=q×P+(1-q)×E/N=0.85×P+0.15×E/N,其结果如下: 初始每个网页的PageRank值均为1,即 (2)循环迭代计算PageRank值。 ① 第1次迭代 ② 因为X与R的差别较大,第2次迭代。 …… ④ 第9次迭代。   此时收敛条件成立(两次迭代之间的PageRank值小于等于0.01),所以最终结果为(1.16,0.64,1.20),这样c网页最权威。   PageRank算法的优点是:它是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。   其缺点是:人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低,例如,许多链接只是

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档