- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                深圳大学 谷歌如何从网络的大海里捞针
                    L/O/G/O 谷歌如何从网络的大海里捞针 /index.php?class=wenkuaction=wenku_itemid=44 /samplings/feature-column/fcarcrank 问题的提出:想象一个含有250亿份文件,却没有集中管理机构和馆员的图书馆,而且任何人都可以在任何时间添加或删除文件不通知其他人,那我们如何在短时间内找到对自己重要的信息?网络搜索即是这样的问题 搜索引擎采用的方法 谷歌的网页排序算法 PageRank Algorithm: 从250亿份网页中找到与搜索条件匹配的结果 搜索引擎本质:不断运行计算机程序群 检索网络上的网页,搜索每份文件中相关信息,以高效形式存储 用户检索一个短语时,将找出所有包含搜索短语的网页,且会考虑短语中词之间距离 将找出的所有页面按重要程度排序 确定网页重要性进而排序是至关重要的,搜索引擎的价值在于能否提供给用户无偏见的搜索结果。 如何辨别谁重要呢? 网页排序法的基本思想就是:一个网页的重要性由链接到它的其他网页的数量及其重要性决定。  1链接到这个网页的数量(代表其他网页对其认可度)。 2链接到它的网页的重要性。  如何求网页重要性? 对任意一个网页P,以I(P)表述其重要性,并称之为网页排序。 假定网页Pj 有lj 个链接。如果这些链接中的一个链接到网页Pi ,那么网页Pj 将会将其重要性的1/lj 赋给Pi 。网页Pi 的重要性就是所有指向这个网页的其他网页所贡献的重要性的加和。换言之,如果我们记链接到网页Pi 的网页集合为Bi ,那么就有:   但是首先需要确定指向它的其他网页的重要性,“先有鸡还是先有蛋”? 将此改写为一个更数学化的问题   首先建立一个矩阵,称为超链矩阵(hyperlink matrix),H=[Hij] ,其中第i 行第j 列的元素(代表了第j个网页分给第i个网页的重要性)为:   注意到H 有一些特殊的性质: 1 它所有的元都是非负的。 2 除非对应这一列的网页没有任何链接,它的每一列的和为1。  所有元均非负且列和为1的矩阵称为随机矩阵,随机矩阵将在下述内容中起到重要作用。(矩阵中有一个元素满足随机分布时,这个矩阵就可称为随机矩阵)  将此改写为一个更数学化的问题   其次,我们还需要定义向量I=[I(Pi)] ,它的元素为所有网页的网页排序—重要性的排序值。  这样前面定义的网页排序还可以如下表示: I=HI。 (为什么表示成这样?我理解的是这个就是“先有鸡蛋还是先有鸡”的问题的数学化公式)   即:向量I是矩阵H对应特征值1的特征向量。我们也称之为矩阵H的平稳向量(stationary vector)。   例子:下图表示为一个网页集合,箭头表示链接 其相应的矩阵为:(以网页1为例,其指向了网页2和3,所以网页2和3从网页1得到的重要性均为1/2,对应第一列第2、3个元素值为1/2) 说明网页8的受欢迎程度最高,同时也得到了相关网页重要性排序。 例子:根据以上重要性得到阴影化的图 网页排序值越高的网页阴影越浅。 实际也就是得到了搜索信息时网页重要程度的排序。 那如何求出平稳向量呢?? 求超链接矩阵的平稳向量的方法   超链接矩阵H的每一列对应谷歌检索到的一个网页,也就是说H大约有n=250亿行和列。(第i行第j列代表的含义为,第j个网页分给第i行的重要性值) 其中大多数为0,因为每个网页只链接到有限的网页。  研究表明,每个网页平均约有10个链接,平均而言每一列中除了10个外全为0。 幂法是一种计算矩阵主特征值(矩阵按模最大的特征值)及对应特征向量的迭代方法,特别是用于大型稀疏矩阵。(由实际生活中信息抽象出的矩阵大多是稀疏矩阵)/shuzhifenxi/wlkj/szfx042.htm 幂法的实现:   首先选择I 的备选向量I0 ,进而按下式产生向量序列Ik 这个方法建立在如下一般原理上: 一般原理:序列Ik 将收敛到平稳向量I 。  这些数字表征网页的重要性,但并不是绝对的度量,只是有比较的比例度量。这样我们可以用固定量乘以所有重要性排序,使受欢迎程度和为1,而不影响排序。 幂法的实现:(存在几个问题)   序列Ik 总是收敛吗?(即运算多次后,Ik 和Ik+1 几乎是一样的)(若不收敛,则得不到平稳向量I) 收敛后的平稳向量是否和初始向量I0 的选取没有关系?(若与初始向量选取有关则得不到确定的排序信息) 重要性排序值是否包含了我们想要的信息? 问题: 幂法的实现:   考虑如下包含两个网页的小网络,其中一个链接到另一个: 以下展示了算法运行过程: 在这个例子中,两个网页的重要性排序值均为0,这样我们无法获知两个网页之间的相对重要性信息。问题在于网页P2 没有任何链接。因此,在每个迭代步骤中,它从网页P1 
                您可能关注的文档
最近下载
- 职业技能竞赛数控车工、数控铣工、加工中心实操训练试题-1.doc VIP
- 低压并网柜技术规范书.doc VIP
- 2025年法官入额考试真题及答案.docx VIP
- 《工程勘察设计收费管理规定》计价格【2002】10号.doc VIP
- 2025年法官入额考试真题及答案.docx VIP
- 《GJ B798-1990-伪装涂料漆膜颜色》.pdf VIP
- 美国纽约摄影学院摄影教材【上下册无密码全版】PDF版.docx VIP
- 职业生涯规划书.docx VIP
- 截屏-节能与新能源汽车技术路线图3.0-2025-10-新能源.pptx
- 2022年二级造价师《建设工程计量与计价实务》(水利)考试题库.pdf VIP
 原创力文档
原创力文档 
                        

文档评论(0)