- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
作业:练习14.1 计算图14.15所示网络中的网页经过两次循环后的中枢值和权威值。(即,运行k-步中枢权威算法,选则步骤数k为2。) 给出归一化处理之前和之后的值,即将每个权威值除以所有权威值之和,将每个中枢值除以所有中枢值之和。可以以分数的形式保留结果。 作业:练习14.4 考虑基本网页排名(PageRank)更新规则的极限值(即没有引入比例因子s)。在第14章,这些极限值描述为“一种基于直接推荐的均衡状态”,即当每个节点将其网页排名均匀划分并传递给外向链接指向的节点,这些值保持不变。 这种描述提供了一个方法,可以检测网络中的网页排名值分配是否达到一个平衡状态,即所有数值总和为1,并且再次运行基本网页排名更新规则时,保持不变。例如,在第14章图14.6中,如果给出A的网页排名为4/13,B和C为2/13,其他5个节点均为1/13,可见这些数字加起来总和为1,并且再次运行基本网页排名更新规则,都保持不变。因此,它们形成一个网页排名值的均衡状态。 对于下面的两个网络,检查图中给出的数值是否达到网页排名值的均衡状态。(如果没有,你不需要找出达到均衡的值,只需要简单地解释为什么所列出的值没有达到均衡。) 从第13章的内容,我们已经知道从一个网页经链接到达另一个,可能但不容易(存在路径,但找到不易); 搜索引擎跨越了一步:查询信息?描述信息?地址?完整信息 * * 大多数情况下不是要找一篇描述或者研究北京大学的文章,于是其中也不一定明显包含“北京大学” * 也可以用有向图的方式表达同样信息-矩阵与图的关系 增加的速度:约为次数的指数 * * 均衡问题-极限 最后收敛: A=0.124, b=0.075, c=0.075, d=0.055, e=0.055, f=0.274, g=0.274, h=0.068 * * 链接分析与网络搜索 (以第14章为基础) 搜索引擎关心的基本问题 计算机显示屏一次只能显示5-6个结果,典型搜索引擎掌握的网页超过10亿 对用户提交的一个查询,如何从这种海量网页集合中将最可能满足用户需求的少数几个结果找出来,展现在计算机显示屏上? “最可能满足”的多义性 同一个查询,不同的需求(苹果,病毒等); 不同的查询,相同的需求(电脑,计算机等) 传统信息检索技术的要点(information retrieval,IR) 基于词语之间的相关性(relevance) similarity(q, d) ≈ Σ score(d, term) 传统应用背景 文档集合:图书,规范的文献 查 询:主题词,关键词 查询意图:获取与查询词有关的书籍和文章 用 户:图书管理人员 “查询目标包含查询词”是一个合理假设 在形成查询词的时候就有这样的潜意识 现在查找学术文献有类似预期 但人们在网络上不光是要找“文献”,而是多方面意义的“信息” 例如,人们给出“北京大学”查询词,多数会有什么预期? 查询“大学”呢?(意图会相当多样化) 为什么能恰到好处? 主页放在最前面,一定不是因为其中包含许多“北京大学”字样 很可能是由于许多包含“北京大学”字样的网页指向它 利用链接中隐含的信息 这个两个结果哪一个较好? 有效利用链接关系蕴含的信息,是搜索引擎超越传统信息检索系统、技术进步的最重要标志 Web page之间的链接有两层含义:关系,描述 餐馆推荐问题 甲 乙 丙 丁 新辣道 * * * 3 21 海底捞 * * * 3 20 麦当劳 * 1 6 五方院 * * 2 15 俏江南 * * 2 13 8 6 6 7 不能完全区分 看推荐人的“水平” 完全区分开来 反复改进原理(例) 假设查询词 “newspaper” 左边是与“newspaper”字面上相关的网页。 右边是它们所指向的网页,得到的“票数”表示一定的认可度 反复改进原理(续)(principle of repeated improvement) 也可以反过来评估“推荐者”的分量 然后可以在考虑推荐者分量的情况下重新评估网站相对于“newspaper”的重要性(相当于加权评分) 反复改进原理 这个过程可以反复进行下去 “中枢”(hub)与“权威”(authority) 万维网中一篇网页的两面属性。观念: 被很多网页指向:权威性高,认可度高 指向很多网页:中枢性强 如果被很多中枢性强的网页指向,权威性更高 如果指向很多权威性强的网页,中枢性更强 HITS算法:计算网页的权威值(auth)和中枢值(hub) Hyperlink-Induced Topic Search auth(p) 和 hub(p) 的计算方法 输入:一个有向图 初始化:对于每一个节点p,auth(p)=1,hub(p)=1 利用中枢值更新权威
文档评论(0)