链接分析算法之:主题敏感PageRank.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
链接分析算法之:主题敏感PageRank

本文由西安白癜风专科医院 / 收集,转载请注明出处 链接分析算法之:主题敏感PageRank 前面的讨论提到。PageRank 忽略了主题相关性,导致结果的相关性和主题性降低,对于不 同的用户,甚至有很大的差别。例如,当搜索“苹果”时,一个数码爱好者可能是想要看 iphone 的信息,一个果农可能是想看苹果的价格走势和种植技巧,而一个小朋友可能在找苹果的简 笔画。理想情况下,应该为每个用户维护一套专用向量,但面对海量用户这种方法显然不可 行。所以搜索引擎一般会选择一种称为主题敏感PageRank (Topic-Sensitive PageRank ) 的折中方案。主题敏感PageRank 的做法是预定义几个话题类别,例如体育、娱乐、科技 等等,为每个话题单独维护一个向量,然后想办法关联用户的话题倾向,根据用户的话题倾 向排序结果。 主题敏感PageRank 是PageRank 算法的改进版本,该算法已被Google 使用在 个性化搜索服务中。 1. 基本思想 基本思想: 通过离线计算出一个与某一主题相关的 PageRank 向量集合,即计算某个页面关于不 同主题的得分。主要分为两个阶段:主题相关的PageRank 向量集合的计算和在线查询时 主题的确定(即在线相似度的计算)。 2. 主题敏感PageRank 计算流程 1、确定话题分类 主题敏感PageRank 参考ODP 网站(),定义了16 个大的主题类别,包 括体育、商业、科技等。ODP(Open Directory Project)是人工整理的多层级网页分类导航站点 (参见图1),在顶级的16 个大分类下还有更细致的小 本文由西安白癜风专科医院 / 收集,转载请注明出处 本文由西安白癜风专科医院 / 收集,转载请注明出处 图1 ODP 首页 粒度分类结构,在最底层目录下,人工收集了符合该目录主题的精选高质量网页地址,以供 互联网用户导航寻址。主题敏感PageRank 采用了ODP 最高级别的16 个分类类别作为事先 定义的主题类型。 2、网页topic 归属 这一步需要将每个页面归入最合适的分类,具体归类有很多算法,例如可以使用 TF-IDF 基于词素归类,也可以聚类后人工归类。这一步最终的结果是每个网页被归到其中 一个 topic 。 3、分topic 向量计算 在PageRank 的向量迭代公式: 本文由西安白癜风专科医院 / 收集,转载请注明出处 本文由西安白癜风专科医院 / 收集,转载请注明出处 即R = q × P * R + ( 1 一 q) * e/N (e 单位向量) 而在主题敏感PageRank 中,向量迭代公式为: 首先是单位向量e 变为了s 。 而s 是这样一个向量:对于某 topic 的s ,如果网页k 在此 topic 中,则s 中第k 个 元素为1,否则为0。注意对于每一个 topic 都有一个不同的s 。而|s |表示s 中 1 的数量。 假设有页面A ,B,C, D,假设页面A 归为 Arts ,B 归为 Computers,C 归为 Computers, D 归为 Sports 。那么对于 Computers 这个 topic ,s 就是: 假设我们设置阻尼系数q=0.8, 而|s|=2, 因此,迭代公式为: 本文由西安白癜风专科医院 / 收集,转载请注明出处 本文由西安白癜风专科医院 / 收集,转载请注明出处 最后算出的向量就是 Computers 这个 topic 的 rank。如果实际计算一下,会发现B、 C 页在这个 topic 下的权重相比上面非 Topic-Sensitive 的 rank 会升高,这说明如果用户 是一个倾向于 Computers topic 的人(例如程序员),那么在给他呈现的结果中B、C 会 更重要,因此可能排名更靠前。 4. 在线相似度计算 最后一步就是在用户提交搜索时,确定用户的 topic 倾向,以选择合适的 rank 向量。 主要方法有两种:

文档评论(0)

ranfand + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档