- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
链接分析算法之:主题敏感PageRank
本文由西安白癜风专科医院 / 收集,转载请注明出处
链接分析算法之:主题敏感PageRank
前面的讨论提到。PageRank 忽略了主题相关性,导致结果的相关性和主题性降低,对于不
同的用户,甚至有很大的差别。例如,当搜索“苹果”时,一个数码爱好者可能是想要看 iphone
的信息,一个果农可能是想看苹果的价格走势和种植技巧,而一个小朋友可能在找苹果的简
笔画。理想情况下,应该为每个用户维护一套专用向量,但面对海量用户这种方法显然不可
行。所以搜索引擎一般会选择一种称为主题敏感PageRank (Topic-Sensitive PageRank )
的折中方案。主题敏感PageRank 的做法是预定义几个话题类别,例如体育、娱乐、科技
等等,为每个话题单独维护一个向量,然后想办法关联用户的话题倾向,根据用户的话题倾
向排序结果。
主题敏感PageRank 是PageRank 算法的改进版本,该算法已被Google 使用在
个性化搜索服务中。
1. 基本思想
基本思想:
通过离线计算出一个与某一主题相关的 PageRank 向量集合,即计算某个页面关于不
同主题的得分。主要分为两个阶段:主题相关的PageRank 向量集合的计算和在线查询时
主题的确定(即在线相似度的计算)。
2. 主题敏感PageRank 计算流程
1、确定话题分类
主题敏感PageRank 参考ODP 网站(),定义了16 个大的主题类别,包
括体育、商业、科技等。ODP(Open Directory Project)是人工整理的多层级网页分类导航站点
(参见图1),在顶级的16 个大分类下还有更细致的小
本文由西安白癜风专科医院 / 收集,转载请注明出处
本文由西安白癜风专科医院 / 收集,转载请注明出处
图1 ODP 首页
粒度分类结构,在最底层目录下,人工收集了符合该目录主题的精选高质量网页地址,以供
互联网用户导航寻址。主题敏感PageRank 采用了ODP 最高级别的16 个分类类别作为事先
定义的主题类型。
2、网页topic 归属
这一步需要将每个页面归入最合适的分类,具体归类有很多算法,例如可以使用
TF-IDF 基于词素归类,也可以聚类后人工归类。这一步最终的结果是每个网页被归到其中
一个 topic 。
3、分topic 向量计算
在PageRank 的向量迭代公式:
本文由西安白癜风专科医院 / 收集,转载请注明出处
本文由西安白癜风专科医院 / 收集,转载请注明出处
即R = q × P * R + ( 1 一 q) * e/N (e 单位向量)
而在主题敏感PageRank 中,向量迭代公式为:
首先是单位向量e 变为了s 。
而s 是这样一个向量:对于某 topic 的s ,如果网页k 在此 topic 中,则s 中第k 个
元素为1,否则为0。注意对于每一个 topic 都有一个不同的s 。而|s |表示s 中 1 的数量。
假设有页面A ,B,C, D,假设页面A 归为 Arts ,B 归为 Computers,C 归为 Computers,
D 归为 Sports 。那么对于 Computers 这个 topic ,s 就是:
假设我们设置阻尼系数q=0.8, 而|s|=2, 因此,迭代公式为:
本文由西安白癜风专科医院 / 收集,转载请注明出处
本文由西安白癜风专科医院 / 收集,转载请注明出处
最后算出的向量就是 Computers 这个 topic 的 rank。如果实际计算一下,会发现B、
C 页在这个 topic 下的权重相比上面非 Topic-Sensitive 的 rank 会升高,这说明如果用户
是一个倾向于 Computers topic 的人(例如程序员),那么在给他呈现的结果中B、C 会
更重要,因此可能排名更靠前。
4. 在线相似度计算
最后一步就是在用户提交搜索时,确定用户的 topic 倾向,以选择合适的 rank 向量。
主要方法有两种:
您可能关注的文档
最近下载
- 房地产估价规范.docx VIP
- 锅炉与锅炉房设备施工链条炉排的安装4.8.1链条炉排的安装.pptx VIP
- 石油石化系统治安反恐防范要求.pdf VIP
- 一种基于光热协同固化的金属墨水及其增材制造的方法.pdf VIP
- 锅炉与锅炉房设备施工往复炉排安装4.8.2往复炉排安装.pptx VIP
- 1.THK样本资料-LM滚动导轨.pdf VIP
- 重大社2024《财务实训教程—智能财务共享》教学课件-财务共享服务中心运营管理.pptx VIP
- 手机摄影《手机摄影培训》课件.pptx VIP
- (高清版)DB31∕T 1589-2025 绿色食品 水产饲料生产管理规范.pdf VIP
- 博世力士乐IndraDrive驱动器中文报警手册.pptx VIP
原创力文档


文档评论(0)