网站大量收购独家精品文档,联系QQ:2885784924

内容无关的信息检索模型.pptVIP

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
内容无关的信息检索模型 杜小勇 2008-03-13 基于文本内容的检索模型 布尔模型 向量空间模型 概率模型 统计语言模型 语义网络模型 与内容无关的其他检索模型 基于协同的模型 基于链接分析的模型 基于关联的模型 通常与基于内容的模型一起使用 Collaborative Recommendation raj denotes the score of item j rated by an active user a. If user a had not rated item j, raj=0. m - total number of users, n - total number of items. 协同推荐模型 For a given user-a and document-j, Predicate paj =? is the number of users who are similar to user a and have rated item j. w(a,i): The weight of the similarity between user a and user i. k is a normalizing factor such that the absolute values of the weights sum to unity. 算法主要的问题 冷启动(cold star) 稀疏性(sparse) 高维性(high dimension) 基于分类的协同过滤推荐 基本思想: (1)对矩阵进行划分 划分依据资源的语义分类 (2)根据划分后的子矩阵进行协同过滤 (3)生成预测结果 基于分类的协同过滤推荐 基本思想: (1)把每一项资源归到一个或几个类别中; (2)用户对资源评价矩阵进行分解, 基于分类的协同过滤算法(续) 基于聚类的协同过滤算法 基本思想: (1)对矩阵进行划分 划分根据稀疏矩阵聚类、KMeans等聚类算法 (2)根据划分后的子矩阵进行协同过滤 (3)生成预测结果 基于矩阵聚类的协同过滤 基于矩阵聚类的协同过滤 基本思想: (1)把每一项资源归到一个或多个子矩阵中,每个用户被划分到一个或多个子矩阵中; 基于聚类的协同过滤算法(续) 与内容无关的其他检索模型 基于协同的模型 基于链接分析的模型 基于关联的模型 通常与基于内容的模型一起使用 链接分析模型 对于超文本(例如WWW上的网页 ),超链结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大地提高检索结果的质量。 Sergey Brin 和Larry Page 在1998 年提出了PageRank 算法 J.Kleinberg 于1998年提出了HITS 算法 其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。 Page Ranking算法 Brin S, Page L The anatomy of a large-scale hypertextual web search engine. WWW’98 基本思想:以下三条启发式规则: 如果一个页面被多次引用,那么这个页面很可能是重要的。 如果一个页面被重要的页面引用,那么这个页面很可能是重要的。 一个页面的重要性被均分并传递到它所引用的页面。 PageRanking Citation graph (link graph) of the web A web page’s “PageRank”: PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn)) Page A has pages T1,…,Tn which point to it (i.e. are citations) 0d1 is a damping factor (d=0.85) C(A) is the number of links going out of A HITS算法 J. Kleinberg. Authoritative sources in a hyperlinked environment. In Proc. Ninth Ann. ACM-SIAM Symp. Discrete Algorithms, pages 668-677, ACM Press, New York, 1998 Hub页面:指向权威页面的页面,例如目录页面等。 Authority页面:被很多页面指向的页面 HITS算法 Step1: 构造子图S 查询结果页面R(前n个) R中每一个页面所指向的页面 指向R中页面的页面(可能要限制数量) Step2:迭代计算页面的h值和a值 每一个页面的 h(p)=

文档评论(0)

junjun37473 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档