第十章-信息过滤与推荐技术.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十章-信息过滤与推荐技术

北京大学软件与微电子学院2009年度课程 第十章 信息过滤与推荐技术 2010年12月 课前思考题 信息过滤的概念是什么?它和一般的信息检索、信息分类、信息抽取有什么区别? 信息过滤的类型有哪些?基于内容的过滤和基于协作的过滤有什么不同? 信息过滤的构成和各部分功能如何? 信息过滤系统如何评估? 提纲 信息过滤的基本概念 信息过滤系统的分类 信息过滤系统的组成 信息过滤系统的评估 信息过滤的现状及发展趋势 提纲 信息过滤的基本概念? 信息过滤系统的分类 信息过滤系统的组成 信息过滤系统的评估 信息过滤的现状及发展趋势 信息过滤的定义 从动态的信息流中将满足用户兴趣的信息挑选出来,用户的兴趣一般在较长一段时间内比较稳定不会改变(静态)。 其他名称: Selective Dissemination of Information(SDI),来自图书馆领域。 Routing,来自Message Understanding。本质上,Routing和IF还有所区别,它注重结果的排序 Current Awareness, 来自Data Mining。 信息过滤系统示意图 信息过滤系统的特点 新信息的产生速度很快,人的兴趣变化速度赶不上信息的变化速度。可以说,人的兴趣变化比较缓慢,可以看成相对静态的和稳定的。 信息过滤主要借用信息检索和用户建模(User modeling)两个领域的技术。 用户的需求或者兴趣通常采用User Profile建模来表示。 新信息到来的时候,根据用户的User Profile,有选择地挑出信息给用户。 信息过滤系统数据流图 Collection Selection Display IF vs. IR (1) IF是可以看成广义IR的一部分,即和Adhoc Retrieval相对的一种任务模式。IR通常采用Pull模式,而IF通常采用Push模式。 IF一般都借用狭义IR中的表示和计算方法。 和Adhoc Retrieval相比: IR可以认为面向一次性的查询而使用,而IF是面向用户的长期需求的重复使用 IF信息源动态,用户需求 (采用User Profile来表示)相对静态;检索信息源相对静态,用户需求(采用Query来表示)动态变化 IF用户要对系统有所了解,IR不需要。 IF一般要关注用户建模,涉及用户隐私问题。而IR一般不需要。 IF vs. IR (2) IF vs. IC (Info. Classification) IF可以采用IC中的分类算法。 某些场合下人们所称的“信息过滤”实际就是一个IC问题。如不经过用户Profile调整的垃圾邮件过滤。 IC中的Category通常不会变化,相对而言,IF的User Profile会动态调整。 IF vs. IE Information Extraction是从无格式数据源中抽取相关字段的过程。比如抽取恐怖事件的时间、地点、人物等字段。 IE中不太关注相关性,而只关注相关的字段。IF中要关注相关性。 IF 的一些应用 搜索引擎检索结果的过滤:Google 个人的邮件过滤 新闻订阅和过滤 浏览器过滤 面向儿童的过滤系统 面向客户的过滤系统和推荐系统 提纲 信息过滤的基本概念 信息过滤系统的分类? 信息过滤系统的组成 信息过滤系统的评估 信息过滤的现状及发展趋势 IF分类示意图 按Initiative of operation分 主动(Active)的 IF系统 主动搜集信息,并将相关信息发送给用户 通常采用Push操作 会造成信息过载问题,所以该系统要尽力建立精确的User Profile。 代表系统BackWeb 被动(Passive)的 IF系统 不负责为用户搜集信息 通常用于邮件和新闻组信息过滤 代表系统GHOSTS 按Location of operation分 在信息源端过滤 将用户的Profile发送给信息提供者,后者将和用户Profile匹配的信息回送给用户 这种服务通常也称为Clipping service 用户通常需要付费,代表系统:Dialog的Alert服务 在过滤服务器端过滤 信息提供者将信息发送给过滤服务器 过滤服务器根据用户的Profile将匹配信息发给用户 代表系统SIFT 在用户端过滤 是一个局部过滤系统 如Foxmail或outlook的过滤功能。 从过滤方法分 基于感知的过滤(Cognitive filtering) 也称为基于内容的过滤(Content-based filtering) 将文档内容和用户的Profile进行相似度计算 代表系统CiteSeer 基于社会的过滤(Sociological filtering) 也称为协同过滤(Collaborative filtering 对某个用户的Profile进

文档评论(0)

zhuliyan1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档