07信息过滤.ppt

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * 用户对项目的评价 用户u 对目标项目ti评分的估计方法有两种 权相加方法 Pu,i代表用户u对目标项目ti的评分估计 Si,k代表用户偏爱的已知项目tk与项目ti的协作相似性 Ru,k代表用户u对项目tk的偏爱程度评分 回归方法 改进方法 由于在大多数协作过滤系统中项目的更新比较慢,因此可以预先计算项目之间的相似性,从而提高推荐系统的效率 一种方法是计算所有项目之间的相似性并进行索引,这种方法的缺陷在于系统需要 的存储空间 一种方法是对每个项目 ,只保存最相似的 j个项目及其协作相关性, j 称为模型尺寸 模型尺寸的选择对于过滤系统的性能有较大影响 过大,则系统的预测能力很强,但空间复杂度增大 过小,则一些于目标项目相似的项目可能没有被考虑其中,从而降低过滤系统的预测性能 本章小结 介绍了信息过滤的概念和需求 介绍了信息过滤的体系结构 介绍了信息过滤的方法 * * * * * * * * * * * * * * * * * * * * * * * * * * 用户的相关信息及用户的需求文档关系? 信息过滤系统分类(续) 过滤的策略 基于内容的信息过滤 用户需求文档的形成及相关度的计算仅依靠信息的内容 协作信息过滤 合作式信息过滤被定义为“通过掌握一个用户群体的诸个体间的相互联系及组织关系来实现的信息过滤方法。” 许多人将合作式信息过滤的方法解释为“‘相似’用户之间相互合作的过程。” 信息过滤系统分类(续) 用户知识获取 显式获取用户信息 用户直接填表 用关键词表达用户过滤需求 用文档集表达用户过滤需求 隐式获取用户信息 无需用户直接参与,通过观察用户的动作行为判断用户需求 用户阅读文档的时间可以作为衡量该文档相关度的一个指标。 其他的一些用户行为——诸如用户是否保存、删除或是打印某篇文档也可以作为度量文档相关度的一个指标。 显式和隐式并用的方法 文档空间(基于案例的方法) 推理 (预先定义默认的profile,在扫描过程中再改变) 信息过滤系统的组成 一般组成 信息分析模块 接近信息提供者 从信息提供者处获得和整理数据 分析和表示文档 例如:布尔模型, VSM等 把表示结果传递给过滤单元 过滤模块 过滤模块是信息过滤系统的核心部分,它采用的算法直接决定了过滤结果的好坏 主要作用是匹配用户模型(Profile)和信息的特征向量 通常只作二值判断,即判定的信息或者与用户模型相关,或者不相关 对于被判定相关的信息还将由用户最终决定其相关性,用户判定的结果将作为反馈信息被系统应用于对用户模型Profile的更新 过滤模型 布尔模型 向量空间模型 概率推理模型 隐性语义标引 关联论方法 学习模块 目的 改进过滤的性能 发现用户兴趣的转移 更新用户模型 学习方法 通过观察来学习 通过相关反馈学习 用户训练学习 学习的频度 临时学习 周期式的学习 用户建模 收集关于用户的信息 (显式的and/or隐式的) 创建用户profile,用户模型用来保存每个用户的Profile(规则, VSM,文档中心) 把用户模型传递给过滤单元,当动态信息流输入过滤模块时,系统提取用户的Profile并与文档的特征向量进行匹配 用户模型必须与文档的表示相适应 当用户兴趣发生变化时,系统根据相关反馈使用学习模块将初始Profile和反馈信息的特征向量进行融合,并将新生成的Profile覆盖原来的Profile 用户建模 为建模获取数据 隐式方法:观察用户的行为 显示方法: 请用户填表,与用户交互 模型中的数据 浅层语义:关键词 增强的用户模型, 关于用户的高层知识 用语义网络/传统的推理/统计推理获得文档中词汇之间的关系 架构 用Agent/神经网络进行自动推理 用VSM/LSI进行显式推理 智能系统的概念模型 统计过滤的关键词系统 信息过滤的方法 方法 基于内容的过滤 基于规则的过滤 基于统计的过滤 协作过滤 基于内容的信息过滤(规则) 规则可以用户制定,也可以通过关联规则挖掘 基于内容的过滤系统(统计) 用户和资源之间 关键是相似度计算 如果用户描述文件不好,得到的资源很可能不相关 优点:简单 缺点:只能找到与用户已有兴趣相似的资源 协作过滤 用户和用户之间 关键问题是聚类 优点:提供用户资源的新颖性 两个问题: 稀疏性 可扩展性 基于内容的过滤(统计) 特征表示 提取关键词的形式 文本分类的形式 训练模型 与分类方法相似 相关反馈 协作过滤 相关概念 协作信息过滤中,当前获得推荐结果的用户通常称为活动用户(Active user) 参与过滤的信息资源统称为项目(Item) 假设所有参与协作过滤的用户集为 项目集为 用户对项目的评价集为 用户ui对tk的评价为ri

文档评论(0)

heroliuguan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档