07信息过滤.ppt

下载文档 降价啦

0
0
约6.42千字
约 65页
2017-12-20 发布于北京
举报
版权申诉
保障服务

07信息过滤.ppt

1、本文档共65页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * * * * * 用户对项目的评价用户u 对目标项目ti评分的估计方法有两种权相加方法 Pu,i代表用户u对目标项目ti的评分估计 Si,k代表用户偏爱的已知项目tk与项目ti的协作相似性 Ru,k代表用户u对项目tk的偏爱程度评分回归方法改进方法由于在大多数协作过滤系统中项目的更新比较慢，因此可以预先计算项目之间的相似性，从而提高推荐系统的效率一种方法是计算所有项目之间的相似性并进行索引，这种方法的缺陷在于系统需要的存储空间一种方法是对每个项目，只保存最相似的 j个项目及其协作相关性， j 称为模型尺寸模型尺寸的选择对于过滤系统的性能有较大影响过大，则系统的预测能力很强，但空间复杂度增大过小，则一些于目标项目相似的项目可能没有被考虑其中，从而降低过滤系统的预测性能本章小结介绍了信息过滤的概念和需求介绍了信息过滤的体系结构介绍了信息过滤的方法 * * * * * * * * * * * * * * * * * * * * * * * * * * 用户的相关信息及用户的需求文档关系？信息过滤系统分类（续）过滤的策略基于内容的信息过滤用户需求文档的形成及相关度的计算仅依靠信息的内容协作信息过滤合作式信息过滤被定义为“通过掌握一个用户群体的诸个体间的相互联系及组织关系来实现的信息过滤方法。” 许多人将合作式信息过滤的方法解释为“‘相似’用户之间相互合作的过程。” 信息过滤系统分类（续）用户知识获取显式获取用户信息用户直接填表用关键词表达用户过滤需求用文档集表达用户过滤需求隐式获取用户信息无需用户直接参与，通过观察用户的动作行为判断用户需求用户阅读文档的时间可以作为衡量该文档相关度的一个指标。其他的一些用户行为——诸如用户是否保存、删除或是打印某篇文档也可以作为度量文档相关度的一个指标。显式和隐式并用的方法文档空间（基于案例的方法）推理 (预先定义默认的profile，在扫描过程中再改变) 信息过滤系统的组成一般组成信息分析模块接近信息提供者从信息提供者处获得和整理数据分析和表示文档例如：布尔模型, VSM等把表示结果传递给过滤单元过滤模块过滤模块是信息过滤系统的核心部分，它采用的算法直接决定了过滤结果的好坏主要作用是匹配用户模型(Profile)和信息的特征向量通常只作二值判断，即判定的信息或者与用户模型相关，或者不相关对于被判定相关的信息还将由用户最终决定其相关性，用户判定的结果将作为反馈信息被系统应用于对用户模型Profile的更新过滤模型布尔模型向量空间模型概率推理模型隐性语义标引关联论方法学习模块目的改进过滤的性能发现用户兴趣的转移更新用户模型学习方法通过观察来学习通过相关反馈学习用户训练学习学习的频度临时学习周期式的学习用户建模收集关于用户的信息 (显式的and/or隐式的) 创建用户profile，用户模型用来保存每个用户的Profile(规则, VSM,文档中心) 把用户模型传递给过滤单元，当动态信息流输入过滤模块时，系统提取用户的Profile并与文档的特征向量进行匹配用户模型必须与文档的表示相适应当用户兴趣发生变化时，系统根据相关反馈使用学习模块将初始Profile和反馈信息的特征向量进行融合，并将新生成的Profile覆盖原来的Profile 用户建模为建模获取数据隐式方法：观察用户的行为显示方法: 请用户填表，与用户交互模型中的数据浅层语义:关键词增强的用户模型，关于用户的高层知识用语义网络/传统的推理/统计推理获得文档中词汇之间的关系架构用Agent/神经网络进行自动推理用VSM/LSI进行显式推理智能系统的概念模型统计过滤的关键词系统信息过滤的方法方法基于内容的过滤基于规则的过滤基于统计的过滤协作过滤基于内容的信息过滤（规则）规则可以用户制定，也可以通过关联规则挖掘基于内容的过滤系统（统计）用户和资源之间关键是相似度计算如果用户描述文件不好，得到的资源很可能不相关优点：简单缺点：只能找到与用户已有兴趣相似的资源协作过滤用户和用户之间关键问题是聚类优点：提供用户资源的新颖性两个问题：稀疏性可扩展性基于内容的过滤（统计）特征表示提取关键词的形式文本分类的形式训练模型与分类方法相似相关反馈协作过滤相关概念协作信息过滤中，当前获得推荐结果的用户通常称为活动用户（Active user）参与过滤的信息资源统称为项目（Item）假设所有参与协作过滤的用户集为项目集为用户对项目的评价集为用户ui对tk的评价为ri