基于层次聚类自适应信息过滤学习算法.docVIP

下载本文档

1
0
约8.85千字
约 17页
2018-08-29 发布于福建
举报
版权申诉

基于层次聚类自适应信息过滤学习算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于层次聚类自适应信息过滤学习算法

基于层次聚类自适应信息过滤学习算法　　摘要：本文采用一种基于层次聚类的自适应学习策略，从系统反馈的信息流中，动态提取一类最优信息的质心更新用户模型，有效屏蔽了阈值失真和初始信息稀疏造成的大量反馈噪声，并且能够近似模仿人工反馈，完善自适应学习机制的智能性。　　关键词：计算机应用；中文信息处理；自适应信息过滤；用户模型；相关反馈；阈值；层次聚类　　中图分类号：TP391　文献标识码：A 　　　　1 引言　　　　随着搜索引擎技术的应用，人们找到了一条从海量信息中获取知识的捷径，但是伴随其产生的许多问题却不能仅仅依靠检索技术的改进得到很好的解决，其中最突出的两类问题是如何屏蔽垃圾信息和如何个性化推送信息，因此，更加智能化的信息过滤技术成为弥补这些缺陷的最佳助手[1,2]。传统的信息过滤，如批过滤和信息路由，都需要大量初始信息训练用户模型，并且在处理信息的过程中欠缺自发的学习与更新能力，这就极大地制约了信息过滤技术在实际应用中的发展。智能性更强的自适应信息过滤技术是一项在初始信息相对稀缺的情况下高效完成过滤任务并自动优化的课题，其通过在线学习反馈信息来更新用户模型，并时刻监控信息流与用户模型的相关度指标，同时从中选择相关度高于阈值的信息作为反馈。传统自适应信息过滤系统主要包含四个组成部分[3,4]，其相互关系如图1所示。　　1)用户模型：描述用户需求信息的特征空间。用户模型的构造策略包括向量空间模型、浅层语义索引、n元语法模型和树，其中向量空间模型是最常用的一种方法。　　2)相关度计算：计算信息与用户模型的相似度。选择相关度计算的策略必须依据系统选择用户模型的方法，比如：向量空间模型的相似度一般采用特征向量空问的余弦夹角进行计算；浅层语义索引则采用奇异值分解。　　3)阈值估计：阈值是区分相关与不相关信息的边界，阈值的存在显示信息过滤可以看作一种二元分类问题。　　4)自学习算法：自学习机制的核心思想是通过反馈更新和改进当前用户模型的特征空间。目前效果较好的自学习策略包括LR[5]和Rocchio[6,7]等。　　同比于人的学习习惯，对于一个自适应过滤系统而言，怎样获取最优信息进行学习是提高其学习效果的中心问题。传统的做法分为两类，一类是完全依赖阈值的精准截取；一类是凭借伪相关反馈的排序算法。基于这两种方法的学习机制在很大程度上提高了自适应信息过滤系统的智能，但同时在实际应用中也暴露了许多缺陷，其中最为明显的两个问题是：　　1)阈值估计偏差问题[8,9]：早期的阈值估计一般都是在大规模语料中预先训练得到的，这种阈值在过滤过程中不进行调整，从而使判断信息相关性的过程存在偏见。为了应对自适应信息过滤的要求，许多学者从事了阈值估计方面的研究，比如CMU的Yi Zhang[9]采用统计策略对阈值进行估计，其观测到相关信息与用户模型的相关度成正态分布，而不相关信息的相关度成指数分布，并根据这种规律，采用两种分布的联合概率估计阈值。该方法在TREC评测中得到的结果并不出色，主要问题在于其不能考虑系统每次相关反馈对阈值的影响，在用户模型时刻更新，同时相关度指标整体浮动的环境下，设置固定的阈值截取信息并不能有效解决偏差问题。此外，Yiming Yang采用MLR[10]算法，在正例①边界和反例②边界之间的带状地带动态更新阈值。其问题在于两个边界逐渐归一并且成递减趋势，从而阈值的估计也恢复静态，因此也不能彻底解决阈值偏差问题。　　2)伪相关反馈初始信息稀疏问题：基于伪相关反馈的学习机制通常选择所有反馈，或经过排序后相关性指标靠前的反馈更新用户模型。其缺陷在于忽视了用户模型先天的信息稀疏性。根据TREC对自适应信息过滤任务的定义，每个用户模型的初始训练正例规模很小，而在实际应用中，用户通常也不会给出需求信息的详细描述，因此过滤结果的相关性指标并不能精确指向用户的真正意图。此外，稀疏的初始信息赋予关键特征的上下文环境非常有限，而语言本身又存在歧义性问题，仅仅依靠统计学原理得到的相关性指标很有可能指向了一个错误的需求意图。基于这些因素，传统的学习算法无法屏蔽反馈中大量的噪声并可能误导用户模型。　　本文采用一种基于层次聚类的自适应学习机制，通过对伪相关反馈进行聚类，选择最优的一类信息更新用户模型，从而削弱阈值估计偏见性和用户模型初始信息稀疏问题对过滤性能的影响。本文组织形式如下，第二节介绍基于层次聚类的自适应信息过滤学习算法；第三节介绍实验使用的语料及评价策略；第四节介绍实验流程与安排；第五节分析实验结果；第六节结论。　　　　2 基于层次聚类的自适应信息过滤学习算法　　　　如第1节所论述，制约自适应信息过滤学习机制效果的两个主要因素是阈值估计的偏差性和可供伪相关反馈对比的初始信息稀疏性。受