兴趣模型小论文.docVIP

下载本文档

7
0
约 17页
2017-08-17 发布于安徽
举报
版权申诉

兴趣模型小论文.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

隐式用户兴趣挖掘及其更新学习研究摘要：针对个性化信息服务中，用户兴趣模型的建立和历史兴趣挖掘以及用户兴趣的漂移问题，提出了一种基于文本分类的隐式双层用户模型构建方法。并设计了三种用户兴趣模型:长期兴趣模型、短期兴趣模型、单天兴趣模型来分别测试验证此模型的性能。对于长期兴趣模型和短期兴趣模型分别采用了遗忘因子和滑块窗口的更新方法，并采用精确度来评价此模型的性能，实验结果显示该模型具有很好的性能。关键词:个性化服务；用户兴趣模型；双层结构；隐式信息；引言近年来，随着通信与计算机技术的发展，互联网的发展已达到了惊人的速度，其信息量无论在数量还是种类上都超出人们想象。但由于互联网本身的开放性、动态性、无组织无语义性造成了“资源过载”和“信息迷向”等问题,为了帮助用户根据个人的兴趣爱好，快速、准确地查找所需资源，出现了许多个性化服务系统[2]。用户兴趣模型是个性化推荐服务的基础和核心，首先需要建立对用户兴趣的描述，然后才能据此提供针对不同用户的个性化推荐服务。良好的用户兴趣模型的支撑可以提供更好的个性化推荐服务[1]。用户兴趣模型构建就是在用户行为的基础上，分析出用户的兴趣面和兴趣点，具体的描述用户的兴趣。用户兴趣的漂移是指在用户兴趣改变时，如何表示用户新的兴趣。现有的用户兴趣模型构建方法有部分缺点和不足。针对这些不足，设计了一种新的基于文本分类的隐式用户兴趣模型构建方法，其分类模型采用双层结构，较其他分类模型相比，分类结构更细致，用户兴趣粒度更小。并通过实验验证了该模型的有效性。相关研究 2.1用户兴趣模型的建立方法用户模型的建立方法主要有两种：显式用户兴趣建模和隐式用户兴趣建模[1]。显式用户兴趣建模有明显的缺点：它需要用户主动地提供相应的信息。这样有很多用户不愿意提供自己的私人信息，或者有的用户并不清楚自己的兴趣是什么，导致兴趣模型偏差甚至完全不正确。造成这种结果的主要原因是显式用户兴趣建模的主观性太强，不可控。于是我们采用的是隐式用户兴趣建模。目前主要的隐式用户兴趣建模方法有：1.通过用户的搜索查询词构建；2.通过用户的浏览日志构建。通过查询词的构建的方法并不准确，举个例子，比如用户搜索火箭，其实他想搜关于军事方面的信息，但是通过查询词构建的方法会产生体育类别方面的歧义。所以，我们决定采用基于用户浏览信息的隐式构建方法。所需要的数据即为用户浏览的网页的文本内容 2.2用户兴趣模型结构通过研究发现[7]，主要的用户兴趣模型结构都是单层模型，即：图1 它存在一个缺点。即在实际应用中并不准确，即使第一层类别分析正确，待到应用时会发现各种问题。例子：假设一个用户兴趣模型显示出该用户在体育类别下兴趣度很高，于是系统给他推荐出体育类别的信息，但是这些信息都是篮球方面的，而用户其实感兴趣的是足球方面。于是，便产生了信息迷向。本系统采用的双层结构。即在第一层大类下还细分出若干小类。每个小类有自己的兴趣度，这样如果遇到上述问题。系统会检索到体育大类下的足球小类进行推荐，达到准确的目的。 2.3用户兴趣模型漂移模式用户的兴趣会随着时间的推移而发生变化，一些用户原本感兴趣的主题会被渐渐遗忘，新的兴趣主题会逐渐发生。兴趣漂移现象的存在使得用户兴趣模型也应当随之变化。因此在模块的设计中应当考虑用户兴趣模型的遗忘与更新机制。目前，各种系统采用的漂移方法主要有两种：第一种是简单地认为只对最近访问的感兴趣；第二种是采用遗忘函数来衰减样本。这两种方法存在的不足如下：第一种方式中忽略了历史因素的影响，比如某一项其实是用户的兴趣，但是出于某种原因，某一天用户并没有关注这一方面。结果这一兴趣类别丢失。第二种方式忽略了热点的影响。比如5.12地震中，大家都回去关注地震。但是由于遗忘函数的历史积累作用，地震这一冷门知识不会很快的出现在用户兴趣向量中，这种方法无法发现用户近期集中关心的热门信息。本系统采用了短期(滑块)与长期(遗忘因子)相结合的方式，将两种结果均显示出来。达到互补和比较的作用。用户兴趣模型设计 3.1模型总体设计由于向量空间模型VSM（Vector Space Model）[3]是文档和用户兴趣表示的常用方法，它以向量形式来表示文档和用户兴趣。所以本模型的设计是基于VSM的。提取和把握用户的兴趣知识涉及以下几方面：（1）信息采集方式：为节省用户时间，避免有些用户由于个人隐私问题，或者随意做出的结论用户模型构建造成不好的影响，所以模型的信息采集方式采用了隐式方式。（2）数据内容：隐式的信息采集方式可以获得很多种有用的数据。本系统采用的是用户ID+日期+文本的数据进行操作，该数据可以采用网络爬虫对用户浏览日志进行处理获得（3）模型建立和更新策略：系统对用户兴趣模型采用三种表达方法: 1.单天用户