- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于分类的个性化推荐系统.pdf
基于分类的个性化推荐系统①
刘占坤 施水才
北京信息工程学院 北京 100101
bitiliu@126.comshi.shuicai@trs.eom.en
摘要:本文在个性化推荐技术讨论分析的基础上,选择合理的技术进行个性
化推荐系统的设计。在用户模型的定义上,本文采用“类别十关键字”的方式进行
描述,为了进一步精确描述用户的兴趣,又分别为“类别”和“关键字”增加了“权
值”的概念。在推荐技术的选择上,本文采用混合推荐技术,即首先采用基于内容
的推荐,然后在用户分组的基础上进行合作推荐。
关键词:个性化推荐,用户模型,文本分类,文本聚类
一、前言
近年来,随着计算机的普及和Internet技术的迅速发展,网络用户及因特网发
布的信息数量均在迅速膨胀。据中国互联网络信息中心2005年7月发布的《中国互
联网络发展状况统计报告》,我国上网用户总人数为10300万人。同时百度(WWW.
网页上升到现在的8亿个网页。面对如此庞大的用户群和信息量,如何快速而准确
地帮助用户找到需要和关注的信息是网站亟待解决的问题。
每个用户都有其独特的职业背景、兴趣爱好,他们所关注的信息千差万别,
虽然搜索引擎能够帮助他们找到相关的信息,但普通的网络用户很难根据自己的
需要抽取出几个检索关键字,并且几个简单的检索关键字也很难描述用户的需求。
同时,复杂的检索操作也降低了用户使用的积极性。
网络用户期望网站能够了解自己的兴趣爱好,能为自身提供个性化的服务。
同时,网站也希望通过提供针对不同用户的个性化服务来提高网站的易用性和使
①基金项目:国家自然科学基金项目;北京市教育委员会科技发展计划重点
项目(KZ200310772013)。
用体验,从而增加用户的忠诚度。这些需求促使了个性化推荐系统的产生。
二,发展状况
ofthe
Watcher,标志着个性化服务的开始。1997年3月,((CommunicationsACM》组
织了个性化推荐系统的专题报道,标志个性化服务已经为技术界高度重视。1999
年,德国德累斯顿技术大学的J.Tanja实现了个性化电子商务原型系统TELLM,
标志着个性化服务开始向全球发展。2000年,NEC研究院的D.B.Kurt等人为搜
开始了个性化服务的研究,清华大学的路海明等提出了基于多Agent混合智能实
现个性化推荐。今天,个性化研究已经在商业领域得到越来越广泛的应用。
个性化推荐系统的关键技术包括用户建模技术和个性化推荐技术,其中用户
建模技术主要有用户手工定制建模、示例用户建模和自动用户建模,个性化推荐
技术包括基于规则的推荐、基于内容的推荐、合作推荐和混合推荐。系统可以根
据自己的实际需求以及相应技术的优缺点选择合适的技术。
三、系统设计
系统流程如图1所示。首先将用户的某段时间内浏览的文档进行分类,并对同
一类中的文档进行关键字的提取并更新到用户模型中,完成用户模型的创建或更
新。其次,将待推荐的文档进行分类和关键词的提取,并基于用户模型进行文档
推荐度的计算,将推荐度高的文档文件给用户,完成基于内容的推荐。最后,对
基于用户模型对用户进行聚类分组获得分组信息,并将同组用户浏览过的文档进
行聚类计算,然后将文档数最多的文档在同组用户间相互推荐,完成合作推荐
过程。
四、用户模型
(一)用户模型的描述
目前的个性化服务系统的用户兴趣描述多采用关键词的方式,即罗列一系列
关键词,但这种方式过于偏颇,因为同一个词在不同的领域就有完全不同的两个
含义,比如“引擎”,在工业技术领域,它指的是发动机,而在信息技术领域,它
可能指的是检索技术。所以,我们在关键词的上层增加了分类的概念,即用“类别
+关键字”的方式来描述用户兴趣,这样就能准确地描述用户的兴趣。
图1系统流程图
为了区别用户对不同类别或同一类别不同方面信息的兴趣程度,分别为“类
别”和“关键词”增加了权值的概念,用来描述用户对该类别或该类别下面某一方面
的喜爱程度,进一步精确描述用户的兴趣。
图2展示了用户192.9.200.13的模型描述,该用户关注的类别有“国际政治”
和“体育”,权值分别为0.9和0.7,在“国际政治”类别下,用户关注的关键字有
“伊拉克”和“车臣”,权值分别为0.9和0.7。
(二)用户建模
用户建模包括创建或更新用户模型时选择的分析数据,
原创力文档


文档评论(0)