- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于内容过滤的个性化搜索算法
Personalized Search Algorithm Using Content-Based Filtering
Journal of Software, 2003,14(5):0000~0000.
Abstract: Traditional information retrieval technologies satisfy users’ need to a great extent. However, for their all-purpose characteristics, they can’t satisfy any query from different background, with different intention and at different time. This paper presents a personalized search algorithm using content-based filtering. The user model is represented as the probability distribution over the domain classification model. A method of computing similarity and a method of revising user model are provided. Compared with the vector space model, the probability model is more effective on describing a user’s interests.
Key words: personalization; content-based filtering; search algorithm; user model; recommendation system
摘 要: 传统信息检索技术满足了人们一定的需要,由于其通用的性质,仍不能满足不同背景、不同目的和不同时期的查询请求.提出了一种基于内容过滤的个性化搜索算法.利用领域分类模型上的概率分布表达了用户的兴趣模型,然后给出了相似性计算和用户兴趣模型更新的方法.对比实验表明,概率模型比矢量空间模型更好地表达了用户的兴趣和变化.
关键词: 个性化;基于内容过滤;搜索算法;用户模型;推荐系统
中图法分类号: TP393 文献标识码: A
Web已成为人们获取信息的一个重要途径,由于Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息.搜索引擎是最普遍的辅助人们检索信息的工具,比如传统的搜索引擎AltaVista (),Yahoo! ()和新一代的搜索引擎Google ()等.信息检索技术满足了人们一定的需要,但由于其通用的性质,仍不能满足不同背景、不同目的和不同时期的查询请求.个性化服务技术就是针对这个问题而提出的,它为不同用户提供不同的服务, 以满足不同的需求.个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的.个性化服务技术能充分提高站点的服务质量和访问效率,从而吸引更多的访问者.
目前存在着许多个性化服务系统[1,2],它们提出了各种思路来实现个性化服务.个性化服务系统根据其所采用的推荐技术可以分为两种:基于规则的系统和信息过滤系统.信息过滤系统又可分为基于内容过滤的系统和协作过滤系统.
基于规则的系统利用预定义的规则来过滤信息,它的优点是简单直接,缺点是规则质量很难保证,而且不能动态更新,此外,随着规则的数量增多,系统将变得越来越难以管理.基于内容过滤的系统利用资源与用户兴趣的相似性来过滤信息,它的关键问题是相似性计算,它的优点是简单有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源.协作过滤系统利用用户之间的相似性来推荐信息,它能够为用户发现新的感兴趣的内容,它的关键问题是用户聚类,其缺点是需要用户的参与.由于基于内容过滤和协作过滤各有其优缺点,所以有些系统同时采用了这两种技术.
本文提出了一种基于内容过滤的个性化搜索算法.基于内容过滤的基本问题包括用户兴趣的建模与更新,以及相似性计算方法.本文利用领域分类模型上的概率分布表达了用户的兴趣模型,然后给出了相似性计算和用户兴趣模型更新的方法.对比实验表明,概率模型比矢量空间模型更好地表达了用户的兴趣和变化.本文只关心文本资源,比如科技论文等,实际上,我们的方法还可以应用到其他领域.
本文第1节讨论文档和用户兴趣模型的表达.第2节讨论用户兴趣模型的更新.第3节描述相似性计算方法和基于该方法的个性化搜索算法.第
您可能关注的文档
- E2-6防水工程试水检查记录.doc
- HR声音1:应届毕业生,我对你“非常不满”.doc
- PROENGINEER常用能力.doc
- 高速模糊控制器翻译.doc
- 自来水中钙含量的测定.doc
- 便携式测距仪对比选择.doc
- 英文翻译200804030220.doc
- 有机物分子式的确定规律总结.doc
- 中继教:《法制教育与学科教学》校本培训讲义、笔记及作业.doc
- 《扳道员(长)(局)》试.doc
- 2024-2025学年四川电子机械职业技术学院单招《职业适应性测试》考前冲刺试卷及一套完整答案详解.docx
- 2025年中国高压自封式截止阀市场调查研究报告.docx
- 2025年中国高压输水胶管市场调查研究报告.docx
- 2025安徽邮电职业技术学院单招考试文化素质数学考前冲刺练习试题带答案详解(研优卷).docx
- 地下工程安全施工措施.docx
- 2025年中国高压隔离圈市场调查研究报告.docx
- 2025年中国高压长弧氙灯泡市场调查研究报告.docx
- 2023年度燕京理工学院单招《英语》考试综合练习【有一套】附答案详解.docx
- 2025年苏州工业园区服务外包职业学院单招《数学》测试卷及答案详解一套.docx
- 绿化植被选择环境保护措施.docx
文档评论(0)