基于用户兴趣的个性化信息检索分析与分析-analysis and analysis of personalized information retrieval based on user interest.docxVIP

下载本文档

10
0
约5.54万字
约 64页
2018-08-14 发布于上海
举报
版权申诉

基于用户兴趣的个性化信息检索分析与分析-analysis and analysis of personalized information retrieval based on user interest.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于用户兴趣的个性化信息检索分析与分析-analysis and analysis of personalized information retrieval based on user interest

第四章基于浏览速度的用户兴趣建模的设计与实现264.1用户兴趣模型分析264.2用户兴趣模型表示264.3用户兴趣模型的建立274.4用户浏览行为分析与跟踪274.4.1用户浏览行为数据的获取274.4.2基于浏览速度的用户兴趣度计算274.4.3基于驻留时间的用户兴趣度计算284.4.4驻留时间分析284.4.5性能评价294.4.6两种用户兴趣建模结果对比304.5兴趣特征提取314.5.1文本特征提取314.5.2文本聚类324.6用户兴趣模型更新334.7本章小结34第五章基于用户相关反馈的查询扩展355.1查询扩展及常用查询扩展方法355.1.1查询扩展355.1.2查询扩展研究现状355.1.3常用查询扩展方法365.2基于用户相关反馈的查询扩展395.3几种常用的用户相关反馈查询扩展405.3.1基于向量空间模型的用户相关反馈的查询扩展405.3.2基于概率模型的用户相关反馈的查询扩展415.3.3基于布尔模型的用户相关反馈的查询扩展435.4改进的基于向量空间模型的用户相关反馈的查询扩展445.5本章小结46第六章个性化搜索引擎系统设计486.1实验环境486.2个性化信息服务系统设计486.2.1系统模型总体结构设计486.2.2系统主要模块及流程506.3个性化信息检索运行结果及分析516.3.1用户查询界面526.3.2用户注册界面526.3.3个性化信息检索运行结果536.3.4个性化信息检索性能评价546.3.5个性化信息检索实验结果546.3.6用户兴趣分析546.4本章小结55第七章总结与展望567.1工作总结567.2工作展望56参考文献57致谢60个人简历、在学期间发表的学术论文与研究成果61第一章绪论随着因特网的迅猛发展和Web信息的增加，信息搜索成为互联网信息共享领域不可阻挡的用户需求。作为网络信息检索的利器，搜索引擎从全文检索技术中发展而来，经过十几年的发展，越来越贴近用户的需求。目前，搜索引擎技术已成为计算机业界争相研究、开发的热点技术。搜索引擎的出现，整合了互联网上众多的网页资源，并提供信息导航和信息查询服务，使信息的价值得到了网民和厂商普遍认可。1.1论文的研究背景和意义随着Web的迅速发展和日益普及，Internet成为人们搜寻各方面信息的主要来源，搜索引擎也在人们的日常工作和生活中发挥着无法替代的重要作用。但由于Internet是一个开放、分布、异构的信息空间，Internet这个数字图书馆并不支持有组织的信息管理和检索。Internet上的信息无组织、无固定结构、分布无规律性，Internet是一个动态性极强的信息源；它上面的信息量每天呈指数级增长，而对用户个体而言只有少数相关或有用。其本身固有的特点已经明显地阻碍了人们充分使用Internet上的信息资源。搜索引擎正是基于上述原因而产生的，它以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务[1]。但是，随着Internet上的信息数量呈指数级增长，大量垃圾信息也混杂其中。如何向用户提供质量好且数量适当的检索结果成为搜索引擎技术发展的方向之一。由于大多数搜索引擎的搜集范围是综合性的，它们的Robot尽其可能把各类网页抓回来，只经过简单的加工后存放到数据库中；另外，搜索引擎直接提供给用户的检索途径大多是基于关键词的布尔逻辑匹配，返回给用户的就是所包含关键词的文献。这样的检索结果在数量上远远超过了用户的使用能力，让人感到束手无策。这就是现在经常谈到的“信息迷失”和“资源过载”现象[2]。信息迷失即浏览者在Internet复杂的网状信息空间中迷失方向。信息过载则是由于Internet提供的信息复杂性、广泛性。传统搜索引擎未考虑用户的背景(年龄、性别、职业、学历、爱好等)、用户的查询阶段等对用户信息需求有很大影响的个人因素，对不同用户的同一检索词返回同样的结果集，对同一用户在不同时期的同一检索词的返回结果没有考虑用户信息需求的变化，因此传统搜索引擎不能体现用户的信息需求个性，从而查询结果缺乏针对性和准确性。据中国互联网络信息中心(CNNIC)2009年1月发布的中国互联网络发展状况统计报告统计[3]，搜索引擎的使用存在明显的城乡、年龄、学历、收入差异：城镇网民搜索引擎使用率明显高于农村；20-40岁网民搜索引擎使用率明显高于其他人群；学历越高，搜索引擎使用率越高；收入越高，搜索引擎使用率越高。搜索引擎应用人群的这一特点凸显了当前传统搜索引擎缺乏个性化的缺陷。针对上述问题，如何能够更有效、更准确地找到自己感兴趣的信息，过滤与自己的需求无关的信息，真正做到“基于用户”与“各取所需”，成为基于Internet的网络信息检索的热点问题。因此，为了解决丰富的信息资源和低能的信息获取能力之间的矛盾，个性