基于检索日志检索词研究.docVIP

下载本文档

4
0
约2.79千字
约 7页
2018-08-30 发布于福建
举报
版权申诉

基于检索日志检索词研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于检索日志检索词研究

基于检索日志检索词研究　　[摘要]为了满足检索用户对推荐服务日益迫切的需求，结合检索词推荐需求研究推荐理论。基于三种典型推荐方法：基于内容的过滤、基于规则的过滤和基于协作的过滤，提出一种检索词的混合推荐方法，并基于检索日志构建一种“脱机预处理和挖掘、联机推荐”的检索词推荐模型。最后，在NSTL嵌入式系统上进行实证研究。基于检索日志数据，以简单检索方式下的检索词推荐为突破口，设计一套原型系统，验证检索词的推荐效果并在原型系统上检验一种改进的BWP方法的效果。　　[关键词]Web日志挖掘　推荐系统　个性化　最佳聚类数　　[分类号]TP311　G350 　　1　引言　　为了满足用户对信息检索的推荐服务的迫切需求，本文基于三种典型推荐方法——基于内容的过滤、基于规则的过滤和基于协作的过滤，提出一种检索词的混合推荐方法，并从用户体验角度出发，针对现有研究的不足，构建一套基于检索日志的检索词推荐模型，以NSTL(National Science and Technology Library)嵌入式系统为实验平台，设计一套推荐效率较高、推荐效果较好的原型系统，提供相似检索词推荐、关联检索词推荐、同类用户检索词推荐三大功能，通过实验检验原型系统。　　　　2　检索词推荐方法研究　　推荐所依据的原理是数据挖掘理论。通常，推荐分为基于规则过滤、基于内容过滤、基于协作过滤以及两种方法混合的推荐方法。根据不同的个性化推荐方法，采用的挖掘算法也各不相同。本文以检索词作为推荐对象，同时考虑三种推荐方法，以满足信息检索系统用户丰富的个性化信息服务需求。　　　　2.1基于内容的过滤　　基于内容的过滤推荐技术的特点是：根据用户过去选择项目的特点，系统地为其推荐相似的项目。基于内容的过滤系统的最大缺点是用户模型的建立过度依赖于用户以前选择和点击的具体项目。研究显示，在线推荐系统对用户最有用的价值是为其推荐意想不到的项目，但是，如果只是采用内容相似性方法可能会丢失一些重要实用的关系，这些关系存在于Web对象之间，例如特定环境下上下文中常用Web对象关系发现对象之间存在的关联。　　2.2基于规则的过滤　　Forsati等人提出一种基于权重的关联规则算法，该算法是对传统的关联规则算法的扩展，允许交易中的每一个项目分配一个权重以反映用户对该项目的兴趣度。在结果关联规则集里，每一个项目都对应一个权重参数，根据用户的兴趣程度，为每个用户访问的Web页面分配一个时间权重和访问频率权重。实验结果表明，与传统的关联规则方法相比较，这种方法能够客观、有效地表示预测结果，对推荐系统效率有很大改进。但基于关联规则的过滤在挖掘稀有信息方面效率不高。　　　　2.3基于协作的过滤　　基于内容过滤的推荐系统根据商品内容的相似性进行推荐，而协作过滤推荐系统利用了用户的相似性进行推荐。但是，协作过滤技术也有其潜在的严重不足，最大的缺点是缺乏可伸缩性。　　2.4　当前检索词推荐研究的不足　　当前解决推荐方法不足的研究热点是采用混合推荐算法，目的是提高推荐的精度。Burke提出的方法是混合基于内容和基于协作两种过滤技术，通过丰富变量的方法生成推荐系统，旨在提高推荐的质量。有的混合推荐系统，例如Ardissono等人提出的用户建模和个性化推荐技术，通过收集多种用户偏好的信息，采用多种异构推荐技术予以实现。这种方法越来越多地被用于各种个性化服务研究中，例如，Nima等人关于Q-learning的Web推荐系统研究，Chen等人的混合手机新闻推荐系统的普适访问研究，李秦等人的混合基于内容和基于规则的检索推荐系统研究。但是，仅采用上述一种或两种方式的推荐无法满足用户日益增长的个性化信息服务需求。　　　　2.5　一种同时采用上述三种方法的混合推荐方法　　考虑到上述三种推荐方法各自存在一定的局限性，为了使信息检索系统的个性化推荐更加有效，尽可能向用户提供丰富的个性化服务，本文提出一种同时采用上述三种推荐方法的混合方法。在用户检索时，信息检索系统同时向用户推荐基于内容的、基于规则的、基于协作的三种过滤结果，即相似检索词、关联检索词、同类用户检索词。　　对于信息检索系统用户而言，基于内容的检索词过滤是指用户在使用检索服务时，输入各种感兴趣的检索词，这些检索词中彼此有些是相似度较高的，可以推荐给用户。涉及到的技术包括数据预处理、聚类和推荐。首先要将检索词从服务器日志中清洗出来，进行中英文分词后，得到检索词的最小词集合，停用其中的英文小品词(如：at，in，on)、标点符号等无用的词，得到有效的词集合。为了方便聚类，还需要将有效词集合转化成文本向量，这样就将字符串数据转化成了实数数据。然后，对向量进行聚类，将聚类的结果与原始的检索词对应