- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于日志与知网查询推荐探究
基于日志与知网查询推荐探究 〔摘要〕考虑到传统的基于日志的查询推荐算法受到数据稀疏问题的影响,本文在分析查询日志的基础上,构建查询词与点击URL之间的双向图,计算查询词与候选词之间的相似度。然后基于知网计算查询词与候选词之间的相似度,考虑词性和同义词因素对相似度的影响。最后将两个相似度分别赋予权重计算查询词与推荐词的相关度。实验结果表明,该方法不易受数据稀疏问题的影响,稳定性较好。
〔关键词〕查询日志;查询推荐;双向图
DOI:10.3969/j.issn.1008-0821.2013.10.015
〔中图分类号〕TP391.1〔文献标识码〕A〔文章编号〕1008-0821(2013)10-0065-05
随着互联网和基础设施的快速发展,搜索引擎已成为人们获取信息的重要来源。根据中国互联网络信息中心2012年7月19日发布的《第30次中国互联网络发展状况统计报告》中显示[1],截至2012年6月底,中国网民数量达到5.38亿,搜索引擎的使用率为79.7%。有学者研究表明,用户输入的查询通常只有两三个词[2],并且对所要检索的内容知之甚少,所以用户很难明确的表达自己的查询意图。查询推荐技术是向用户推荐若干个与用户输入相关的查询,能帮助用户生成更加符合其搜索意图的查询推荐词,引导用户的搜索行为,优化搜索结果。
本文在已有的查询推荐研究基础上,从两个方面对查询词和候选词进行相似度计算。文章的结构如下:第一节介绍查询推荐相关研究现状;第二节分别基于双向图和知网计算查询词和候选词的相似度;第三节介绍整个查询推荐算法的流程;第四节进行实验验证和评价;第五节做总结分析。
1相关研究
早在上世纪90年代,信息检索研究者就开展了一些查询推荐相关研究[3],查询推荐技术在检索和浏览过程中的确能提高检索的质量和效率。根据所依赖的数据源大致可以分为两大类:一是基于文档的推荐方法;二是基于用户查询日志的推荐方法[4]。
基于文档的推荐方法主要通过处理包含查询词的文档来分析查询,从查询相关文档或人工编辑语料中找出与查询词相关的词或短语,然后利用这些相关词或短语构建推荐查询。有学者利用查询相关文档扩充查询以解决查询短的问题[5],也有学者利用伪相关文档检索查询相关词[6]。
基于日志的方法依靠分析搜索引擎查询日志来寻找出现过的相似查询,并根据一定算法排序后择优推荐给用户。查询日志中记录了用户完整的搜索点击行为,基于查询日志的推荐方法逐渐成为近年来常用的方法。有学者认为在同一session内出现的查询有可能语义相近,利用相关的相似度算法来度量查询间的相关性[7]。有学者提出一种基于查询共有相同点击URL数的查询推荐方法[8],在此基础上,有学者基于查询点击双向图提出了改进的SimRank相似度算法度量查询相关性[9-10]。有学者基于一个大规模商业搜索引擎查询日志,利用查询数据内在的全局流行度来获得查询之间的相关性,并提出了一种基于流行度排序的查询推荐方法[11]。也有学者研究查询日志中用户ID与点击URL之间的联系,提出基于主题与用户偏好分析的查询推荐方法[12]。
基于日志的方法根据搜索历史推荐查询词,相对于基于文档的方法更符合用户查询特点。但是查询词在日志中的出现频率呈指数分布,大多数查询词在日志中出现次数不多,这使得基于日志的方法面临严重的数据稀疏问题。
考虑到日志中数据稀疏问题,本文将从两个方面对查询词和候选词进行相似度计算。首先基于构建的双向图计算查询词与候选词之间的相似度,然后利用中科院的分词系统对查询词进行分词处理,基于知网计算查询词与候选词的相似度,最终得到查询词与候选词的相关度,相关度满足条件的候选词即为推荐词。
2基于日志和知网的查询推荐算法
2.1基于双向图的相似度计算
查询日志的丰富与否直接影响候选查询集合的质量,因此要获得较好推荐的效果必须有丰富的查询日志。这里我们采用搜狗搜索引擎公开的查询日志库。日志的基本格式如表1:表1查询日志基本格式
如表1所示,每一条检索记录由访问时间(t),用户ID(u),查询词(q),用户点击的URL(l),该URL在返回结果中的排名(r)和该URL点击的顺序组成(o)。因此,一条检索记录可由〈t,u,q,l,r,o〉表示。在这里我们只考虑查询词和用户点击的URL两个因素,利用〈q,l〉构造查询词和点击URL的双向图。其中,查询词集合Q={q1,q2…qn}表示日志中出现过的查询词的集合,URL集合L={l1,l2…ln}表示日志中用户点击过的URL的集合。查询词结点qi到URL结点urlj的边eij由某一查询词节点出发到某一URL节点结束,表示用户输入该查询进行检索并在返回的结果中点击了相应的URL。边的权
您可能关注的文档
- 基于MOODLE网络教学方案设计和实践.doc
- 基于moodle平台在线课程设计探究.doc
- 基于MOODLE平台促进教师技术应用能力成长有效探索.doc
- 基于MR数据LTE网络射频精细优化方法探究.doc
- 基于MapInfo开采沉陷预计研究系统.doc
- 基于MSP430单片机CCD相机调光电控系统设计.doc
- 基于MFC 计算机集成技术开发原理.doc
- 基于MSP430单片机光电跟踪伺服系统探究.doc
- 基于MSP430单片机智能小车寻迹模块探究.doc
- 基于MLX90615与STM32多点红外温度测量系统设计.doc
- 2026年辅警招聘考试试题库100道及参考答案【培优a卷】.docx
- 2026年辅警招聘考试试题库100道及参考答案【完整版】.docx
- 2026年辅警招聘考试试题库100道【预热题】.docx
- 2026年辅警招聘考试试题库100道【网校专用】.docx
- 智能驾驶行业年终技术总结【PPT文档】.pptx
- 2026年辅警招聘考试试题库100道及参考答案【轻巧夺冠】.docx
- 2026年辅警招聘考试试题库100道【模拟题】.docx
- 2026年辅警招聘考试试题库100道【满分必刷】.docx
- 智能电网对可再生能源并网的适应性与调控能力研究.docx
- 2026年辅警招聘考试试题库100道【轻巧夺冠】.docx
最近下载
- 地铁车站毕业设计分析.doc VIP
- 郑州科技学院《高等数学A》2025-2026学年期末考试试卷(A)卷.docx VIP
- 2025年民主生活会100条核心素材.pdf VIP
- 年产 5300 吨发泡塑料项目-环评报告.pdf VIP
- FDA--关于IND申办方在药物开发期间如何与FDA沟通的最佳实践--2015年12月发布.pdf VIP
- 【车站主体结构配筋计算案例5700字】.docx VIP
- (正式版)DB12∕T 598.9-2015 《天津市建设项目用地控制指标 第9部分:非营利性公共文化设施项目 》.pdf VIP
- 2023年泉州师范学院计算机科学与技术专业《计算机网络》科目期末试卷B(有答案).docx VIP
- 中医护理八纲辨证施护(医学技术).pptx VIP
- 中医护理八纲辨证施护演示文稿.ppt VIP
原创力文档


文档评论(0)