基于搜索引擎的查询推荐算法研究.docx

下载文档

0
0
约8.19千字
约 8页
2024-09-10 发布于湖北
举报
版权申诉
保障服务

基于搜索引擎的查询推荐算法研究.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于搜索引擎的查询推荐算法研究

王晓迪

摘要：传统的基于搜索日志的查询推荐方法无法快速有效处理和存储海量日志信息，无法抓住用户兴趣特点。为此，融合网络爬虫、数据挖掘和自然语言处理技术等多种方法，在原有查询日志数据基础上进一步爬取和挖掘，基于腾讯AI意图分析和自然语言处理技术，提出一种新的推荐词生成方法。实验结果表明，该方法与单纯基于查询意图的推荐和单纯基于相似度计算与聚类的推荐相比，用户查询准确性提升3%，能更加高效准确地为用户提供快速检索服务，提升了搜索引擎的用户体验。

关键词：搜索引擎;查询意图;数据挖掘;爬虫;查询推荐

DOI：10.11907/rjdk.201290

：TP312：A：1672-7800（2020）010-0076-04

Abstract：Inordertoimprovethetraditionalsearchlog-basedqueryrecommendationmethodwhichcannotdealwithandstoremassiveloginformationquicklyandeffectively，andcannotgraspthecharacteristicsofusersinterests，thispapercombinesseveralmethodssuchaswebcrawler，dataminingandnaturallanguageprocessingtechnology，furthercrawlingandminingonthebasisoftheoriginalquerylogdata.BasedonTencentAIintentionanalysisandnaturallanguageprocessingtechnology，anewmethodofgeneratingrecommendationwordsisproposed.Theexperimentalresultsshowthatthismethodismoreaccurateandefficientthantherecommendationbasedonqueryintentionandtherecommendationbasedonsimilaritycalculationandclustering.Bythemethodproposedinthispaper，thequeryaccuracyofusersisimprovedby3%，whichsignificantlyimprovestheuserexperienceofsearchengines.

KeyWords：searchengine;queryintent;datamining;crawler;queryrecommendation

0引言

搜索引擎是获取信息的重要工具。据第44次《中国互联网络发展统计报告》，截至2019年6月我国搜索引擎用户规模达6.95亿，较2018年底增加1338万;搜索引擎使用率为81.3%，较2018年底下降0.9个百分点[1]。为满足用户搜索信息需求，搜索引擎普遍开始使用查询推荐功能帮助用户构造更加完善的查詢词，比如，Google检索结果页面中的“xx的相关搜索”，百度检索结果页面中的“相关搜索”，查询推荐功能方便用户更好地查询。目前查询推荐功能研究大多基于用户搜索日志进行，关键是要解决高效分析处理与存储海量日志信息以及准确抓住用户兴趣特点这两个要点。基于以上分析，本文融合网络爬虫、数据挖掘和自然语言处理等多种方法，提出一种新的查询推荐方法。实验结果表明，该方法能提高用户查询效率和准确性，提升搜索引擎的用户体验。

1相关工作

查询推荐是一种实现用户与搜索引擎进行交互的检索词理解技术[2]，其主要思想是通过对用户提交的查询词进行相似度计算，把与用户提交的查询词相关的检索词推荐给用户。当用户对搜索引擎返回的结果不满意且推荐查询中有更能表达其意思的检索词时，用户会选择重新检索，有助于为用户提供更高质量的检索服务。张晓娟[2]首先通过用户提交的历史查询构建表征用户兴趣的个性化喜好，然后利用查询词嵌入技术得到该查询词上下文信息的词向量，最后通过词向量进一步构建代表用户喜好的向量，从而基于词向量与用户喜好的向量生成候选推荐词;Fonseca等[3]利用基于关联规则方式在用户搜索日志中挖掘相关性查