- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎基本原理及实现技术 ——用户查询意图分析 用户查询意图分析目前是搜索引擎研究的焦点领域。精准了解搜索意图才可能提供满意的搜索服务! 用户搜索行为 查询改写 在使用搜索引擎的时候,查询的关键词与返回的结果,会存在很大的差异性和不确定性,我们会在不断的更改过程中,不断的完善,描述信息,查询改写就是用户逐步澄清搜索需求的一个过程。 查询改写 抽象化改写:将原来的查询进行语议抽象。 原先查询找到的东西太少,通过概念宽泛化增加搜索的召回率,找到更多的内容。 具体化改写:从宽泛的主义概念下进行收窄。改写后的查询更加的具体,可以更加精确地确定查找内容。 同义重构改写:改写前后的查询含义不变。 对原先查询的搜索结果不满意,换了一种同义说法来搜索。 用户扩展词典 扩展词典 计算机价格 联想计算机售价 PC机 计算机 电脑 搜索意图分类 Broader等人将搜索意图分为三类。 导航型搜索——要查找具体的某个网址 如某公司的主页等,其特点是想要去某个网页。 信息型搜索——获取某种信息 如 “美国现任总统是谁”等,其特点是用户想要学到一些新知识。 事务性搜索——完成一个目标明确的任务 如下载MP3、下载软件或者淘宝购物等,其特点是想要在网上做一些事情。 Broader的搜索意图三分法非常有影响力,但过于粗糙。而雅虎的研究人员在此基础上做了细化,将用户搜索意图再次划分。 1、导航类 用户知道要去哪里,但是为了免于输入URL或不知道具体网址,所以用搜索引擎查找 2、信息类又可以细分为如下几种子类型。 直接性:用户想知道关于一个话题某个方面明确的信息,比如“为何星星会发光”、“哪些食物隔夜后不能吃”。 间接型:用户想了解关于某个话题的任意方面的信息,比如粉丝搜索“李宇春”。 建议型:用户希望能够搜索到一些建议、意见或者某方面的指导,比如“如何才能戒烟”。 定位型:用户希望了解在现实生活中哪里可以找到某些产品或服务,比如“买电脑”。 列表型:用户希望找到一批能够满足需求的信息,比如“中关村附近的饭店”。 3、 资源类:这种类型的搜索目的是希望能够从网上获取某种资源,可以细分为以下几种子类型。 下载型:希望从网络某个地方下载想要的产品或者服务,比如“windows7下载”。 娱乐型:用户出于消遣的目的希望获得一些有关信息,比如“电影下载”。 交互型:用户希望使用某个软件或服务提供的结果,用户希望找到一个网站,这个网站上可以查询北京的天气情况。 获取型:用户希望获取一种资源,这种资源的使用场合不限于电脑,比如“折扣券”,用户希望搜到某个产品的折扣券,打印后在现实生活中使用。 分类算法 SVM 决策树 贝叶斯 神经网络 遗传算法 KNN …… 搜索日志挖掘 搜狗提供的用户查询日志格式 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 对搜索日志进行整理,将原始格式的查询日志转换为意义更清晰的中间数据,如:查询会话,点击图及查询图。 查询会话 同一用户在较短时间内发出的连续多个查询,为一个查询会话。 这些会话具有语义相关性。这种语义相关性可以被用来开发相关搜索推荐等具体的搜索应用。 点击图 用户会点击搜索引擎返回结果中和查询相关的某些链接。 将查询和这个查询对应的点击网址联系起来,就构建了点击图。 点击图的一端是查询条件,另一端是网址。边上的权重表示点击次数。 点击图 q1 q2 q4 q3 旅行 雅虎 地图 打折机票 d1 d2 d4 d3 5 10 8 7 6 13 通过点击过的网址,可以挖掘大量语义相关信息。 查询图 用户发出的查询之间是有语义关联的。查询图就是试图构建查询之间相互关系的一种数据表示。 查询图 天安门 北京宾馆 旅游景点 故宫 北京旅游 北京 香山饭店 0.23 0.25 0.07 0.03 0.01 0.15 节点表示用户发出的查询,边上的权重体现了查询之间的语义相关程度 构建查询图 1、用两个查询中重合的单词数目来衡量。 2、如果两个查询属于同一会话,在两者间建立联系 3、若点击图中有共同的点击网址,找语义关联 4、若点击图中两个网址有链接关系,则建立语义关系。 5、若点击图中两个网页的页面内容主题相近,建立语义关系。 相关搜索 相关搜索也叫查询推荐。即:用户输入某个查询后,搜索引擎向用户推荐与用户输入查询语义相关的其他查询。 可以帮助用户更为明确自己的查询意图,改善用户体验。 如何计算相关查询呢? 基于查询会话的方法 基于点击图的方法 基于查询会话的方法 每个查询会话包含了某个固定用户在较短时间内连续发出的查询流,同一查询会话内的查询之间存在语义联系。 利用关联规则挖掘等各种数据挖掘方法来对查询会话进行统计处理,找出关联。 缺点:查询会话的准确切割有一
您可能关注的文档
最近下载
- 提高择期手术患者术前准备完善率医院护理品管圈QCC成果汇报PPT(完整版本易修改).pptx VIP
- B-65522CM_01-αi-B βi-B 伺服电机规格.pdf VIP
- 采购部员工年终总结.pptx VIP
- 《老年人能力评估从业人员培训指南》.pdf
- 二年级道德与法治上册-全册教案-新人教版.pdf VIP
- 投资项目风险因素识别核对表.docx
- CAAC无人机理论考试题库(2025修订版)含答案.docx VIP
- DB11∕T 512-2024 建筑装饰工程石材应用技术规程.pdf
- Unit1 单元整体教学设计-小学英语五年级上册(人教PEP版).docx VIP
- CAAC无人机理论考试题库(2025修订版)含答案.docx VIP
文档评论(0)