一文带你了解搜索功能设计 .docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一文带你了解搜索功能设计 从PC时代到移动互联网时代,搜索满足了人们从海量信息中找到有价值信息的需求,进一步提高了用户的信息消费能力和获取信息效率。笔者曾做过一个比较简单的APP站内搜索功能优化,查阅了许多搜索功能设计资料。 于是乎便有了这篇搜索文章,我将从搜索最主要的三步理解用户搜索意图、召回内容、排序内容来给大家讲讲搜索功能设计的那些事。 大纲如下: 搜索是为了解决什么 如何设计站内搜索 理解用户搜索意图 召回内容 排序内容 query分析 写在最后 一、搜索是为了解决什么 搜索引擎在PC时代崛起,谷歌、百度通过输入框和网页搜索结果来满足网民的信息消费,帮助网民打破各种信息不对称。谷歌、百度的搜索信息是相对开放的,用户能在上面搜到大部分的内容。 随着移动互联网的普及,许多APP开始构建自己的内容生态,搭建自身的站内搜索。谷歌、百度等搜索引擎时从搜索到内容,这些站内搜索是从内容到搜索,基于自家的内容生态来搭建搜索功能。 对于用户来说,用户搜索内容可分为几种场景: 有明确想搜的内容并记得所有关键词 有明确想搜的内容但记不清所有关键词 无明确想搜的内容 所以对于用户来说,搜索是为了解决用户明确或者不明确的搜索需求,让用户能够搜到想搜的内容。从更深一层来说,搜索提高了用户获取信息、内容的效率。 二、如何设计站内搜索 站内搜索对于搜索系统来说,整个流程可以分为三步,分别是: 理解用户搜索意图 召回内容 排序内容 整个流程里,第一步理解用户搜索意图会涉及到query预处理、分词技术等技术,第二步召回相关内容一般用到的是索引倒序的技术,召回有相关性的内容,这里会涉及到倒排索引和匹配度问题。第三步排序内容目前常见的有排序策略、机器学习。 产品经理需要做的主要是画搜索原型图和制定召回相关性策略和排序策略,其他的主要是靠技术或者第三方去实现。 三、理解用户搜索意图 用户搜索是整个搜索系统的上游,只有理解了用户的搜索意图,搜索展现的结果才会是用户想要的。如果对搜索意图理解错了,不论我们的召回率和排序策略多么牛,对用户来说这次的搜索其实是失败的。 那么怎么理解用户的搜索意图呢?用户输入的是关键词,所以我们来分析下怎么理解关键词。(ps:这篇文章只讨论搜索方式为输入文字的方式,不讨论语音输入、图片、视频输入等方式) 3.1 query预处理 3.1.1 拼音转文字 当用户在搜索框中输入拼音时,可以识别出文字。这种搜索场景还是蛮常见的,比如用户想在微信读书中搜索“俞军产品方法论”,那么当用户在搜索框中输入”yujunchnapinfangfalun”时能理解出“俞军产品方法论”,并给出搜索结果。 3.1.2 繁体转简体 对于一些有繁体输入习惯的用户,需要对用户输入的繁体字进行转化,可以识别出其简体。具体方案是通过词表将繁体query转化为简体query,后续系统在将简体query进行召回。 3.1.3 自动纠错 当用户在搜索框中输入“于军”,其实用户想搜的是“俞军”。系统可以对这个query进行判断,判断有没有在索引库命中文档,如果没有,则需要对其进行预处理的自动纠错。 自动纠错可以通过维护纠错表的方式实现。在纠错表里通过映射原词给纠错后的词,从而实现query改写。 目前自动纠错在客户端显示上也有几种不同的形式: 强纠错:直接改写query,给用户的提示一般为“已显示XXX的搜索结果” 中纠错:直接改写query,给用户的提示一般为“已显示XXX的搜索结果,仍然搜索:X原词XX” 弱纠错:不改写query,只是给用户提示“你是不是要搜索:XXX” 3.1.4 同义词转换 同义词转换从字面上理解就是能够对query进行同义词的理解。比如当用户输入“首都机场”,可以理解为“北京机场”,用户输入“国宝”,可以理解为“大熊猫”。 同义词转换技术对于query意图理解非常重要,很多时候用户不能很好地输出自己想搜索的内容,如果没有同义词转换技术进一步处理,那么召回的内容很有可能并不是用户想要的。 同义词转换技术一般是通过获取用户的session日志来分析相关的query。 举个例子,比如一个用户输入”国宝“后,查询出来的结果不是想要的,从而没有点击行为。该用户接着输入“大熊猫”,得到了想要的搜索结果并点击了内容。那么“国宝”和”大熊猫“之间就建立了联系。 当然,”国宝“也有可能和”国家宝藏”、“国家文物”等建立联系,基于统计后,可以计算出“国宝”与别的词的联系权重。在召回相关性内容时,对关键词和同义词进行召回,并赋予不同的权重,权重分值可以放在相关性分数上。 3.2 分词技术 以微信读书为例子,目前微信读书的搜索结果内容为书、公众号文章、公众号。比如用户在微信读书上输入“无限的游戏”,用户的意图是想查找一本名为“有限与无限的游戏”的书,不过记错为“无限的游戏

文档评论(0)

自由如风 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档