阿里云-开放搜索服务最佳实践.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
开放搜索 最佳实践 开放搜索 / 最佳实践 最佳实践 功能篇 分词、匹配、相关性、排序表达式 针对目前若干用户遇到的搜索结果与预期不符合的问题进行统一详细说明,并以此为话题展开说明下 opensearch 在搜索效果方面的功能和后续一些工作方向。 首先,对于搜索来讲,最常见的有两种做法: 1. 数据库的 like 查询,可以理解为简单的包含关系; 2. 百度、 google 等搜索引擎,涉及到分词,将查询词根据语义切分成若干词组 term (这个是搜索引擎 重难点之一),通过 term 组合匹配给相应文档进行打分,根据分值排序,并最终返回给用户。 opensearch 采用的方式与上述搜索引擎做法基本一致。那这里就有三部分内容会影响搜索效果: 1,分词方式 ;2 ,匹配方式; 3 ,相关性算分。 我们来分别说下这三部分在 opensearch 上的行为和表现。 分词方式 原理 分词会在两个地方使用: 1. 索引构建时:接收到用户推送文档后,会根据用户定义的应用结构,取出其中为 TEXT、 SWS_TEXT字段进行分词,将对应文档内容分成若干 term (如 浙江大学 拆分成 2个 term : 浙江 和 大学 ),并针对每个索引字段配置(可搜索的索引字段)构建 term 到文档 doc 的倒排链表,用于快 速召回使用; 2. 查询时:将查询词进行分词,按照切完后的 term 查找倒排链,从而找到(召回)包含该 term 的文档 。 由此可见,这两部分的分词方式必须一致,否则会出现对应文档无法召回的情况。 接下来,我们详细说明下各个字段的展现效果及适用场景,供大家参考。 1 开放搜索 / 最佳实践 STRING 不分词,适合一些需要精确匹配或者只展示不搜索的场景,如标签、关键词、 url 等。 如文档字段内容为 菊花茶 ,则只有搜索 菊花茶 的情况下可以召回。 TEXT、MWS_TEXT 按照检索单元做分词,适合有语义的中文搜索场景,如标题、文本等, MWS_TEXT是TEXT的扩展,会召回更多 的内容,建议使用 MWS_TEXT。 如文档字段内容为 菊花茶 ,则搜索 菊花茶 、 菊花 、 茶 、 花茶 的情况下可以召回。 SWS_TEXT 按照单字 / 单词分词,适合非语义的中文搜索场景,如小说作者名称、店铺名等; 如文档字段内容为 菊花茶 ,则搜索 菊花茶 、 菊花 、 茶 、 花茶 、 菊 、 花 、 菊茶 的情况下可以召回。 SHORT_TEXT 短文本模糊搜索,支持拼音搜索、数字的前后缀搜索、单字或者单字母搜索。最多支持 100个字节字段长度 ,更多介绍及注意事项参见 模糊搜索使用说明 如文档字段内容为 菊花茶 ,则搜索 菊花茶 、 菊花 、 茶 、 花茶 、 菊 、 花 、 菊茶 、ju 、juhua 、juhuacha 、 j 、jh 、jhc 等情况下可以召回。 如文档字段内容为手机号 ,则通过 ^138 来搜索以 138 开头的手机号,通过 5678$ 搜索以 5678 结尾的手 机号; 如文档字段内容为 OpenSearch ,则通过单个字母或者组合都可以检索到。 ENG_TEXT 英文分词,适合于英文搜索场景,对于分词后的每个英文单词默认会做去词根、单复数转化。 如文档字段内容为 英文分词器 english analyzer ,则搜索 英文分词器 、english 、analyz 、anal

文档评论(0)

147****2695 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档