解构电商、O2O:探秘搜索系统的“简历”.docVIP

  • 2
  • 0
  • 约3.21千字
  • 约 10页
  • 2018-07-09 发布于江苏
  • 举报

解构电商、O2O:探秘搜索系统的“简历”.doc

解构电商、O2O:探秘搜索系统的“简历”

解构电商、O2O:探秘搜索系统的“简历”  之前的文章探讨过用户端背后系统的逻辑和结构情况,后续我会考虑逐步解构每个相关系统的情况。今天跟大家聊一聊搜索系统,搜索系统在所有电商系统里面复杂度和难度是可以排的上前列的。关于算法方面介绍的文章很多,这里不做赘述,只解构下搜索系统的基本逻辑和实现。对于产品来说未免沟通时“露怯”,了解搜索系统的基本知识和结构是有必要的。      搜索系统的“基本介绍”   搜索系统,顾名思义提供大数据查找筛选的系统功能。在电商和O2O领域作为一个主要的流量入口起到了至关重要的作用。   “基本介绍”:指标   对于搜索来说,主要的指标为准确率和召回率。我们以下图为例解释下什么叫做准确率和召回率。   图中整体的部分为所有商品数据的全集,其中包括不相关和相关的内容。      准确率:搜索结果中相关内容的比例,即图中A的部分   召回率:搜索结果占整体内容的比例,即A+B   由此我们可以看出,最完美的结果是A足够大且B足够小,但实际实现中会发现两个指标是相反的(召回率越高准确率会越低)。需要通过规则来平衡这块部分。   “基本介绍”:基础结构   搜索系统主要的组成部分有几块:   切词逻辑   词库   基础信息   加权规则   排序展示逻辑   整体流程如下      名词解释:   query:是查询的意思,这里指用户在搜索框输入的内容。   切词:又叫分词,是根据词库/词典将一段文本进行切分以便机器识别的过程。   词库:指用于切词的词库。   加权:将检索结果集按照一定的维度、规则进行打分就叫做加权。   索引:商品信息存储时需要建立索引,索引作为每个商品的标识方便在大数据量的情况下快速查找筛选。   “基本介绍”:应用场景   搜索的应用一般有两种:全文检索和suggest。其中suggest的规则比全文检索要简单一些。服务上由于suggest一般支持模糊查询的情况,所以要考虑服务上是否要独立还是公用一套。   搜索系统的“工作履历”:流程解构   切词/词库   切词,又叫分词。用于将用户输入的无结构化字符变成机器可识别的词组。市面上有很多成熟的切词组件。切词逻辑有很多种,根据字符、概率等,电商和O2O一般使用字符串切词的方式处理。关于切词的方法最基础的有最大正相匹配、最大逆向匹配、双向匹配等,具体的内容可以百度查询。切词工具根据词库中的词典进行切分,一般开源的切词工具都有默认的词库和自定义词库两种情况。用户可通过添加自定义词库来完善补充。   这里面需要强调的是切词时候的过滤,尤其生鲜类非标品情况下特别需要注意。   单字词、助词之类的是否要过滤掉。如米、面、油等   别名情况的处理,尤其是生鲜类。比如在北京叫油菜,在上海叫上海青,在重庆叫漂儿白   检索结果集   根据切出的词语进行匹配,匹配到的商品信息集合为检索结果集。结果集需要做检索、过滤、标记三个步骤。   检索   检索项包括但不限于:   商品名称   商品标题、副标题   商品描述   商品参数、规格   商品品牌(生鲜副食品类尤为重要,比如五得利面粉、鹏程五花肉)   商品品类(一级类、二级类)   别名关联商品   促销类型   成熟的电商系统不仅仅实现用户的基本商品检索,还会根据query进行意图分析来进行query转换。以生鲜电商举例,当用户搜索“猪肉”时,用户希望获得的不是含有猪肉词语的商品,而是猪肉的各个部位、猪肉级别等。这时应该转化为后臀尖、前臀尖、里脊,一级白条等词语进行检索,而不是匹配猪肉。意图分析主要有两个方面   行为模式分析   用户画像分类   过滤   获取的结果集需要经过去重、过滤的处理。此部分行为可以在加权打分后进行处理,也可以安排在初选结果后处理。   同一个商品被多个词语命中需要去重   现实中的电商搜索可能会根据不同的场景构建所谓的“小搜索”,如按照类目、按照品类、按照定制化场景等。所以针对不同的搜索场景可能会有单独的过滤去重条件,也可以在构建数据的时候使用不同的库进行处理。   O2O场景需要按照一定区域概念(城市、商圈等)进行过滤   售罄商品需要过滤   下线商品需要过滤   标记   在检索完成后需要对数据进行标记,以便后续做加权时使用。此步也可以在做加权处理的时候同步进行。   加权   加权的目的是为了根据模型确定结果集各个商品的排序优先级。加权的维度有很多,根据不同的场景考虑也会有所区别。   加权因子主要分为几个维度:   相关度   商业化因素   个性化因素   人为因素   数据模型统计   相关度   这里指的是分词的相关度。包括文本匹配、词间距、是否是中心词、品牌词等。中心词的概念是是否命中了核心的词语,中心词和品牌词也需要有对应的词库进行维护更新。词间

文档评论(0)

1亿VIP精品文档

相关文档