《电商搜索引擎的架构设计和性能优化.docxVIP

下载本文档

2
0
约3.75千字
约 8页
2017-01-16 发布于北京
举报
版权申诉

《电商搜索引擎的架构设计和性能优化.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《电商搜索引擎的架构设计和性能优化

电商搜索引擎的特点众所周知，标准的搜索引擎主要分成三个大的部分，第一步是爬虫系统，第二步是数据分析，第三步才是检索结果。首先，电商的搜索引擎并没有爬虫系统，因为所有的数据都是结构化的，一般都是微软的数据库或者 Oracle 的数据库，所以不用像百度一样用「爬虫」去不断去别的网站找内容，当然，电商其实也有自己的「爬虫」系统，一般都是抓取友商的价格，再对自己进行调整。第二点，就是电商搜索引擎的过滤功能其实比搜索功能要常用。甚至大于搜索本身。什么是过滤功能？一般我们网站买东西的时候，搜了一个关健词，比如尿不湿，然后所有相关品牌或者其他分类的选择就会呈现在我们面前。对百度而言，搜什么词就是什么词，如果是新闻的话，可能在时间上会有一个过滤的选项。第三点，电商搜索引擎支持各种维度的排序，包括支持好评、销量、评论、价格等属性的排序。而且对数据的实时性的要求非常高。对一般的搜索引擎，只有非常重要的网站，比如一些重量级的门户网站，百度的收录是非常快的，但是对那些流量很小的网站，可能一个月才会爬一次。电商搜索对数据的实时性要求主要体现在价格和库存两个方面。电商搜索引擎另一个特点就是不能丢品，比如我们在淘宝、天猫开了个店铺，然后好不容易搞了一次活动，但是却搜不到了，这是无法忍受的。除此之外，电商搜索引擎与推荐系统和广告系统是相互融合的，因为搜素引擎对流量的贡献是最大的，所以大家都希望把广告系统能跟其融合。当然，还有一点非常重要，就是要保证绝对的高可用，而且不能宕机。电商搜索引擎的架构因为电商搜索引跟一般的搜索引擎区别很大，所以在架构的设计上也独具特色。首先，搜索引擎的实现方式有很多种，有谷歌、百度、搜狗这种非常大的公司，也有京东、淘宝、当当这样的电商搜索引擎，很多中小型的电商可能更喜欢用一个开源的搜索引擎。所以总的来说，主要包括以下这几种方式：第一种是「Lucene+自己封装」，只用来做检索，然后封装，后面所有的 ES，这两个是完整的解决方案，而且包括索引所有的东西，只需要部署好业务逻辑，然后查找结果就可以了。第二种就是Solr，这是一个高性能，采用 Java5 开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。第三种是ElasticSearch，这是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web 接口。Elasticsearch是用 Java 开发的，并作为 Apache 许可条款下的开放源码发布，目前使用的也非常多。这里提一下，当当的搜索引擎是自己实现的，。现在，新兴的互联网公司大部分都是使用第一种或者第二种，数据量比较大的一般采用第三种。电商搜索引擎标配模块接下来我想讲一下，如果我们自己做一个搜索引擎的话需要实现哪些功能（上图是电商搜索引擎的标准模块），其实不止是电商搜索引擎，除了通搜的搜索引擎，其他的搜索引擎也是使用这样的标配。对检索模块而言，首先是对用户的意图进行分析，根据用户的搜索词来进行纯算法的实现。比如用户的搜索词是「黑包包」，其实用户的本意就是买一个黑色的包，但是这个「包」可以跟别的词组合在一起，甚至在搜索结果中会出现「包子」。所以，这就需要 query 分析系统来做，告诉检索系统，你需要主要在服装鞋帽中的分类去找，而不是生鲜食品类。设计到技术层面，当当网使用的是 C++。如果构建一个性能好的系统，一些老一点的公司，大家都是在使用 C++ 或者是 C 语言。不止是当当网，其实很多公司都是使用的 C 或者 C++ 实现的搜索引擎。数据更新模块第二个模块就是数据更新模块，该模块负责生成索引。而数据中心模块主要做的事情，就是将原始的结构化数据，变成一个可供检索系统使用的搜索数据库。当然，数据更新模块和检索模块是分开还是合并呢？其实从本质上讲，都是一堆代码，完全可以写在一个进程里。当然，也可以分开，通过网络往外输入，各自都有道理。第一种是简单粗暴型的，如果是普通电商，像生鲜电商，数据量不大，实时性、季节性很强，就可以把两个系统用一个进程来完成。但是如果到了百万、千万甚至上亿级别的话，就不可能部在一台机器上了。?上图就是当两个系统合并在一起的时候，红色部分就是检索系统，黄色部分是上游产生数据的系统，如果是淘宝的话，对接就是淘宝的商户，当当网对接是市场部的人员，他们将数据录入系统，推到数据库，然后向下进行传送，最终建立一个索引。上图中的蓝色部分就是业务逻辑，因为电商的搜索引擎业务需求量非常高，尤其是现在大家都喜欢用手机进行购物，像手机专享价就是一个新的业务，这也意味着需要一个专用的模块来处理这些商用的逻辑。此外，就是用户行为的