基于Solr的搜索引擎技术架构.pptx

下载文档 降价啦

7
0
约1.1千字
约 18页
2017-06-12 发布于湖北
举报
版权申诉
保障服务

基于Solr的搜索引擎技术架构.pptx

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于Solr的搜索引擎架构黄海峰我对开源的理解开源什么是开源怎么用好开源开源给我们做项目的启示研究方向搜索技术 Google 百度模式识别关键字搜索语义分析神经网络关键字搜索实现手段 SQL+缓存like方式效率低，费资源无法实现全文检索软件+数据库方式采用分词、索引技术效率高搜索准确，内容可控基于数据库搜索基于spider抓取基于全文索引站内搜索软件系统爬虫方式的页面抓取采用分词、索引技术效率高技术复杂，垃圾信息多搜索引擎原理工作原理中文分词检索服务开源分词系统系统调用搜索引擎通过分词建索引索引服务介绍 Sphinx 支持操作系统：苹果、Windows、Linux 支持数据库：MySQL、SQL Server、Oracle等支持文档、文件检索性能：100万条建索引只需3-4分钟，查询速度在0.x秒（毫秒级）看看的技术架构 Sphinx 存在问题查询速度慢扩展性差资源消耗大灵活性不够简介 Solr Solr是一个独立的企业级搜索应用服务，它是Java语言开发的搜索引擎服务。 Solr 支持多种输出格式（包括 XML/XSLT 和 JSON 格式）。 Solr已经在众多大型的网站中使用，较为成熟和稳定。 Solr和lucene区别 Lucene就是个SDK，需要开发者自己实现主要做两件事： 1.建索引 2.数据检索 Solr是一个有HTTP接口的基于Lucene的查询服务器封装了lucene的接口，增加了新的实现搜索服务器、企业级、管理 Solr 基本特性分布式检索近实时查询灵活性强高亮显示智能提示查询统计标准接口查询速度快查询功能丰富 Solr 中文分词系统 ICTCLAS - 全球最受欢迎的汉语分词系统 HTTPCWS - 基于HTTP协议的开源中文分词系统 SCWS - 简易中文分词系统 MMSEG4J 盘古分词庖丁分词 IKAnalyze - 开源的轻量级中文分词工具包具体介绍地址：/article/31926.htm 构建高可用的搜索引擎（SolrCloud）案例 Solr＋Zookeeper构建分布式搜索 zookeeper是一个为分布式应用提供一致性服务的软件实现功能：集中式配置自动容错查询负载均衡具体介绍地址：/july_2/article/detailsSolrCloud 索引（collection）的逻辑图 SolrCloud Solr和索引对照图 SolrCloud 案例部署图