- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网站网页
数据库
其他存储系统
邮件文件
网盘文件
数据采集
数据处理
文档解析
文本数据提取
分词算法
分布式索引存储
智能提示
多字段组合搜索
高亮显示
渐进式检索
模糊检索
运营管理
数据统计分析
推荐管理
结果干预管理
分布式架构
模块化设计
数据可扩展
服务能力可伸缩
可运营
高安全
高可用
词库管理
系统支撑
拼音搜索
同义词搜索
索引压缩、合并
总体架构
数据采集服务
读取源数据
更新索引
数据更新通知消息
数据更新通知消息
获取消息
模块功能介绍—数据采集模块
消息处理器
消息队列
全文检索系统
应用系统
应用系统
数据源存储系统
消息处理器
更新索引
获取消息
支持两种模式:
1.主动抓取模式(网络爬虫)
2.通知式异步消息队列模式
异步消息队列接受应用层的数据更新通知消息;
消息处理器获取异步消息队列中的消息,并从数据源存储系统中获取源数据,解析文档,并提取需要建立检索索引的元数据;
把提取的元数据发给全文检索系统更新索引;
模块功能介绍—数据处理模块
索引生成器
分词器
过滤器
存储分词结果
索引存储
docment
去停词库
提取检索字段
敏感词库
输入文档
模块功能介绍—信息检索模块
索引检索器
语法分析器
分词算法
权重计算
相似度计算
打分算法
读取分词
查询结果
过滤器
筛选器
索引存储
Query String
Query
postings
过滤、排序
模块功能介绍—系统管理模块
基础服务层
策略设置
数据上报
系统支撑系统
数据入库
展示
全文检索系统
数据采集系统
Web Portal
统计代理服务
统计数据库
运营管理系统
词典管理
数据采集管理
服务器维护
系统优势
多样化的数据:
系统支持不同的数据来源和种类繁多的数据格式,多样的采集方式和分析方法。
多种采集策略相结合满足用户不同的需求,适用不同的场景:
通知式异步消息队列方式;
网络爬虫方式;
FTP采集;
邮件采集;
网络文件采集等多种采集策略相结合;
强大的文档解析能力
纯文本,xml文件,html文件,MS office文件,PDF文件,音频,视频文件,图片,多媒体文件;
超强短信,彩信,邮件解析能力;
非加密的压缩文件:zip,tar,rar,tar.gz,jar,bzip等;
智能化的检索服务:
系统在全文检索过程中采用相关智能技术以达到迅速、准确、全面定位目标信息。例如采用相关度分析技术,使相关度较高的结果排在结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和错误的信息;构造强大的语义规则库,使系统能够正确地判断与检索词相关的同义词、近似词,帮助用户判断结果的相关度,并进行进一步的查询;支持完善的信息分类体系,对检索结果自动分类或者信息聚类;提供智能化的概念扩展查询等。通过这些技术,能够满足大多数智能化搜索需求。
. 丰富的查询语法
支持布尔型检索(AND,OR, NOT,XOR) 和概率型检索组合;
支持多字段检索;
支持通配符检索,如:xap*;
支持别名检索,如:C#自动转换成C sharp;
支持拼写纠错,如:hella会纠错为hello;
支持同义词搜索;
. 丰富的结果干预
支持对搜索结果排序进行干预;
支持对搜索敏感词进行过滤;
支持对搜索结果进行人工干预,支持推荐内容;
高可用和高性能
系统采用大量的技术来实现搜索和索引写入的高性能:
采用闪存卡存储索引文件
由于普通磁盘磁头寻址时间过长,会造成搜索的延迟,所以系统索引文件采用ssd卡进行存储,加快搜索速度。
索引文件的块压缩
系统会定时对索引文件进行压缩存储和块大小优化,使数据更聚合紧致,减少数据块大小,加快搜索的速度。
索引文件分片
由于单个索引文件过大时,对搜索速度会有所影响,为了加快搜索的速度,系统利用策略规则,将索引文件进行分片,分成多个小的索引文件,以加快搜索速度。
高可用技术:
系统的索引文件采用多个副本的方式进行存储,以此来提高系统的容错性,实现高可用。当个某个节点某个分片损坏或丢失时可以从副本中恢复。另外这样做也可以提高系统的查询效率,系统可根据当前的搜索请求自动的进行负载均衡,访问不同机器上的不同副本。
系统有用多种监控技术,可对系统的实时状态进行有效的反馈,并且可以产生告警信息提示系统管理人员。
谢 谢!
放映结束
感谢各位的批评指导!
让我们共同进步
您可能关注的文档
- 课件四_学前儿童美术欣赏活动的设计与指导.ppt
- 课外阅读小组活动记录表.doc
- 空调原理和基础知识(完整版).ppt
- 矿井综合防灭火专项设计说明书.doc
- 老人防跌倒和居家适老化改造.ppt
- 烙铁焊接工艺培训教程.ppt
- 两个务必是利于不败值得的法宝.doc
- 两器加工工艺和质量控制.ppt
- 论民事诉讼与其他民事纠纷解决机制的衔接.doc
- 论预制装配式建筑发展.doc
- 2025广东南粤银行肇庆分行招聘备考试题及答案解析(精选题).docx
- 2025新疆兵团第十师北屯市第三批引进高层次事业编工作人员4人历年参考题库带答案解析.docx
- 2025年乐山市商业银行社会招聘参考试题及答案解析(精选题).docx
- 2025辽宁大连交通大学招聘高层次人才90人笔试题库附答案解析.docx
- 2025广州银行人才招聘备考题库及答案解析(精选题).docx
- 2026浙江杭州临安农商银行校园招聘参考题库附答案解析.docx
- 2025西藏林芝绿优供销有限公司财务会计招聘1人备考题库附答案解析.docx
- 2026四川银行秋季校园招聘笔试题库带答案解析.docx
- 2025广东佛山市禅城区卫生健康系统招聘事业单位工作人员(第一批)9人备考题库及答案解析(精选题).docx
- 2025湖南长沙市天心区街道社区卫生服务中心、网格中心编外合同制人员招聘22人参考试题附答案解析.docx
原创力文档


文档评论(0)