- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
企业级搜索引擎产品-深度搜技术介绍精选
上海深度网络(2013-06)
1
信息膨胀与搜索技术
目前全文搜索可选择方案以及问题
深度搜索技术的特点和优势
深度搜索典型使用案例
公司介绍
2
我有100年以来出版内容的电子数据
我有50年以来所有报道的新闻电子稿
我有20年来所有发帖内容,而且每天以数万
条增长
馆藏数百万的书都已经可以在线阅读了
我有全世界所有工业设备的详细资料
我有十年来的阅读材料,样卷,教材…
我的笔记本,可以存放一个小型图书馆数据
3
存储不是问题,但只有搜索,才能将从数据中找到有
用的信息
只要是提供信息服务,就注定需要有提供对信息检索
的方法
海量数据 有用信息
搜索
4
传统的数据库:
开源搜索引擎:
商业搜索引擎:
5
传统数据库具有众多优点:
产品数量众多,可选择余地很大。
成熟, 可靠,稳定。
具有大量相关的开发人员,易于开发。
具有丰富的相关资料。
但…尽管可以达到功能上要求,关系
数据库并不是为了全文搜索准备的。
约多的数据量和少量并发就可以耗尽
系统资源,这样做无异于南辕北撤。
6
以LUCENE 为代表的全文搜索引擎
Apache 基金会项目
为全文搜索目的设计的倒排的索引格式
多种方式的接口
开源
真正全文搜索的系统,
现在生活很幸福?
7
我有大的并发请求。
我有海量的数据。
我需要良好的可伸缩性。
我需要可定制高质量的结果排序。
我不断的有数据要更新。
坏了一个硬件不能终止服务。
和LUCENE的日子
还幸福吗?
8
上周就更新了,怎么还不能找到?
这篇文章一点都不相关怎么排最前面?
昨天有的,今天怎么被删除了?
我的数据并不在网站上,该如何搜索?
什么也不用做,
但什么也不知道。
9
政府部门 企业应用 教育 各行业应用 … …
应用程序接口 用户界面接口
多语言处理 多文档格式处理 实时自动重复检测理
实时更新 搜索 自动主题词 分类 相似关联
信息存储
原创力文档


文档评论(0)