IBM信息搜索技术白皮不书(Omnifind).docVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
OmniFind 技术白皮书 信息搜索需求概述 1 IBM信息搜索方案--OmniFind: 2 体系架构 3 安全性控制 6 系统管理 7 应用特性 7 与Portal整合 8 应用案例 8 信息搜索需求概述 随着企业信息系统地建立和发展,产生了大量的业务信息。其中不仅有数据库中业务交易信息、客户的资料等数据库中存储的结构化信息,而且还有大量产品资料、服务记录、往来邮件、事件处理说明、规章制度手册、工作记录报告等非结构化的文本信息内容。这些信息部分可能存储在数据库中,大量的则保存在文件服务器、邮件系统、网站的网页、内容管理服务器、流程引擎等中。如何从企业纷繁复杂的信息资源中,找到用户所需要的内容是信息管理的一个巨大挑战。 以互联网为例,对于浩如烟海的咨询,其中绝大我们所需的信息, 我们并不知道其所在的位置,今天我们所采用的最常用也是最有效的手段是使用Google、Yahoo一类的搜索引擎,动态搜索相关信息。在企业内部也面临同样的情况,大量企业的信息资源分散在各处,以不同的格式存在、按不同的分类组织,受不同的安全机制控制。而最终使用其内容的用户不可能去掌握这些复杂性,希望能够通过输入简单的关键词的组合,由系统自动从各类信息资源中搜索到相应的内容。从而提供对信息访问的最简单、最直接的途径。应而企业信息搜索技术应运而生。 但是相对于互联网的简单信息搜索,在企业内部实现信息搜索有更大的复杂性。主要体现在信息分布的多样性、信息访问控制的安全性、及与业务处理的集成性等多个方面。与互联网不同,在企业内部信息不仅分布在网站上,大量有价值的信息是存储在文件系统、内容资料库、数据库及邮件系统中。格式可能是文本、XML、Word文档、PDF及PPT 文件等。这些信息可能有不同的安全访问级别、对不同的用户需控制其访问的信息内容,往往都要求做到文档级的安全性管理。另外企业内部信息搜索应用的目的性更强,往往还要求搜索的结果能够与企业现有的业务处理进行紧密地关联,使搜索能够为更灵活的业务处理流程服务,如减少寻找客户资料的时间、提供客户网上自助服务的快捷查询手段等。当然对自然语言的处理能力是两者都必须具有的功能。从而在传统的基于流程的信息服务之外,信息搜索正逐渐成为一种更为普及更为通用的信息访问接入手段。 企业搜索不同于单纯的数据库查询,查询适合于结构化数据,而搜索则更适合于非结构化技术。企业搜索是用于从文件系统、内容存储库、数据库、协作系统、应用程序和公司内部网中存储的大量企业信息中查找最相关的信息。企业搜索必须整合文本搜索和传统的数据库查询技术使企业具备从数据库记录等结构性数据和文件系统等非结构性数据中获得搜索结果的能力。使用搜索技术,企业无需局限于预先定义的查询方式。 基于企业内容的搜索和基于 Internet 的内容搜索之间存在着很大的区别。企业搜索中,不同的内容源需要不同的技术来确定其文档相关性,同时必须使用不同的安全和访问模型,而且还要满足高质量搜索的不同用户需求。但是,即使是有些最成功的 Web 搜索技术(如网页分级)还没有实现针对企业环境的优化,对企业环境中的文档还没有像 Internet 上的文档那样相互链接起来。这就是为什么在企业中找到正确相关的信息是如此的费时费力。 面对这种现状,IBM发布了OmniFind,它作为IBM总体信息整合平台的一部分实现了企业搜索的功能。OmniFind具有查询不同类型的数据源和立即返回结果的能力,这将有助于企业更好地洞察它们的运营情况,并更好地利用企业现有的数据资源,快速准确地定位企业中最佳的相关内容。 IBM信息搜索方案--OmniFind: IBM满足企业级信息搜索需求的主要产品是WebSphere Information Integrator (WebSphere II) OmniFind Edition。 它属于Websphere II家族产品的一个重要部分,以下简称Omnifind。 体系架构 Omnifind提供了一个企业级搜索中间件的体系架构;该架构提供多种爬行器(crawler)能够快速访问企业的各类业务信息,爬行器返回的信息通过分词处理实现按自然语言的分词,然后对分词后的信息建立专用索引,基于此索引在前端提供强大的搜索引擎,实现对各类信息的高质量快速搜索,并提供相应的API与用户的各类应用集成。通过此架构满足企业级的信息搜索需求。其架构如下图所示: OmniFind设计的目标是无论数据在那里、以何种形式存在,能够对其快速地访问,通过准确分词建立索引,提供完整的管理和安全控制机制,实现次秒级高质量的搜索查询。 对应于上述的搜索处理过程,OmniFind的体系架构中设计了三个主要组件:Crawler、索引服务器和搜索服务器,如图所示: 爬行器(Craw

文档评论(0)

zzabc001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档