全文检索系统整体方案设计.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

实用标准文案

实用标准文案

精彩文档

精彩文档

全文检索系统方案

全文检索需求

系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检索、跨库检索等多种检索途径;

支持字索引和词索引;

检索条件具有完整的关键词布尔逻辑运算AND、OR、NOT能力,支持复合式布尔逻辑运算查询,并且可以配合多组左括号(与右括号)作关键词查询优先级的设置;

提供用户多次递进查询的功能,用户可根据上一次查询关键词得到的检索结果集,增加查询关键词与缩小搜索日期范围,而得到更准确的查询结果集;

能够支持对以上文件中的中文(简体/繁体)、英文、日语、韩语内容实现关键字检索;

支持对Word、TXT、PDF等多种主流文档格式全文检索,并提供开发接口以支持特殊文档格式的全文检索;

在数据源数据发生更新时,能在索引库中反映出来,保证搜索的信息为最新,即支持增量索引机制;

用户可自行设定时间,让系统自动定时进行更新索引;

对于百万级记录数的搜索以及结合模糊搜索等查询方式,搜索时间不得超过10秒;

提供跨数据源、数据格式的搜索;

同过相关性搜索,能够把和搜索条件相关联的信息搜索出来;

不但能够对图片的描述信息进行搜索,还能对图片内容的检索;

提供COM与SOAP的搜索接口(Interface)可让其它应用程序或查询网页能够提供用户查询入口和查询结果的呈现,用户可通过应用程序或浏览器访问全文检索服务器,提交查询条件,可在浏览器中查看检索结果;

查询结果集中应包含结果集总数、命中的结果文件的完整路径,以及符合关键词出现的内容片断;

在搜索结果集中,关键词应被标识出来,用特殊的字体及颜色和其他文字进行区别,查询者可在查询结果片断中一目了然的看到关键词出现的位置;

查询结果可按照关键词命中次数,命中结果文件的修改时间,大小等条件进行排序;

可提供用户对检索命中结果文件在索引库中进行标记,从而再次检索时,不在标记过的文件中进行查询;

全文检索系统总体方案

系统将采用以下全文检索流程。

FuzzySearchSynonymPhraseWild-Card

Multi-fieldFilter

IRMS

TermExtractTermIndex

Folder/ShareFolder

withDocuments

IRMS.SearchEngine IRMS.Indexer Adapter

DataSourceComposerFileExtractor

AA

AAppplilcicaatitoionn(U(UsseerrInInteterfrafaccee))

WebSiteRobot/SpiderByURLEntry

RDBMS(ODBC/

OLEDB/JDBC)

FileNET

內容管理

LotusDominoR5,R6(NSF)

针对企业内部的信息,包括文件服务器上的文件、网站网页、ERP等系统存放信息的数据库信息、办公应用中的公文档案文档已经内容管理系统中流转的内容,本系统提供了两种数据适配器来提取其中的正文内容和属性内容,形成一个相对结构化的数据虚拟层;本系统的索引引擎(Indexer)对结构化的数据虚拟层进行中文切分词、文件特征分析和逐步索引,以及其它索引算法,生成索引数据库;使用者(user)在搜索页面中输入查询字串等搜索条件并提交给本系统后,本系统的全文检索查询引擎(Searcher)会在索引库中进行搜索,并将符合搜索条件的搜索结果返回给使用者;使用者(user)可于查询结果页面,进一步链接到信息原文查看详细内容。

对于系统管理,管理员可通过相应web方式的管理程序来管理整个系统运行环境及设置文件;并通过索引引擎(Indexer.exe)实时或定时创建索引,更新索引数据库的内容,使检索信息维持在最新状态。

全文检索系统带来的效益

高效率的整合搜索,大幅减少组织成员在取得信息时花费的时间!

本系统和其它搜索系统只针对特定信息源搜索不同,它能对企业内部绝大多数的信息创建索引和搜索,具备强大的信息整合及快速回应能力,让企业成

员以单一搜索页面、简易的操作方式,即可在最短时间内,完整、准确、及时地掌握企业内外所有信息,不必再耗费大量时间的找寻信息!

信息过量不会造成企业成员的信息焦虑!

通过本系统强大的索引/搜索能力,大量的信息也可在瞬间过滤出符合使用者条件的信息,不必担心迷失在漫漫的信息洪流之中!

非结构/非组织的信息,不再是知识管理的盲点!

文件/档案以及非经过分类管理的信息,因为附加信息稀少,往往成为知识利用上难以判断、分析的信息。本系统直接针对内容全文分析、关联,使这类信息同样可让使用者以检索方式,快速筛选利用!

整合容易,使用简易,导入迅速,易于接受!

套装化

文档评论(0)

tianya189 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地境外
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档