【信息检索系统】方案.docVIP

下载本文档

3
0
约4.37千字
约 11页
2019-07-24 发布于安徽
举报
版权申诉

【信息检索系统】方案.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE HX-2055信息检索系统方案目录 TOC \o 1-3 \h \z \u 一项目意义 2 二系统设计 3 2.1 技术原理 3 2.2 系统构架 5 三系统功能 6 3.1 信息采集 6 3.2 中文自然语言处理 6 3.3 全文检索功能 7 3.4格式文件检索 8 3.5性能指标 8 一项目意义随着互联网的快速发展，每天有数千万条信息生成，包括文字信息、图片信息、视频信息、语音信息等，通过百度、谷歌等大型商业搜索引擎可以找到自己想要的信息，但是也存在很多弊端。百度、谷歌等大型商业搜索引擎的搜索原理是基于网络爬虫（Spider）在世界各地百万台服务器上爬取网页数据，然后存储到数据库之后展现给查询用户，随着网站数量以及网络上信息更新的快速化，这些网络爬虫不能保证把所有的信息都抓到，尤其是特殊行业的行业信息，即便是抓到了也不一定能够在众多数据中展现出来。所以，对于一个部门来讲，有必要存在一款互联网信息检索系统来检索某一个行业的信息，每天自动在各大行业网站、政府网站等数据库中检索最新信息，通过自建的网络爬虫进行目标数据的抓取、存贮、归类、展现。通过自己的信息检索系统，可以让自己部门每天轻松地获得世界各地、各个部门都发生了什么，有哪些新的政策，方便管理层在最新的信息数据下快速做出正确的决定。据统计，内部网上的信息每年以200%的速度增长，其中发布到互联网上的信息只占到信息量的1%-2%，而98%以上的信息是发布在内部网上的。内部网上的信息既有网页形式的，也包含其他Word、PDF、XML等多种格式的数据。因此，面对内部网中海量异构的信息资源，如何帮助用户快速找到他们所需要的信息是一个主要的技术挑战。搜索引擎能帮助用户方便、快捷、安全地获取内部网上的信息，在满足高效的同时，更重要的是保证了较高的查全率和查准率，能提供智能化的概念扩展搜索，极大的提高工作效率。内部网搜索引擎将组织中分散管理的信息整合在一起，在组织层面上实现新的增值与共享，从而有效实现组织内容利用的最优目标。搜索引擎的目标是实现内部网全文检索。系统可对实施了内部网站资源进行爬行，无论内部网上的数据源在何地、以何种形式存在，都能够对其快速地访问，通过准确的分词建立索引，从而实现高质量的搜索查询。搜索引擎的主要目标包括：（1）较高的查准率。搜索系统支持按词索引、按字索引，同时实现中文自动分词。（2）较高的查全率。搜索系统可搜索各类异构的信息资源，包括传统的网页信息、Word、PDF、XML等不同格式的文档以及各类主流数据库的表中记录。（3）智能化的检索结果排序。安全搜索系统应采用相关度分析技术，将用户需要的信息排在结果列表的前面，屏蔽无用和错误的信息。二系统设计 2.1 技术原理 HX-2055互联网信息检索系统（以下简称HX-2055）是针对特殊行业、政府部门、决策部门设计的一款高效率互联网信息检索系统，采用国际一流程序算法设计，系统构架与谷歌和百度的搜索引擎拥有共同的技术特点，能够保证系统对实时信息的快速采集、归类、展现。在当今信息爆炸的时代，每个单位或个人都在为信息的快速增长做出了各种贡献。信息的种类也在不断的扩展，越来越多的非结构化信息不断出现，包括企业的各种报表、帐单、电子文档、网站的各种元素、图片、传真、扫描影像，以及大量的多媒体的音频、视频信息等等。所有的存储数据中，有85%采用的是非结构化格式的，非结构化信息每三个月增长一倍。由于信息格式的差异很大，所以基本无法整合为统一的接口供政府工作人员或广大群众方便使用。全文检索是计算机程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时根据建立的索引查找，类似于通过字典的检索字表查字的过程。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。全文检索系统的核心则具有建立索引、处理查询返回结果集、增加索引、优化索引结构等功能。HX-2055全文检索系统的主要目标是实现文本索引的快速构建(Index Construction)，动态文档集的索引维护(Index Maintenance)，短语查询(Phrase Query),Top-K查询的快速处理(Top-k Query Process)以及各种检索模型（IR Model）等。高性能和灵活的架构也使HX-2055全文检索系统可以应用在内外网检索、专业系统资料检索、行业专业数据库检索。图1. HX-2055系统原理 HX-2055可以实现对内部网络和外部网络的信息抓取、归类、展现。对于外部网络，HX-2055采用网络爬虫定时对各大行业网站、政府部门网站进行数据爬取