- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要
21 世纪是信息科技发展的飞速时期,随着计算机及网络技术的不断成熟,电
子文档以不同的格式展显在广大用户面前。这其中又以WORD文档为主,在这些海
量的文档中如何快速有效的查找到自己所需要的信息就成为一个现实的问题。全
文检索系统正是满足人们的这些需求应运而生的。全文检索是现代信息检索技术
的一个重要的分支,它极大地提高了从大量纷繁复杂的数据中查找特定信息的效
率。本文的主要研究任务旨在设计一个针对WORD 文档格式的多文档的全文检索工
具,实现对指定目录下的目录或文件的遍历和检索,完成多文档全文检索系统的
设计与开发,为用户提供一个快捷、安全的信息检索渠道。
文章主要介绍了中文形式的全文检索的相关技术,重点介绍了Clucene,它是
一种全文检索引擎工具包。倒排索引是Clucene采用的一种主要结构方式, 它采
用分块索引,可以对新文件建立小文件索引。它与早期的索引结构相比,更便于
索引的构建、更新、维护,还能有效地提高索引的速度。
由于目前 CLucene 的处理对象局限于纯文本数据,所以本文使用 VBA 技术以
及 OFFICE 自动化的相关技术,实现了一种对 WORD 文档的文本抽取工具,将 WORD
文档转化为 TXT 格式的文本文档,然后再通过 CLucene 的索引机制对这些海量的
文档执行索引操作。基于 CLucene 的索引器应用非常的广泛,它目前主要应用于
专业文献检索系统,同时还可以应用于搜索引擎系统。
文章的最后在对系统设计与实现中的关键点如:查询接口、检索结果返回、
实现对中文分词的查准率和查全率、避免中英文连用时检索出错的处理等问题进
行了论述,并提出了自己的见解,希望能对读者有一些帮助。
关键词:全文检索,CLucene,WORD ,索引,文本抽取
I
ABSTRACT
With the computer technology and network technology, the rapid
development of a variety of formats rapid expansion of the number of
electronic documents, which mainly Among them, word document, in which vast
amounts of documentation on how quickly and effectively find the
information they need to become a reality. Full-text retrieval system is
to meet these needs of people born out. Full text search is a modern
information retrieval technology, an important branch, it greatly improves
the data from a large number of complex and complicated to find specific
information more efficient. The main task of this study to design a word
document format for the full text of the multi-document retrieval tools
to achieve the specified directory or file directory traversal and
retrieval of complete multi-document text retrieval system design and
development, to provide users with a fast, secure channel for information
retrieval.
This thesis related to the Chinese full-text search technology was
more in-de
文档评论(0)