- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
海量信息检索大作业20130514
基于Lucene的全文检索系统的实现
李天彩
(一院七教,学号29720121030)
摘要:为了更好地理解信息检索的内涵,将课堂所学用于实践,锻炼实际编程操作能力,构建了一个小型的全文检索系统。该系统是基于Lucene完成的,可以对多个类型的文本进行解析、建立索引和查询,最终以WEB界面进行人机互动,并对各种试验参数给予了说明。
关键词:Lucene ;全文检索;多类型文本;WEB界面
Full text retrieval system based on Lucene
LI Tian-cai
(Department 7th of College 1st, No. 29720121030)
Abstract: A small full text retrieval system is constructed in order to explore the content of information retrieval , take what we have learn into action, and improve actual programming ability. This system based on Lucene can analyse, index and query sevral different kinds of text, , carry out a WEB interface for human-computer interaction , and offer a variety of test parameters .
Key words : Lucene ; full-text search ; multi- type text ; WEB interface
简介:
信息检索是从一个信息集合中找出与用户需求相关的信息,具体是指利用一定的检索算法,借助于特定的检索工具,并针对用户的检索需求,从结构化或非结构化的数据中获取有用信息的过程。信息检索的研究主要在信息的结构、分析、组织、存储、搜索和检索的领域。
随着世界信息技术迅猛发展。人类社会正进入一个信息化的社会,社会经济的发展对信息资源、信息技术和信息产业的依赖程度越来越大。为了掌握和处理信息,人们一般会拥有大量电子文档。但是随着时间的积累,很难记住需要的重要的文档片段放在什么位置或者是以什么形式存储的。因此一个能对各种主流类型文档进行全文检索的工具是十分必要的。
又由于中文自身的特点,中文信息检索和文本检索存在着很多的问题:在词语切分时存在大量切分歧义,大量专业术语的错误划分,专有名词的识别困难以及汉语的自然语言处理准确性低。由于智能文本检索和文本挖掘的基础是自然语言处理.汉语自然语言处理的自身的难点成为文本检索和文本挖掘处理的关键问题.因此要进一步提高汉语信息检索和文本挖掘处理的准确性,这需要很多补充的部分。
结构介绍:
1.基本结构
一个信息检索系统一般分为三个部分,即信息的存储和组织部分,信息检索实施部分和检索展示部分。具体的结构如图1-1。
在信息存储与组织过程中,一般采用索引项来建立文档的索引和对文档进行检索。对于文本信息检索来说,基于字表或词表的全文检索方法,以单个的字或词作为索引项,对其出现位置进行索引,并依据单字和词的位置信息进行检索。
在信息检索实施过程中,希望让用户获得与其需求密切相关的检索结果,因此信息检索系统所要解决的中心问题是:基于用户的需求,对文档集中的所有文档作出是否与查询相关的判断。这种判断依赖于排序算法,算法在被检索的文档中依据其与用户需求的相关程度,建立一个排列顺序。这样看来,排序算法是信息检索系统的关键技术。
在检索信息展示过程中,如何设计界面、衡量文档相关性、提供二次检索和人机交互也有很多不同的方式。因此,总的来说我们把信息检索模型定义为:是由文档表示、查询以及它们之间的关系进行建模的框架、文档与查询的匹配计算和输出给用户接受反馈界面组成的系统。
2.处理对象和索引生成
2.1处理对象
本文设计的是一个文本检索系统,主要是对于windows操作系统下后缀名txt、doc、pdf、ppt的文件进行检索。其中对于ppt文件的处理方式是先将每一页ppt中的文本内容提取出来当成纯文本进行的。
2.2索引生成
本系统的索引生成使用的是AC算法。具体方法是先对文档进行中文分词,然后将分词后的结果作为模式写入AC。先得对AC进行训练,在足够训练(关键词达到3000左右)之后开始使用。索引项主要是关键词是否在检索文档中,以及所在的位置(行数和行内位置)。
3.检索实施
本文采用的匹配模型是布尔模型,只检测关键词是否出现在被检索的文档中,然后根据关键词出现的次数
文档评论(0)