- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
厦门大学软件学院《毕业设计(论文)》开题报告
学生姓名 班级 一班 学号 指导教师姓 名 职称 所在单位 厦门大学软件学院 毕业设计(论文)题 目 基于Lucene的大文档集合索引机制
——文档索引的分析、设计和实现 毕业设计(论文)的目标:
整体软件目标
利用Lucene的API接口实现对特定文档的搜索
搜索结果按照一定的方式进行排序,以便于用户检索
文档索引的分析、设计和实现
文档索引的分析。利用Lucene的分析器(Analyzer)对各种各样的输入进行分析,实现分词和过滤不同文本,有选择的将文本进入索引,以提高索引效率,提高搜索引擎的性能。
文档索引的设计和实现。利用Lucene中的Document类、indexWriter类实现对不同类型文档的索引,完成对Lucene的索引文件格式的研究。
该部分实现的文档索引为后半部分的查询提供前置条件。
实现方法:
基本环境
开发工具:eclipse
开发语言:Java,jdk1.5.0
开发平台:Windows
开发使用的插件:Lucene
学习使用Lucene分析器
分词器(Tokenizer)和过滤器(TokenFilter)
一个分析器所有的工作就是将分词器和过滤器进行合理的组合,使之产生对文本分词和过滤的效果。因此分析器使用分词器和过滤器构成了一个管道,文本“流过”这个管道后,就成为了可以进入索引的最小单元。
使用Lucene中的标准分析器StandardAnalyzer。
StandardAnalyzer是Lucene开发包中内置的一种Analyzer的实现,可以将其理解成“标准分析器”,这个分析器是最容易使用也是使用最频繁的一种Analyzer的实现,它使用了Lucene内部自带的几种分词器和过滤器。
学习使用Lucene建立索引
索引建立的过程
lucene没有定义一个确定的输入文档格式,但越来越多的人想到使用一个标准的中间格式作为Lucene的数据导入接口,然后其他数据,比如PDF只需要通过解析器转换成标准的中间格式就可以进行数据索引了。这个中间格式主要以XML为主,类似实现已经不下4,5个:数据源: WORD PDF HTML DB other \ | | | / XML中间格式 | Lucene INDEX
中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。
中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统?ICTCLAS(Institute?of?Computing?Technology,?Chinese?Lexical?Analysis?System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS?和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。
由于?ICTCLAS?是由?C?语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把?ICTCLAS?改为?Java?和?C#?等其他语言。
索引过程:从命令行读取文件名(多个),将文件分路径(path字段)和内容(body字段)2个字段进行存储,并对内容进行全文索引:索引的单位是Document对象,每个Document对象包含多个字段Field对象,针对不同的字段属性和数据输出的需求,对字段还可以选择不同的索引/存储字段规则,列表如下:
方法
切词
索引
存储
用途
Field.Text(String name, String value)
Yes
Yes
Yes
切分词索引并存储,比如:标题,内容字段
Field.Text(String name, Reader value)
Yes
Yes
No
切分词索引不存储,比如:META信息,不用于返回显示,但需要进行检索内容
Field.Keyword(String name, String value)
No
Yes
Yes
不切分索引并存储,比如:日期字段
Field.UnIndexed(String name, St
您可能关注的文档
最近下载
- 新22S6消防工程参考标准.docx
- 慢性肾脏病早期筛查、诊断及防治指南(2022年版).pptx VIP
- 家庭饮食健康计划.pptx VIP
- 2025年福建省厦门集美中学招聘办公室职员1人笔试备考题库及答案解析.docx VIP
- 级配碎石施工 ..ppt VIP
- 2022年7月上海高考英语真题(学生版+解析版+听力音频).docx
- DB44T 1212-2013 用能单位能源计量管理体系通用要求.pdf VIP
- 上-下气道慢性炎症性疾病联合诊疗与管理专家共识中华医学会呼吸病学分会哮喘学组(发布时间:2017-07).pdf VIP
- 心力衰竭诊疗规范.docx VIP
- 光照时间对三斑海马幼苗成活率和生长速度的影响.pdf VIP
文档评论(0)