基于Tika语义分析的文档内容检索服务研究.pdfVIP

基于Tika语义分析的文档内容检索服务研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
井 冈山大学学报(自然科学版) 61 档,Tika能 自动甄别文件类型,调用相应的解析器 析结果写入 Met.adam元数据集合中。利用 tika对 进行分析,并能 自动识别文档的编码和语言。Tika 象的 parseToString方法可分析提取文件的文本内 的parse方法接受要被解析文档的文件名,并将分 容。 图 1Lucene和Tika结合构建搜索应用 Fig.1 CombinedLuceneandTikatoconstructasearchapplication 1:2 利用 Lucene建立索引 IKAnalyzer分词工具 索引是现代搜索引擎的核心,Lucene采用倒排 fsConfig.setOpenMode(OpenMode.CREATE); 索引结构,以词作为索引的中心,建立词到文档的 IndexWriterwriter=newIndexWriter(new 映射关系。Lucene索引文件中包含段 (segment)、 SimpleFSDirectory(indexDir), 文档 (document)、域 (field)和项 (term)。索 fsConfig); //采用文件 目录存储索引 引包含多个段,每个段包含多个文档,每个文档又 File[]dataFiles =dataDir.1istFilesO; //获取 目录下 包含多个域,而每个域又包含多个项。段相当于一 的所有文件列表 个子索引,只是段之间并不像索引之间是相互独立 Docmu entdocument=newDocmu ent(); 的[1]o for(inti=l;idataFiles.1ength;i++){ //对所有文 Lucene提供的用于索引和查询的API接 口可以 件进行遍历 非常方便地实现全文索引和搜索功能呓。为了对文 InputStreamis=newFilelnputStrearn(file); 档进 行索 引,Lucene提供 了Document,Field, tika.parse(is,met); //利用tika分析出文档 IndexWritre,Analyzer,Directory五个基础的类。其 的元数据信息 中,Docmu ent用来描述文档;Field~来描述文档的 Docmu entdocmu ent=newDocmu ent(); //每 属性;Analyzre实现分词处理;IndexWriter把各个 个文件对应一个Docmu ent~j象 Docmu ent对象加到索引中,Lueene对IndexWriter docmu ent.add(new Field(”filename”, 的不断优化,使Lucene对索引的创建能更加 自如和 file.getName0,Store.YES, 高效3【】;Directory~示索引存储位置,有FSDirctory Index.ANALYZED)); //将文件名对 和 RAMDirectory两个子类。以下代码给出了索引 应的域加入docmu ent~象中 建立过程: document.add(newField(”title”,met.get(”title”), Metadatamet=newMetadata0; //存放元数据 Store.YES,Index.NOT

文档评论(0)

挺进公司 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档