分布式全文检索系统中索引管理及文件预处理研究控制科学与工程专业论文.docxVIP

下载本文档

8
0
约11.78万字
约 124页
2019-01-20 发布于上海
举报
版权申诉

分布式全文检索系统中索引管理及文件预处理研究控制科学与工程专业论文.docx

1、本文档共124页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分布式全文检索系统中索引管理及文件预处理研究控制科学与工程专业论文

中国科学技术大学硕士学位论文中国科学技术大学硕士学位论文分布式全文检索系统中索引管理及文件预处理研究作者姓名：戴上静学科专业：控制科学与工程导师姓名：吴刚教授完成时间：二O一五年五月万方数据 ’’’’iversit飞of ’’’’iversit飞ofot ScienceScience andand Technol0931ectmoloKy ofot hma A Dis sertation for Master’S Degree Research on lndex Management and Fi le Pretreatment of Distri buted Author’S Name： Shangj ing Dai Speciality： Control Science and Engineering Supervisor： Professor Gang Wu ”o r inisnecI tlme： May，201 5 万方数据中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的成中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的成果。除己特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作了明确的说明。作者签名：必签字日期：20／厂．夕．2r 中国科学技术大学学位论文授权使用声明作为申请学位的条件之一，学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。口公开口保密( 年) 作者签名：彗盥导师签名：签字日期：兰1 2￡：篁：堕签字日期：型墨：鱼：l 万方数据摘要摘要摘要摘要信息时代，数据规模呈现爆炸式增长，非结构化信息越来越庞大。网络中的信息具有海量规模和非结构化两大特点，传统的集中式索引难以提供高效、可靠的服务，需要建立分布式全文检索系统，处理海量的非结构化信息。分布式检索系统的主要处理对象是文本数据，使用自然语言进行检索，就需要对网络上获得的各种类型的数据进行文本提取、自然语言的分词，以便建立结构化的索引。同时也需要建立分布式索引管理机制，实现索引在各节点的负载均衡、数据同步、分布式查询，并保证信息安全。本文主要研究分布式检索系统的文本提取、中英文混合分词、分布式索引管理。本文设计并实现了支持多种文件格式的文本实时提取系统。该系统包括文件实时监控、文件类型识别、编码识别与转换、文本内容提取四个模块，使用Inotify 监控数据源，将发生写操作的文件加入任务队列，识别文件类型，针对文件类型采取相应的方案进行文本提取，提取Office系列文档、pdf文档、压缩文档、邮件文档、网页文档和xml文档等文件的文本内容，制成统一编码的纯文本文件。本文设计并实现了中英文分词器对中英文语料进行分词。分词器包括中文分词、英文分词、混合分词三个子分词器，均基于Tile树构造词典。处理文本时，首先调用混合分词器，若分词不成功则根据当前字符的语种分别调用中文或英文分词器。中文分词器采用折半扫描的正向增字最大匹配算法采集歧义字段，并设计了一套歧义处理机制来消歧。英文分词器结合波特词干算法与词典匹配法提取单词词根。结合三种分词器，能对中英文混合的语料文本准确高效地分词。本文设计并实现了基于Katta的分布式索引管理平台，用于管理大规模索引文件，并实现了提供给用户的搜索接口和交互页面。从Katta源码中开发出接口函数，建立了一套任务管理机制，定时合并索引，并利用Zookeeper的虚拟文件系统解决索引更新和客户端搜索之间的冲突。采用Tomcat搭建Web服务器，通过JSP／Servlet技术与客户端交互，优化了搜索算法，支持分页查询、条件查询等高级搜索，为客户端提供简洁的搜索页面，设计了一套页面缓存算法增强用户体验。将数据源挂载到Web服务器，使客户端能从结果列表的链接查看原始文件，提高了搜索性能，用户体验良好。关键词：全文检索分布式文本提取中文分词Katta页面缓存万方数据摘要 11 万方数据断袖the 断袖the advent of the information age，the size of data get explosi