- 1、本文档共124页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式全文检索系统中索引管理及文件预处理研究控制科学与工程专业论文
中国科学技术大学硕士学位论文
中国科学技术大学
硕士学位论文
分布式全文检索系统中索引管理 及文件预处理研究
作者姓名: 戴上静 学科专业: 控制科学与工程 导师姓名: 吴刚教授 完成时间: 二O一五年五月
万方数据
’’’’iversit飞of
’’’’iversit飞ofot ScienceScience andand Technol0931ectmoloKy ofot hma
A Dis sertation for Master’S Degree
Research on lndex Management and Fi le Pretreatment of Distri buted
Author’S Name: Shangj ing Dai Speciality: Control Science and Engineering Supervisor: Professor Gang Wu
”o
r inisnecI tlme: May,201 5
万方数据
中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成
中国科学技术大学学位论文原创性声明
本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除己特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作了明确
的说明。作者签名:必
签字日期:20/厂.夕.2r
中国科学技术大学学位论文授权使用声明
作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学 位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。
保密的学位论文在解密后也遵守此规定。
口公开 口保密( 年)
作者签名:彗盥 导师签名:
签字日期:兰1 2£:篁:堕 签字日期:型墨:鱼:l
万方数据
摘要摘要
摘要
摘要
信息时代,数据规模呈现爆炸式增长,非结构化信息越来越庞大。网络中的 信息具有海量规模和非结构化两大特点,传统的集中式索引难以提供高效、可靠 的服务,需要建立分布式全文检索系统,处理海量的非结构化信息。
分布式检索系统的主要处理对象是文本数据,使用自然语言进行检索,就需 要对网络上获得的各种类型的数据进行文本提取、自然语言的分词,以便建立结 构化的索引。同时也需要建立分布式索引管理机制,实现索引在各节点的负载均 衡、数据同步、分布式查询,并保证信息安全。本文主要研究分布式检索系统的 文本提取、中英文混合分词、分布式索引管理。
本文设计并实现了支持多种文件格式的文本实时提取系统。该系统包括文件 实时监控、文件类型识别、编码识别与转换、文本内容提取四个模块,使用Inotify 监控数据源,将发生写操作的文件加入任务队列,识别文件类型,针对文件类型 采取相应的方案进行文本提取,提取Office系列文档、pdf文档、压缩文档、邮 件文档、网页文档和xml文档等文件的文本内容,制成统一编码的纯文本文件。 本文设计并实现了中英文分词器对中英文语料进行分词。分词器包括中文分
词、英文分词、混合分词三个子分词器,均基于Tile树构造词典。处理文本时, 首先调用混合分词器,若分词不成功则根据当前字符的语种分别调用中文或英文 分词器。中文分词器采用折半扫描的正向增字最大匹配算法采集歧义字段,并设 计了一套歧义处理机制来消歧。英文分词器结合波特词干算法与词典匹配法提取 单词词根。结合三种分词器,能对中英文混合的语料文本准确高效地分词。
本文设计并实现了基于Katta的分布式索引管理平台,用于管理大规模索引 文件,并实现了提供给用户的搜索接口和交互页面。从Katta源码中开发出接口 函数,建立了一套任务管理机制,定时合并索引,并利用Zookeeper的虚拟文件 系统解决索引更新和客户端搜索之间的冲突。采用Tomcat搭建Web服务器,通 过JSP/Servlet技术与客户端交互,优化了搜索算法,支持分页查询、条件查询 等高级搜索,为客户端提供简洁的搜索页面,设计了一套页面缓存算法增强用户 体验。将数据源挂载到Web服务器,使客户端能从结果列表的链接查看原始文
件,提高了搜索性能,用户体验良好。
关键词:全文检索 分布式 文本提取 中文分词Katta页面缓存
万方数据
摘要
11
万方数据
断袖the
断袖the advent of the information age,the size of data get explosi
您可能关注的文档
- 室内设计教学对江南古典园林的认知和引入课程与教学论美术专业论文.docx
- 十字轴冷挤压成形工艺研究及模具设计数字化系统开发材料加工工程专业论文.docx
- 联合卫星测高grace和argo浮标数据研究全球海平面变化大地测量学与测量工程专业论文.docx
- 地形自适应全转向消防无人车移动系统设计与分析机械工程专业论文.docx
- 中国古琴艺术的天人合一自然观研究文艺学专业论文.docx
- 车厢内火灾阴燃阶段烟气扩散及早期探测研究供热供燃气通风与空调工程专业论文.docx
- 基于跨平台开发的联网收费运营管理app电子与通信工程专业论文.docx
- 地下水渗流方向对单u型埋管换热器换热特性影响的数值研究土木工程专业论文.docx
- 等温压缩空气储能技术的装置设计优化及其运行评估电气工程专业论文.docx
- 城乡公交一体化客运网络规划方法研究交通运输规划与管理专业论文.docx
- AI编程加速前行:技术演进与商业化新篇.pdf
- 数据与AI的变革力量如何驱动更大的公共价值?.docx
- 大湾区低空经济发展与城市规划.docx
- 2025人工智能赋能跨境电商女性出海白皮书.pdf
- 1.1 坚持改革开放(课件)2024-2025学年九年级道德与法治上册高效备课精品课件(统编版).pptx
- 1.1+坚持改革开放(优质课件)-2025-2026学年九年级道德与法治上册优质课件(统编版).pptx
- 8.2+共圆中国梦(优质课件)-2025-2026学年九年级道德与法治上册优质课件(统编版).pptx
- 8.5+美国++第1课时+课-2024-2025学年七年级地理下学期商务星球版(2024).pptx
- 中考语文一轮复习课件:课内文言文复习(+写景类).pptx
- 6.1+正视发展示挑战(优质课件)-2025-2026学年九年级道德与法治上册优质课件(统编版).pptx
最近下载
- 美国fda生产过程(工艺)验证总则指南中英文版.doc VIP
- 成都理工大学2020-2021学年第2学期《环境监测》期末考试试卷及标准答案.docx
- 2024年江苏省无锡市中考英语真题卷(含答案与解析).docx VIP
- 年产水性油墨、凹版塑料环保油墨4500 吨、水性涂料500吨建设项目环评(2021年新版环评)环境影响报告表.pdf VIP
- fda美国食品药物管理局工艺验证指南英文版).doc VIP
- 金属非金属露天矿山建设项目安全设施竣工验收表.pdf VIP
- 单位员工网络安全培训.pptx VIP
- PQE试用期述职报告.pptx VIP
- 《GBT 30130-2023胶版印刷纸》最新解读.pptx
- GJB9001C:2017研发一整套资料模板(共348页).pdf VIP
文档评论(0)