- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式全文检索系统中索引平台和信息过滤的研究与应用控制科学与工程专业论文
中国科学技术大学硕士学位论文
中国科学技术大学
硕士学位论文
分布式全文检索系统中索引平台 和信息过滤的研究与应用
作者姓名: 王一霈 学科专业: 控制科学与工程 导师姓名: 吴刚教授 完成时间: 二O一五年五月
万方数据
University
University of Science and Technology of China
A d issertation for master’S deg ree
Research on the distributed i ndexi ng platform and
information filter in distributed
fu l l-text retrieval system
A砒or,S Name: Yipei Wang
speciality: Control Science and Engineering Supervisor:Professor Gang Wu Finished time: May,201 5
万方数据
中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成
中国科学技术大学学位论文原创性声明
本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。
作者签名: 签字日期: 塑!S堡6旦!旦
中国科学技术大学学位论文授权使用声明
作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学 位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。
保密的学位论文在解密后也遵守此规定。
作者签名: 4 翩龋罢剑导师签名: 盗陛圈
Ⅶ蠡开 口保密(——年)
签字日期: №!£堡5亟19 签字日期: 边』!:6:1
万方数据
摘要摘要
摘要
摘要
随着网络时代的飞速发展,数据和信息充斥着社会生活的各个领域。人们的 日常行为逐渐和网络密不可分,人们利用网络获取新闻、进行社交活动和即时通 讯,发送和记录工作文档等,这些行为产生的数据都被存储在网络中。由于网络 和大数据带来的变革,人们日常获取的信息量在急速增加,人们获取信息的方式 也更为复杂和多样。分布式计算技术和全文检索技术是应对大数据洪流的有效工 具,前者能够负载海量数据,后者能够在大规模数据中快速检索到有用信息。
本文的研究背景是分布式全文检索系统,该系统针对海量多格式文件进行存 储并支持快速文本检索。系统采用分布式架构设计,能够并发完成文件预处理、 建立索引及存储功能,并将文件存储在分布式文件系统中。分布式全文检索系统 包含如下结构:文件预处理前端、分布式索引平台、分布式文件存储系统、索引 管理平台和web检索平台。其中,文件预处理前端和分布式索引平台协同完成 对大规模多格式文件中文本内容的索引任务;索引管理平台和web检索平台协 同完成对索引文件的管理和检索任务;分布式文件存储系统负责为系统中的各个 模块提供文件存储和管理支持。
本文主要设计并实现了分布式全文检索系统中的分布式索引平台,索引平台 基于Hadoop分布式计算库构建,实现了对海量文本文档并发建立索引。本文提
出了索引平台的基本架构,阐述了索引平台的分布式计算过程、索引平台中的共
享与并发机制和索引评分机制等。本文还设计实现了文件预处理前端中的信息过 滤模块,信息过滤模块可实现基于关键词的文档过滤功能,识别系统不需要处理 的文档。信息过滤模块主要包括以下内容:单模式匹配模块、多模式匹配模块以 及与或匹配模块。本文研究了每个模块相关的基本算法,针对算法在中文环境下 实际应用中的不足进行了改进,测试结果表明改进后的算法性能得到了进一步提 升。
关键词:全文检索,分布式计算,索引,Lucene,Hadoop,信息过滤,模
式匹配算法
万方数据
摘要
II
万方数据
AbstractAbstract
Abstract
Abstract
With the rapid development of the Interact era,each field of social life is surrounded by data and information.People’S daily behavior is closely related with the Internet.People use I
您可能关注的文档
- 传染性支气管炎病毒s基因马铃薯生物反应器的建立农业生物环境与能源工程专业论文.docx
- 当代社会环境下我国综合铁路客运站发展研究建筑设计及其理论专业论文.docx
- 高速公路隧道小客车运行速度预测模型研究交通工程专业论文.docx
- 电化学研究铝和纳米铝形态化合物对依赖于辅酶ⅰ脱氢酶活性的影响-化学;分析化学专业论文.docx
- 盾构隧道垂直土压力松动效应的研究岩土工程专业论文.docx
- 二维扫描式大气偏振信息检测系统设计信号与信息处理专业论文.docx
- 高校学生申诉制度研究宪法学与行政法学专业论文.docx
- 公益性出版事业单位内部治理结构研究传播学专业论文.docx
- 供应链理论在企业中的应用研究企业管理专业论文.docx
- 多层砌体填充墙框架结构抗震性能试验研究和理论分析结构工程专业论文.docx
- 阿托伐他汀对动脉粥样硬化大鼠apoe基因表达调控的影响内科学专业论文.docx
- 安庆市质量技术监督局员工绩效考核研究管理科学与工程专业论文.docx
- 磁性液体的优化制备及其流变性能的分子动力学模拟固体力学专业论文.docx
- ttzj公司战略性人力资源管理研究企业管理专业论文.docx
- 安徽省农业转移人口市民化研究政治经济学专业论文.docx
- zl50型装载机液压传动系统的可靠性分析及其传动轴模糊可靠性优化设计研究机械工程专业论文.docx
- 电针联合骨髓基质细胞移植治疗脑缺血的实验研究中西医结合基础专业论文.docx
- 艾滋病患者肺孢子菌肺炎临床预警预后相关分子标志研究内科学专业论文.docx
- ttzj公司战略性人力资源管理分析企业管理专业论文.docx
- 创新研发激励研究西方经济学专业论文.docx
文档评论(0)