- 1、本文档共77页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
倒排索引技术在Hadoop平台上的研究与实现-计算机应用技术专业论文
万方数据
万方数据
STUDY AND IMPLEMENTATION OF INVERTED INDEX ON HADOOP
A Master Thesis Submitted to
University of Electronic Science and Technology of China
Major: Computer Application Technology
Author: Dai Wanneng
Advisor: Dai Yuanshun
School : School of Computer Science And Engineering
独创性声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。
作者签名: 日期: 年 月 日
论文使用授权
本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。
(保密的学位论文在解密后应遵守此规定)
作者签名: 导师签名:
日期: 年 月 日
摘要
摘 要
随着互联网的发展,搜索引擎要处理的数据量越来越大,对搜索引擎的性能 要求越来越高。为了提高信息检索效率,信息检索系统一般都采用倒排索引技术。 倒排索引技术是搜索引擎系统的核心组成部分,它的结构设计、存储方式、查询 操作和动态更新算法的好坏对信息检索的效率有很大的影响。同样为了提高信息 检索的效率,搜索引擎系统中引入了分布式的计算平台,以实现并行计算。Hadoop 是一种常用的开源分布式处理平台,已经被应用到许多系统,并且取得了很好的 效果。通过 Hadoop 平台,能比较方便的进行分布式编程,让计算并行化,从而提 高系统响应效率。因此,在 Hadoop 平台上实现倒排索引技术对搜索引擎效率的提 高有重要意义。
本文利用 Hadoop 分布式计算平台,使用 HDFS 文件系统和 Map-Reduce 的原 理,设计并实现了一种基于分布式系统 Hadoop 的倒排索引结构。这种结构的倒排 索引,能够在一定程度上节省磁盘存储空间,提高信息检索效率。
本文首先研究分析了 Hadoop 平台的系统架构、主要组成部分以及其中的两个 关键技术——Map-Reduce 编程模型和 HDFS 文件系统的原理;研究了 Hadoop 中 Map-Reduce 作业的提交和任务的运行流程,分析了整个过程中数据流的走向,以 及基于 Hadoop 的应用程序设计原理与方法;在分析传统的倒排索引技术实现方案 及相关算法后,验证了在 Hadoop 平台下实现的可能性倒排索引的可能性。
在此基础上,在 Hadoop 平台下设计了一种倒排索引结构,该结构主要由主索 引、段索引、删除索引和词典库等部分组成。然后详细介绍了该结构的各组成部 分。设计了基于词频高低和词频排名的倒排文件存储策略,以及倒排项中数字信 息的压缩编码方法——综合编码压缩法;设计了倒排文件的压缩格式的选择。针 对这种倒排索引的结构,设计了 Map-Reduce 方式的倒排索引构建算法、基于段索 引的倒排索引更新算法、基于删除索引的倒排索引删除算法以及基于词典库的倒 排索引查询算法。最后在 Hadoop 分布式集群环境编程实现了以上结构的倒排索引 和相关操作算法,并且进行了测试和验证。
关键词:Hadoop, 倒排索引, 信息检索, MapReduce
I
ABSTRACT
ABSTRACT
With the development of the Internet, the amount of data to be processed by the search engine becomes more and more large. So, the performance of the search engine should be getting better and better. Inverted index is a key component of a search engine system; the structure and organization of Inverted index and the algorithm of query and dynamic updat
您可能关注的文档
- 供应链信息协同机制及其研究评价-工商管理;技术经济及管理专业论文.docx
- 供应链内部审计方法研究及其在汽车企业的应用管理科学与工程专业论文.docx
- 供应链信息系统建设中的项目管理分析-项目管理专业论文.docx
- 供应链全球化背景下SMT制造企业物料信息追溯系统的研究-工业工程专业论文.docx
- 供应链动态联盟成员选择及其利益分配问题研究-管理科学与工程专业论文.docx
- 供应链信息系统建设中的项目管理研究-项目管理专业论文.docx
- 供应链协同整合与横向并购绩效——基于中国制造业上市公司经验数据-会计学专业论文.docx
- 供应链协同方式与创新类型的关系研究-企业管理专业论文.docx
- 供应链协同管理在业务外包中的应用研究-工商管理专业论文.docx
- 供应链协同环境下采购决策优化研究-管理科学与工程专业论文.docx
- 2024年云南省彝良县《一级注册建筑师之建筑物理与建筑设备》考试必背100题内部题库附答案(典型题).docx
- 2024年云南省弥渡县《一级注册建筑师之建筑物理与建筑设备》考试必背100题题库及参考答案(考试直接.docx
- 2024年云南省弥渡县《一级注册建筑师之建筑物理与建筑设备》考试真题题库附参考答案(满分必刷).docx
- 2024年云南省开远市《一级注册建筑师之建筑物理与建筑设备》考试题库附答案【巩固】.docx
- 2024年云南省弥渡县《一级注册建筑师之建筑物理与建筑设备》考试必背100题及答案解析.docx
- 2024年云南省弥渡县《一级注册建筑师之建筑物理与建筑设备》考试内部题库及参考答案(夺分金卷).docx
- 2024年云南省弥勒市《一级注册建筑师之建筑物理与建筑设备》考试必刷100题题库(考试直接用).docx
- 2024年云南省弥勒市《一级注册建筑师之建筑物理与建筑设备》资格考试内部题库【名校卷】.docx
- 2024年云南省弥渡县《一级注册建筑师之建筑物理与建筑设备》考试必背100题及答案解析.docx
- 2024年云南省弥勒市《一级注册建筑师之建筑物理与建筑设备》考试必刷100题题库(考试直接用).docx
最近下载
- (19三96)山西省尧都区部分联校课堂教学模式改革的研究与实践(名校课模讲座三之96).doc
- 硬笔楷书字帖常用字练习完整版整理.pdf
- 魏氏组织的形成原因及如何解决.doc
- 入职(电气技术员)测试题(含答案).doc
- 2022-2023年副主任医师(副高)-健康教育与健康促进(副高)考试题库1(含答案).docx VIP
- 2024年化工企业安全管理人员试题试题库真题A4版打印.docx
- 2023年PLC及其应用理论知识考核试题及答案.pdf
- 2024年电气控制与PLC专业知识考试题库及答案(含A.B卷).pdf VIP
- 使用林地可行性报告编写规范.pdf VIP
- 水产品 投标方案(技术方案).doc
文档评论(0)