- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Hadoop平台的教育资源垂直搜索系统的设计与实现
总结与下一步工作 总结 本文主要论述了基于Hadoop平台的教育资源垂直搜索系统,着重研究了垂直搜索引擎技术,设计了垂直搜索引擎的架构.以及在Hadoop平台上的存储与查询。主要工作包括: 提出了基于Hadoop平台的教育资源垂直搜索系统(MDVSP)模型。包括切合本系统的分布式的集群整体框架和HDFS存放结构。 阐述了MDVSP中应用的关键技术,包括聚焦蜘蛛的原理和爬行算法。 设计了Map/Reduce的逻辑结构和数据流。 设计和封装了RPC远程调用协议。给出了设计思想和数据表示设计。 设计了MDVSP的高可用性设计(HA)。包括框架、原理和详细实现。 以JAVA和PERL为工具实现了MDVSP系统原型。 总结与下一步工作 下一步工作 由于数据量以及时间等各方面因素,以上研究尚存在许多不足,而信息服务技术的研究是永远没有止境的,尤其是教育资源有自身的特性,结合本文的工作,后续研究主要从以下几个方面展开: 优化聚焦爬虫的控制模块,提高效率。 提高用户查询的准确度,对用户检索结果过滤,以避免信息过量对用户造成的负担。 优化Hadoop平台,特别在负载均衡方面要重点研究。这是提高计算效率的关键部分。 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 实现效果 系统实现 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 实验结果对比 数据量 Oracle单机测试 基于Hadoop平台 节约时间 20万 1.1秒 1.4秒 -0.4秒 500万 7.6秒 3.1秒 4.5秒 1000万 29秒 10.4秒 18.6秒 2000万 42秒 13秒 29秒 5000万 78秒 18.8秒 50.2秒 我们的实验都是单层扩展,首先考察数据规模对Hadoop平台性能的影响。数据源分别20万、500万、1000万、2000万、5000万。初始节点个数为2。为了减少单次实验的偶然性,表中的实验结果是3次实验的平均值 系统实现 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 为了更直观地看到对比结果,我们将表用折线图表示出来,其中纵坐标是时间,纵坐标表示数据集的大小。 实验结果对比 系统实现 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 系统实现 对比结果表明: 随着数据量的不断增大,Hadoop版本系统节约的时间越多,优势越明显。 数据增加的时候,Oracle单击版系统用时增加幅度高于Hadoop版本系统。 数据量很小的时候,Hadoop版本系统的扩展效率反而不如Oracle。 实验结果与我们最初的预想有一定差距,因为在数据量增大的基础上Hadoop平台并没有表现出特别大的优势。重新分析一下实验,归结了以下原因: 第一, 对于我们的实验数据源按照一条记录1k大小来计算,5000万条记录实际上才只有40G的数据量。Hadoop平台只有在处理超大规模数据的时候才能显示出其优势。如果处理的数据源是通信企业内部的真实业务数据,Hadoop平台就会显示出强大的数据处理能力。处理小规模的数据集合的时候,反倒还不如传统的关系数据库效率高。 第二, 随着数据源的不断增加,新增节点不断地增加。有第四章可以知道,扩展出的新节点的数目会影响通信社会网络分析与可视化系统的性能。当然,这不是Hadoop自身的问题,而是因为我们将去重操作放在Combine函数中处理,影响了处理的效率。但这个影响是很小的,相对于Hadoop平台提高的效率可以忽略。因此我们可以得出初步的结论,Hadoop平台在处理大数据集时是有优势的,但是在处理小规模数据的时候,却不如传统的关系型数据库,这是因为任务调度等使用的时间已经不能忽略了。 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 内容概要 总结与下一步工作 系统的实现 关键技术阐述 基于Hadoop平台的MDVSP模型 研究的背景、现状和目标 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 Click to edit company slogan . 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 答辩人:孔 楠 导 师:张建明(教授) * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 内容概要 总结与下一步工作 系统的实现 关键技术阐述 基于Hadoop平台的MDVSP模型 研究的背景、现状和目标 * 基于Hadoop平台的教育资源垂直搜索系统的
您可能关注的文档
- 基于C51单片机的烟雾报警器设计.doc
- 基于DFT的信号识别系统_13信息工程_冯烨佳_1328405042_周旭_1328405049_岑福娟_1328405048_林力_1328405032.doc
- 基于DSP的C程序实验报告------快速傅立叶变换(FFT)算法.doc
- 基于ethercat总线技术的pc数控系统的发展现状与前景.docx
- 基于FPGA的四阶IIR数字滤波器.docx
- 基于FPGA的数字频率计的设计.docx
- 基于GSM模块的防盗报警系统-毕业论文设计终稿.doc
- 基于Java的资产管理与开发.ppt
- 基于LabVIEW三路抢答器.doc
- 基于labview的信号发生器.doc
- 北师大版(2024)八年级数学上册课件 3.2 平面直角坐标系 第2课时 点的坐标特征.pptx
- 北师大版(2024)八年级数学上册课件 3.2 平面直角坐标系 第3课时 建立适当的平面直角坐标系.pptx
- 北师大版(2024)八年级数学上册课件 4.3 一次函数的图象 第1课时 正比例函数的图象及性质.pptx
- (人教A版数学选择性必修三)讲义第15讲7.1.1条件概率(学生版+解析).docx
- (人教A版数学选择性必修三)讲义第19讲8.1成对数据的统计相关性(8.1.1变量的相关关系+8.1.2样本相关系数)(学生版+解析).docx
- 北师大版(2024)八年级数学上册课件 5.2 二元一次方程组的解法 第2课时 加减消元法.pptx
- (人教A版数学选择性必修一)2025年秋季学期讲义第01讲1.1.1空间向量及其线性运算(学生版+教师版).docx
- 北师大版(2024)八年级数学上册课件 5.2 二元一次方程组的解法 第1课时 代入消元法.pptx
- 北师大版(2024)八年级数学上册课件 5.3 二元一次方程组的应用 第3课时 二元一次方程组的应用(3).pptx
- 北师大版(2024)八年级数学上册课件 5.4 二元一次方程与一次函数 第2课时 用二元一次方程组确定一次函数表达式.pptx
文档评论(0)