- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
总结与下一步工作 总结 本文主要论述了基于Hadoop平台的教育资源垂直搜索系统,着重研究了垂直搜索引擎技术,设计了垂直搜索引擎的架构.以及在Hadoop平台上的存储与查询。主要工作包括: 提出了基于Hadoop平台的教育资源垂直搜索系统(MDVSP)模型。包括切合本系统的分布式的集群整体框架和HDFS存放结构。 阐述了MDVSP中应用的关键技术,包括聚焦蜘蛛的原理和爬行算法。 设计了Map/Reduce的逻辑结构和数据流。 设计和封装了RPC远程调用协议。给出了设计思想和数据表示设计。 设计了MDVSP的高可用性设计(HA)。包括框架、原理和详细实现。 以JAVA和PERL为工具实现了MDVSP系统原型。 总结与下一步工作 下一步工作 由于数据量以及时间等各方面因素,以上研究尚存在许多不足,而信息服务技术的研究是永远没有止境的,尤其是教育资源有自身的特性,结合本文的工作,后续研究主要从以下几个方面展开: 优化聚焦爬虫的控制模块,提高效率。 提高用户查询的准确度,对用户检索结果过滤,以避免信息过量对用户造成的负担。 优化Hadoop平台,特别在负载均衡方面要重点研究。这是提高计算效率的关键部分。 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 实现效果 系统实现 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 实验结果对比 数据量 Oracle单机测试 基于Hadoop平台 节约时间 20万 1.1秒 1.4秒 -0.4秒 500万 7.6秒 3.1秒 4.5秒 1000万 29秒 10.4秒 18.6秒 2000万 42秒 13秒 29秒 5000万 78秒 18.8秒 50.2秒 我们的实验都是单层扩展,首先考察数据规模对Hadoop平台性能的影响。数据源分别20万、500万、1000万、2000万、5000万。初始节点个数为2。为了减少单次实验的偶然性,表中的实验结果是3次实验的平均值 系统实现 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 为了更直观地看到对比结果,我们将表用折线图表示出来,其中纵坐标是时间,纵坐标表示数据集的大小。 实验结果对比 系统实现 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 系统实现 对比结果表明: 随着数据量的不断增大,Hadoop版本系统节约的时间越多,优势越明显。 数据增加的时候,Oracle单击版系统用时增加幅度高于Hadoop版本系统。 数据量很小的时候,Hadoop版本系统的扩展效率反而不如Oracle。 实验结果与我们最初的预想有一定差距,因为在数据量增大的基础上Hadoop平台并没有表现出特别大的优势。重新分析一下实验,归结了以下原因: 第一, 对于我们的实验数据源按照一条记录1k大小来计算,5000万条记录实际上才只有40G的数据量。Hadoop平台只有在处理超大规模数据的时候才能显示出其优势。如果处理的数据源是通信企业内部的真实业务数据,Hadoop平台就会显示出强大的数据处理能力。处理小规模的数据集合的时候,反倒还不如传统的关系数据库效率高。 第二, 随着数据源的不断增加,新增节点不断地增加。有第四章可以知道,扩展出的新节点的数目会影响通信社会网络分析与可视化系统的性能。当然,这不是Hadoop自身的问题,而是因为我们将去重操作放在Combine函数中处理,影响了处理的效率。但这个影响是很小的,相对于Hadoop平台提高的效率可以忽略。因此我们可以得出初步的结论,Hadoop平台在处理大数据集时是有优势的,但是在处理小规模数据的时候,却不如传统的关系型数据库,这是因为任务调度等使用的时间已经不能忽略了。 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 内容概要 总结与下一步工作 系统的实现 关键技术阐述 基于Hadoop平台的MDVSP模型 研究的背景、现状和目标 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 Click to edit company slogan . 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 答辩人:孔 楠 导 师:张建明(教授) * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 内容概要 总结与下一步工作 系统的实现 关键技术阐述 基于Hadoop平台的MDVSP模型 研究的背景、现状和目标 * 基于Hadoop平台的教育资源垂直搜索系统的
您可能关注的文档
- 基于DCT的JPEG图像编解码..ppt
- 基于DLX指令集的5级流水线CPU设计与实现..doc
- 基于DSPBuilder的FIR数字滤波器的设计与实现..doc
- 基于DSP的信号解调QPSK..docx
- 基于DSP语音信号采集系统的设计1..doc
- 基于DSP直流电机控制(20121021)..doc
- 基于Elman神经网络的峰值检波方法..pptx
- 基于FPGA的CDMA数字基带系统设计..docx
- 基于FPGA的LCD驱动显示电路的设计与实现..doc
- 基于FPGA的MFSK调制电路设计与仿真..doc
- 2025年4月深圳市初三质量检测九年级语文试卷含答案.pdf
- 2025年常州工程职业技术学院专业技术岗、管理岗招聘笔试模拟试题及答案详解一套.docx
- 云南省人力资源咨询服务中心12333咨询服务热线工作人员招聘笔试备考题库附答案详解.docx
- 2025年天津市工读学校(专门教育学校)招聘5人方案笔试模拟试题及参考答案详解.docx
- 2025年云南德宏州事业单位考试招聘教师171人笔试模拟试题及参考答案详解1套.docx
- 浙江金华永康市环境卫生管理处工作人员招聘笔试模拟试题含答案详解.docx
- 2025年 企业人力资源管理师[四级]考试模拟试卷[附答案].docx
- 2025年广东广州市越秀区农林街招聘辅助人员笔试模拟试题附答案详解.docx
- 工程承包安全合同6篇.docx
- 2024年湖南怀化市总工会所属事业单位招聘和选调5人笔试模拟试题参考答案详解.docx
文档评论(0)