基于Hadoop平台的教育资源垂直搜索系统的设计与实现汇总.ppt

基于Hadoop平台的教育资源垂直搜索系统的设计与实现汇总.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
总结与下一步工作 总结 本文主要论述了基于Hadoop平台的教育资源垂直搜索系统,着重研究了垂直搜索引擎技术,设计了垂直搜索引擎的架构.以及在Hadoop平台上的存储与查询。主要工作包括: 提出了基于Hadoop平台的教育资源垂直搜索系统(MDVSP)模型。包括切合本系统的分布式的集群整体框架和HDFS存放结构。 阐述了MDVSP中应用的关键技术,包括聚焦蜘蛛的原理和爬行算法。 设计了Map/Reduce的逻辑结构和数据流。 设计和封装了RPC远程调用协议。给出了设计思想和数据表示设计。 设计了MDVSP的高可用性设计(HA)。包括框架、原理和详细实现。 以JAVA和PERL为工具实现了MDVSP系统原型。 总结与下一步工作 下一步工作 由于数据量以及时间等各方面因素,以上研究尚存在许多不足,而信息服务技术的研究是永远没有止境的,尤其是教育资源有自身的特性,结合本文的工作,后续研究主要从以下几个方面展开: 优化聚焦爬虫的控制模块,提高效率。 提高用户查询的准确度,对用户检索结果过滤,以避免信息过量对用户造成的负担。 优化Hadoop平台,特别在负载均衡方面要重点研究。这是提高计算效率的关键部分。 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 实现效果 系统实现 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 实验结果对比 数据量 Oracle单机测试 基于Hadoop平台 节约时间 20万 1.1秒 1.4秒 -0.4秒 500万 7.6秒 3.1秒 4.5秒 1000万 29秒 10.4秒 18.6秒 2000万 42秒 13秒 29秒 5000万 78秒 18.8秒 50.2秒 我们的实验都是单层扩展,首先考察数据规模对Hadoop平台性能的影响。数据源分别20万、500万、1000万、2000万、5000万。初始节点个数为2。为了减少单次实验的偶然性,表中的实验结果是3次实验的平均值 系统实现 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 为了更直观地看到对比结果,我们将表用折线图表示出来,其中纵坐标是时间,纵坐标表示数据集的大小。 实验结果对比 系统实现 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 系统实现 对比结果表明: 随着数据量的不断增大,Hadoop版本系统节约的时间越多,优势越明显。 数据增加的时候,Oracle单击版系统用时增加幅度高于Hadoop版本系统。 数据量很小的时候,Hadoop版本系统的扩展效率反而不如Oracle。 实验结果与我们最初的预想有一定差距,因为在数据量增大的基础上Hadoop平台并没有表现出特别大的优势。重新分析一下实验,归结了以下原因: 第一, 对于我们的实验数据源按照一条记录1k大小来计算,5000万条记录实际上才只有40G的数据量。Hadoop平台只有在处理超大规模数据的时候才能显示出其优势。如果处理的数据源是通信企业内部的真实业务数据,Hadoop平台就会显示出强大的数据处理能力。处理小规模的数据集合的时候,反倒还不如传统的关系数据库效率高。 第二, 随着数据源的不断增加,新增节点不断地增加。有第四章可以知道,扩展出的新节点的数目会影响通信社会网络分析与可视化系统的性能。当然,这不是Hadoop自身的问题,而是因为我们将去重操作放在Combine函数中处理,影响了处理的效率。但这个影响是很小的,相对于Hadoop平台提高的效率可以忽略。因此我们可以得出初步的结论,Hadoop平台在处理大数据集时是有优势的,但是在处理小规模数据的时候,却不如传统的关系型数据库,这是因为任务调度等使用的时间已经不能忽略了。 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 内容概要 总结与下一步工作 系统的实现 关键技术阐述 基于Hadoop平台的MDVSP模型 研究的背景、现状和目标 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 Click to edit company slogan . 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 答辩人:孔 楠 导 师:张建明(教授) * 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 内容概要 总结与下一步工作 系统的实现 关键技术阐述 基于Hadoop平台的MDVSP模型 研究的背景、现状和目标 * 基于Hadoop平台的教育资源垂直搜索系统的

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档