查阅的文章(笔记).docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
查阅的文章(笔记)

基于Hadoop平台的通信数据分布式查询算法的设计与实现 2009 陈勇 需求:由于社会网络分析所处理的数据通常是很庞大的。因而对数据处理的能力要求很高。对于该系统来说,图的分层扩展涉及到在海量数据中进行查询,因而对数据查询效率有着较高的要求。采用传统的关系型数据库Oracle或SQL Server等虽然能够满足复杂条件的查询,但在处理TB级的大规模原始数据集时就显得力不从心。同时,需要在海量原始数据中进行遍历操作,这在关系数据库中的效率是很低的。以上情况就迫切需要我们解决数据查询和处理中存在的瓶颈。在分析了现有分布式存储与云计算平台的基础上,本文提出了一种基于分布式数据存储和查询改进方案。 解决的问题:在Hadoop平台上实现了分布式存储与查询,实现了Hbase数据库上的条件查询,提高了数据查询效率。实现数据访问服务。 采用的技术手段:采用适合网络数据特色的Map/Reduce算法。通过Map和Reduce函数实现了数据的并行查询和处理。将数据遍历过程放在Reduce函数中,从而使得层次遍历过程也能够并行运行,这在很大程度上优化了数据查询和分层扩展的效率。 意义:Hadoop平台只需要部署在普通的廉价PC机上即可运行,这就大大节约了实施分布式系统投入的成本,数据处理能力却很强,因此具有很高的现实意义与应用价值。 注:Hbase是一个基于列模式的映射数据库,它只能表示很简单的的映射关系。这样设计的可视化系统模型相对于传统的、等关系型数据模型的优点主要有以下几个方面存储模式,是基于列存储的,每个列族都有几个文件保存,不同列族的文件是分离的。传统的关系数据库是基于表格结构和行模式保存的。所以Hbase中关联性强的数据在物理存储上是在一起或者非常靠近的。这样查询不仅查询效率高。还很容易控制整个系统的传输平衡。而关系型数据库的数据模型在数据库存储数据是随机的。查询是用关系表等手段实现的。查询效率比较低。数据维护,的更新正确来说应该不叫更新,而且一个主键或者列对应的新的版本,而它旧有的版本仍然会保留,所以它实际上是插入了新的数据,而不是传统关系数据库里面的替换修改。可伸缩性,和这类分布式数据库就是直接为了这个目的开发出来的,能够轻易的增加或者减少在硬件错误的时候硬件数量,而且对错误的兼容性比较高。而传统的关系数据库通常需要增加中间层才能实现类似的功能。 海量用电数据并行聚类分析 刘晓悦 郭强 华北理工大学 2016 需求:生活提高,用电需求急剧增加。电能具有不易存储的特点,决定了电力生产“即产即销”。规模也随之增加,每日要采集及处理的用电数据量呈指数级增长。针对用电数据量大的难题,寻找高效、准确 的数据挖掘算法,成为用电领域亟待解决的问题。 Hadoop是一种开源的分布式系统平台,具有扩展能力强、成本低、效率高以及可靠性好等特点,轻松地构建一个高效的分布系统。 方案:首先通过 Canopy 算法进行聚类,以确定聚类个数以及初始聚类中心,接着通过 K-means 算法进行迭代运算,收敛出最后的聚类结果。 为验证本文所实现的算法适宜海量数据的处理,比较提出的并行聚类算法与传统聚类算法的处理效率差别,通过测试不同大小的数据集,查看聚类效率的变化。 主要研究工作: 结合 Hadoop 平台,实现了基于 Canopy 的 K-means 并行聚类算法, 基于居民用电数据,在 Hadoop 集群上进行测试,验证了在用电数据分析方面的高效性和可行性。 基于Hadoop的数据聚类算法研究 徐正巧 赵德伟 西华师范大学 2015 并行聚类算法能够在多台计算机上同时运行,满足云计算需求,节约了大量计算机资源。目前,并行聚类算法有:并行聚类算法PWIDE、并行K-Means算法、基于密度和密度可达并行聚类算法PCADD等。 基于Hadoop数据分析系统设计和实现 问题:对目前海量数据处理遇到的数据收集、数据存储、数据分析和海量数据查询等问题进行分析。 方案:先采用分布式文件系统(HDFS)存储源数据,然后采用分布式计算模型(Map Reduce)对数据进行处理,再用分布 式 数 据 库 (HBase)将 系 统 处 理 后 的 数 据 进 行存储。 通过与传统的基于关系型数据库的数据分析模型和基于Hadoop的海量数据系统之间,可以看出Hadoop在海量数据系统之间的比较,可以看出Hadoop在海量数据处理过程中,有着易扩展、成本低、吞吐量大等特点。传统的关系型数据库在海量数据查询遇到的问题。采用Hadoop框架,使用HDFS解决了海量数据的存储问题,使用Mapreduce编程框架解决了海量数据处理的问题。 海量数据的高效率存储和访问的问题。采用传统的关系型数据库,则会出现在一张包含亿条记录甚至更多的数据表里面进

文档评论(0)

2017ll + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档