查阅的文章(笔记).docVIP

下载本文档

2
0
约4.06千字
约 3页
2017-03-29 发布于重庆
举报
版权申诉

查阅的文章(笔记).doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

查阅的文章(笔记)

基于Hadoop平台的通信数据分布式查询算法的设计与实现 2009 陈勇需求：由于社会网络分析所处理的数据通常是很庞大的。因而对数据处理的能力要求很高。对于该系统来说，图的分层扩展涉及到在海量数据中进行查询，因而对数据查询效率有着较高的要求。采用传统的关系型数据库Oracle或SQL Server等虽然能够满足复杂条件的查询，但在处理TB级的大规模原始数据集时就显得力不从心。同时，需要在海量原始数据中进行遍历操作，这在关系数据库中的效率是很低的。以上情况就迫切需要我们解决数据查询和处理中存在的瓶颈。在分析了现有分布式存储与云计算平台的基础上，本文提出了一种基于分布式数据存储和查询改进方案。解决的问题：在Hadoop平台上实现了分布式存储与查询，实现了Hbase数据库上的条件查询，提高了数据查询效率。实现数据访问服务。采用的技术手段：采用适合网络数据特色的Map/Reduce算法。通过Map和Reduce函数实现了数据的并行查询和处理。将数据遍历过程放在Reduce函数中，从而使得层次遍历过程也能够并行运行，这在很大程度上优化了数据查询和分层扩展的效率。意义：Hadoop平台只需要部署在普通的廉价PC机上即可运行，这就大大节约了实施分布式系统投入的成本，数据处理能力却很强，因此具有很高的现实意义与应用价值。注：Hbase是一个基于列模式的映射数据库,它只能表示很简单的的映射关系。这样设计的可视化系统模型相对于传统的、等关系型数据模型的优点主要有以下几个方面存储模式,是基于列存储的,每个列族都有几个文件保存,不同列族的文件是分离的。传统的关系数据库是基于表格结构和行模式保存的。所以Hbase中关联性强的数据在物理存储上是在一起或者非常靠近的。这样查询不仅查询效率高。还很容易控制整个系统的传输平衡。而关系型数据库的数据模型在数据库存储数据是随机的。查询是用关系表等手段实现的。查询效率比较低。数据维护,的更新正确来说应该不叫更新,而且一个主键或者列对应的新的版本,而它旧有的版本仍然会保留,所以它实际上是插入了新的数据,而不是传统关系数据库里面的替换修改。可伸缩性,和这类分布式数据库就是直接为了这个目的开发出来的,能够轻易的增加或者减少在硬件错误的时候硬件数量,而且对错误的兼容性比较高。而传统的关系数据库通常需要增加中间层才能实现类似的功能。海量用电数据并行聚类分析刘晓悦郭强华北理工大学 2016 需求：生活提高，用电需求急剧增加。电能具有不易存储的特点，决定了电力生产“即产即销”。规模也随之增加，每日要采集及处理的用电数据量呈指数级增长。针对用电数据量大的难题，寻找高效、准确的数据挖掘算法，成为用电领域亟待解决的问题。 Hadoop是一种开源的分布式系统平台，具有扩展能力强、成本低、效率高以及可靠性好等特点，轻松地构建一个高效的分布系统。方案：首先通过 Canopy 算法进行聚类，以确定聚类个数以及初始聚类中心，接着通过 K-means 算法进行迭代运算，收敛出最后的聚类结果。为验证本文所实现的算法适宜海量数据的处理，比较提出的并行聚类算法与传统聚类算法的处理效率差别，通过测试不同大小的数据集，查看聚类效率的变化。主要研究工作：结合 Hadoop 平台，实现了基于 Canopy 的 K-means 并行聚类算法，基于居民用电数据，在 Hadoop 集群上进行测试，验证了在用电数据分析方面的高效性和可行性。基于Hadoop的数据聚类算法研究徐正巧赵德伟西华师范大学 2015 并行聚类算法能够在多台计算机上同时运行，满足云计算需求，节约了大量计算机资源。目前，并行聚类算法有：并行聚类算法PWIDE、并行K-Means算法、基于密度和密度可达并行聚类算法PCADD等。基于Hadoop数据分析系统设计和实现问题：对目前海量数据处理遇到的数据收集、数据存储、数据分析和海量数据查询等问题进行分析。方案：先采用分布式文件系统(HDFS)存储源数据,然后采用分布式计算模型(Map Reduce)对数据进行处理,再用分布式数据库 (HBase)将系统处理后的数据进行存储。通过与传统的基于关系型数据库的数据分析模型和基于Hadoop的海量数据系统之间，可以看出Hadoop在海量数据系统之间的比较，可以看出Hadoop在海量数据处理过程中，有着易扩展、成本低、吞吐量大等特点。传统的关系型数据库在海量数据查询遇到的问题。采用Hadoop框架，使用HDFS解决了海量数据的存储问题，使用Mapreduce编程框架解决了海量数据处理的问题。海量数据的高效率存储和访问的问题。采用传统的关系型数据库,则会出现在一张包含亿条记录甚至更多的数据表里面进