- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
查阅的文章(笔记)
基于Hadoop平台的通信数据分布式查询算法的设计与实现 2009 陈勇
需求:由于社会网络分析所处理的数据通常是很庞大的。因而对数据处理的能力要求很高。对于该系统来说,图的分层扩展涉及到在海量数据中进行查询,因而对数据查询效率有着较高的要求。采用传统的关系型数据库Oracle或SQL Server等虽然能够满足复杂条件的查询,但在处理TB级的大规模原始数据集时就显得力不从心。同时,需要在海量原始数据中进行遍历操作,这在关系数据库中的效率是很低的。以上情况就迫切需要我们解决数据查询和处理中存在的瓶颈。在分析了现有分布式存储与云计算平台的基础上,本文提出了一种基于分布式数据存储和查询改进方案。
解决的问题:在Hadoop平台上实现了分布式存储与查询,实现了Hbase数据库上的条件查询,提高了数据查询效率。实现数据访问服务。
采用的技术手段:采用适合网络数据特色的Map/Reduce算法。通过Map和Reduce函数实现了数据的并行查询和处理。将数据遍历过程放在Reduce函数中,从而使得层次遍历过程也能够并行运行,这在很大程度上优化了数据查询和分层扩展的效率。
意义:Hadoop平台只需要部署在普通的廉价PC机上即可运行,这就大大节约了实施分布式系统投入的成本,数据处理能力却很强,因此具有很高的现实意义与应用价值。
注:Hbase是一个基于列模式的映射数据库,它只能表示很简单的的映射关系。这样设计的可视化系统模型相对于传统的、等关系型数据模型的优点主要有以下几个方面存储模式,是基于列存储的,每个列族都有几个文件保存,不同列族的文件是分离的。传统的关系数据库是基于表格结构和行模式保存的。所以Hbase中关联性强的数据在物理存储上是在一起或者非常靠近的。这样查询不仅查询效率高。还很容易控制整个系统的传输平衡。而关系型数据库的数据模型在数据库存储数据是随机的。查询是用关系表等手段实现的。查询效率比较低。数据维护,的更新正确来说应该不叫更新,而且一个主键或者列对应的新的版本,而它旧有的版本仍然会保留,所以它实际上是插入了新的数据,而不是传统关系数据库里面的替换修改。可伸缩性,和这类分布式数据库就是直接为了这个目的开发出来的,能够轻易的增加或者减少在硬件错误的时候硬件数量,而且对错误的兼容性比较高。而传统的关系数据库通常需要增加中间层才能实现类似的功能。
海量用电数据并行聚类分析 刘晓悦 郭强 华北理工大学 2016
需求:生活提高,用电需求急剧增加。电能具有不易存储的特点,决定了电力生产“即产即销”。规模也随之增加,每日要采集及处理的用电数据量呈指数级增长。针对用电数据量大的难题,寻找高效、准确 的数据挖掘算法,成为用电领域亟待解决的问题。 Hadoop是一种开源的分布式系统平台,具有扩展能力强、成本低、效率高以及可靠性好等特点,轻松地构建一个高效的分布系统。
方案:首先通过 Canopy 算法进行聚类,以确定聚类个数以及初始聚类中心,接着通过 K-means 算法进行迭代运算,收敛出最后的聚类结果。
为验证本文所实现的算法适宜海量数据的处理,比较提出的并行聚类算法与传统聚类算法的处理效率差别,通过测试不同大小的数据集,查看聚类效率的变化。
主要研究工作:
结合 Hadoop 平台,实现了基于 Canopy 的 K-means 并行聚类算法,
基于居民用电数据,在 Hadoop 集群上进行测试,验证了在用电数据分析方面的高效性和可行性。
基于Hadoop的数据聚类算法研究 徐正巧 赵德伟 西华师范大学 2015
并行聚类算法能够在多台计算机上同时运行,满足云计算需求,节约了大量计算机资源。目前,并行聚类算法有:并行聚类算法PWIDE、并行K-Means算法、基于密度和密度可达并行聚类算法PCADD等。
基于Hadoop数据分析系统设计和实现
问题:对目前海量数据处理遇到的数据收集、数据存储、数据分析和海量数据查询等问题进行分析。
方案:先采用分布式文件系统(HDFS)存储源数据,然后采用分布式计算模型(Map Reduce)对数据进行处理,再用分布 式 数 据 库 (HBase)将 系 统 处 理 后 的 数 据 进 行存储。
通过与传统的基于关系型数据库的数据分析模型和基于Hadoop的海量数据系统之间,可以看出Hadoop在海量数据系统之间的比较,可以看出Hadoop在海量数据处理过程中,有着易扩展、成本低、吞吐量大等特点。传统的关系型数据库在海量数据查询遇到的问题。采用Hadoop框架,使用HDFS解决了海量数据的存储问题,使用Mapreduce编程框架解决了海量数据处理的问题。
海量数据的高效率存储和访问的问题。采用传统的关系型数据库,则会出现在一张包含亿条记录甚至更多的数据表里面进
您可能关注的文档
- xxx医院安全隐患排查整治工作方案.doc
- xx村“省卫生村”自查报告.doc
- xx酒店总统套房样板间机电配置建议书.docx
- xx公司档案管理应急预案.doc
- xx今冬明春火灾防控实施方案.doc
- xx发电公司防洪度汛方案.doc
- 实验室玻璃仪器的洗涤大全.doc
- 实验室实习报告doc.doc
- 实验小学教师继续教育培训实施方案.doc
- 审美鉴赏主题班会.doc
- 2025至2030中国氧气瓶和浓缩器行业发展研究与产业战略规划分析评估报告.docx
- 2025至2030全球及中国主充值API行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030中国叶酸片行业发展分析及市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030熔盐电池行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030病毒性结膜炎行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030数字文旅行业市场深度调研及发展规划及有效策略与实施路径评估报告.docx
- 2025“宪法宣传周”知识问答PPT课件.pptx
- 数读2025中央经济工作会议要点内容PPT课件.pptx
- 2025中央经济工作会议PPT总结2025年经济工作部署2026年经济工作(含文字稿).pptx
- 2025推进党的自我革命要做到“五个进一步到位”PPT课件.pptx
最近下载
- 中国铁矿选矿新技术和新工艺.ppt VIP
- 2025年中国全自动振荡仪行业市场全景评估及投资前景展望报告.docx
- AI可信数据空间白皮书-.pptx VIP
- 票管员的年度总结.pptx VIP
- 5篇中心医院医德医风谈话谈心记录(系列完整版).pdf
- T_ZZXJX 18-2021 现浇混凝土空心楼盖结构工程施工及验收技术规程.docx VIP
- 全国大学生职业规划大赛《医学美容技术》专业生涯发展展示PPT【高职(专科)】 .pptx
- 21 小圣施威降大圣 课件(共34张PPT).ppt VIP
- 新时代教育强国的根本遵循知到智慧树期末考试答案题库2025年喀什大学.docx VIP
- 混凝土冬季施工质量控制培训课件.pptx VIP
原创力文档


文档评论(0)