- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术在水电厂生产领域的应用思考;;大数据的了解——4V特征具有4V特征的数据称为大数据 ;;;2;水电行业使用大数据的优势;;;数据服务;保存文件至hdfs : String hdfs_Adrress=new String(hdfs://10.144.118.241:9000/PM/);
Configuration conf=new Configuration();
String savePath=hdfs_Adrress+ siteId + / + type + / + relPath+ / + fileId+fileType;//fileName;
FileSystem fs=FileSystem.get(URI.create(savePath), conf);
Path path=new Path(savePath);
FSDataOutputStream writer = fs.create(path);
writer.write(content.getBytes(UTF-8));
writer.close();
fs.close();;Hadoop难以在企业中广泛普及的原因:
缺乏对象数据库连接(ODBC)——许多BI工具只能被迫构建不同的Hadoop连接器
Hadoop并不合用于全部类型的应用程序:
假如数据分片是相互关联的,或者需要进行跨数据分片的计算,就可能涉及连接操作,极难运营在Hadoop上。
Hadoop MR不适合迭代式计算的原因。
1)每次迭代从HDFS中获取数据的开销(由一种分布式缓存层来分摊)。
2)Hadoop中缺乏长久存活的MR作业。一般,在MR作业外必须要执行终止条件检验,以便判断计算是否完毕。这意味着在Hadoop的每一次迭代中,都需要初始化新的MR作业——初始化的开销可能会超出迭代计算本身,并可能造成明显的性能问题。;1.基础分析:基础的数据分析操作,例如计算均值、中值、方差,以及顺序统计量和计数等。对N个点而言,操作的时间复杂度:O(N)
易并行,非常适合Hadoop
2.线形代数运算:线性系统、特征值问题、以及诸如线性回归、主成份分析(PCA)之类的逆问题。
线性回归是Hadoop可解的(Mahout有有关的实现),而PCA却不轻易实现。
矩阵形式的多元统计公式在Hadoop上极难实现:核PCA以及核回归
3.广义的多体问题:距离、核,或者其他类型的点或者点集合(元组)间的关联性问题。计算复杂度:O(N2)甚至O(N3)
经典问题:范围搜索、近邻搜索问题、非线性降维措施
多体问题 简朴解:K均值聚类,可在Hadoop上实现;但复杂一点的例如核PCA、核支持向量机(SVM)以及核鉴别分析,就不行了
4.图论计算:图形式的数据、或者能够经过图来建模的问题。图数据的计算涉及:中心度、距离计算、以及排序。
当统计模型是一张图的时候,图的搜索就变得直观主要了。
概率的计算 ---- 推理
?
某些能够看成线性代数问题的图论计算,能够在Hadoop上处理,如上2
欧几里得图问题,极难在Hadoop上实现,广义的多体问题
在处理大规模的稀疏图时,会面临诸多计算的挑战,将他们在集群上进行分片会很困难。;5.优化:函数的最小化(凸)和最大化(凹)问题。——目的、损失、开销或者能力的函数
不同途径处理:随机措施非常适合在Hadoop中实现(Mahout有1个随机梯度下降的实现);线性及二次规划问题,极难再Hadoop上实现,因为涉及大矩阵上的复杂迭代和操作,尤其是高维矩阵。
有1个处理优化问题的措施,Hadoop上可解,但需要实现1个All-Reduce的构造(Agarwal等,2023),该措施不支持容错,也没措施进行泛化。
因为共轭梯度下降(CGD)本质上是迭代式的,极难在Hadoop上实现。(2023 BOYD
斯坦福大学的Stephen Boyd)结合对偶分解和增强拉格朗日的优化算法——交替方向乘子法(ADMM),有一种基于消息传递接口(MPI)的高效实现。
6.积分:贝叶斯推导及随机效应模型中,函数积分的数学操作
用于低维积分的正交法,能够在Hadoop上实现,但高维积分则不然。
处理高维积分的一种常见措施:马尔科夫链的蒙特卡罗措施(MCMC)(Andrieu,2023),极难在Hadoop上实现。MCMC本质是迭代式的,因为马尔科夫链需要在屡次迭代后收敛成平稳分布。
7.比对问题:涉及数据对象或者对象集合间匹配的问题。出目前许多不同的领域——反复图片的删除、天文学中不同仪器编载目录的匹配、计算生物学中的多重序列比对,等等。
简朴措施,就是将比对问题作为一种线性代数问题来处理——hadoop实现
其他形式极难在Hadoop实现
您可能关注的文档
最近下载
- 新编大学语文(周玲玉)课件—第3章:小说.pptx VIP
- 高中生物实验研究型课程校本教材(上).pdf VIP
- 铁路工务线路设备检查项目与常见病害解析.pdf VIP
- 中药二中成药“快速记忆”总结.docx VIP
- 2025年生物医药临床试验风险识别与质量控制优化策略研究报告.docx
- 实施指南《GB_T27785-2011卫生杀虫器械实验室效果测定及评价电子灭蚊蝇器》实施指南.docx VIP
- 新解读《GB_T 27785 - 2011卫生杀虫器械实验室效果测定及评价 电子灭蚊蝇器》.docx VIP
- 离任审计流程详解与核心工作底稿编制指南.docx VIP
- 美术高中绘画教材分析.doc VIP
- 遵义凤冈县辅警招聘考试真题2023.pdf VIP
文档评论(0)