- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于云计算的数据挖掘
基于云计算的数据挖掘 学生:孙越 基于云计算的数据挖掘 前言 基于云计算的数据挖掘策略 数据挖掘平台云架构 基于云计算数据挖掘的关键技术 K-means 算法 朴素贝叶斯算法 前言 随着云计算时代的到来,传统数据挖掘系统在海量数据的分析挖掘方面存在性能瓶颈。基于云计算的数据挖掘平台,该平台与传统的数据挖掘系统架构相比有高可扩展性、海量数据处理能力、面向服务、硬件成本低廉等优越性,可以支持大范围分布式数据挖掘的设计和应用。 云计算 云计算具有的特点? (1) 虚拟化 (2) 通用性 (3) 高可扩展性及超大规模 (4) 可靠性高 (5) 经济性好 数据挖掘:数据挖掘是一个从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取隐含在其中的但具有潜在实用信息和知识的过程。 数据挖掘的意义:海量数据本身具有噪声、异构、算法复杂、技术复杂等问题,而现在的云计算开发平台并没有提供数据规约等功能。 数据挖掘步骤 数据挖掘云架构 云计算 支撑平台层 数据挖掘云服务层 数据挖掘 能力层 传统的数据挖掘技术在云时代的海量数据中的不足? (1)挖掘效率,传统的基于单机的挖掘算法或基于数据库、数据仓库的挖掘技术及并行挖掘已经很难高效地完成海量数据的分析; (2)高昂的软硬件成本也阻止了云时代数据挖掘系统的发展; (3)传统的体系架构不能完成挖掘算法能力的提供,基本是在以单个算法为整体模块,用户只能使用已有的算法或重新编写算法完成自己独特的业务。 第三,云计算的数据挖掘开发方便。 基于云计算的数据挖掘的优势 第一,数据挖掘处理的数据是海量的,云计算可方便的进行大规模的数据挖掘。 第二,成本低。 基于云计算数据挖掘面临的问题和挑战 2) 不确定性 。 1) 基于云计算数据挖掘算法的并行性存在一些挑战 。 3) 数据挖掘的方法和结果具有不确定性 。 4) 挖掘结果的评价也是不确定的 。 5) 软件 、服务可信方面的问题与挑战 。 K-means 算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。 K-means 算法 K-means 算法步骤 K-means 算法流程图 (a) 下面几幅图展示了对n个样本点进行K-means聚类的效果的实例,这里k取2 (b) (c) (d) (e) (f)
原创力文档


文档评论(0)