- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于云计算的大数据挖掘讲座笔记
学术讲座笔记
题 目:基于云计算的大数据挖掘
院 (系): 信息与通信学院
专 业: 通信工程
学生姓名:
学 号:
主 讲 人: 史忠植
职 称: 研究员
2012年 10 月11日
随着信息技术的发展,云计算和大数据成为信息科技最新的亮点,云计算提供数据处理和信息共享的平台,而大数据考虑分析算法和系统的效率。互联网使得信息成为数据库,搜索引擎从海量语料库中发现知识。随着互联网、物联网、电视网、电信网、数字家庭等广泛应用与普及,以及生命科学、天文、地理等领域的发展,数据量将达到Terabyte、Petabyte、甚至Exabyte级。如何快速、准确、实时、方便地从如此庞大的、分散的大数据中获取所需要的知识,是当前面临的重要问题,是科学技术及产业领域研究的前沿课题之一。vector-valued data);
⑶ 数据一般一次性调进内存进行处理;
⑷ 典型的系统如Salford Systems公司早期的CART系统。
缺陷:如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。
新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测。
1.2 第二代数据挖掘软件
特点:
⑴ 与数据库管理系统(DBMS)集成;
⑵ 支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性;
⑶ 能够挖掘大数据集、以及更复杂的数据集;
⑷ 通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言增加系统的灵活性;
⑸ 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作。
缺陷:只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发。
1.3 第三代数据挖掘软件
特点:
⑴ 和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中;
⑵ 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能;
⑶ 能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成。
缺陷:不能支持移动环境。
第三代软件SPSS lementine以PMML的格式提供与预言模型系统的接口。
1.4 第四代数据挖掘软件
特点:
⑴ 目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域;
⑵ 第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)Amazon、IBM、微软、Yahoo等的“云”均拥有50多万台服务器。“云”能赋予用户超强的计算能力。
(2)资源虚拟化。云计算支持用户在不同地理位置、使用各种终端获取服务。所请求的资源,是动态且无形的。应用在“云”中某处运行,但实际上用户不必关系它的具体位置。
(3)可靠性较高。为了使用云计算更可靠,“云”采用了数据多副本容错等措施来保障其高可靠性的服务。
(4)较强的通用性。由于在““云”的支撑下可以构造出于变万化的应用,所以,云计算针对的是变化的应用,而对于不同的应用运行可以由同一个“云”支撑。
(5)可扩展性。尽管应用和用户规模在不断的增长。“云”的规模也可以通过动态伸缩而满足的这些需要。
(6)按需服务。云可以象自来水,电,煤气那样计费,因此,用户可以按自已的需要进行购买。
(7)价格低廉。因为“云”可以由极其廉价的节点来构成,所以“云”无需负担越来越高的数据中心管理成本。用户在享受“云”的低成本优势的同时。传统系统的资源利用率也因为“云”得到了提高。
3 基于云计算的数据挖掘的优势
用云计算的方式来处理海量数据进行挖掘的优势有以下三个方面:
(1)由于数据挖掘处理的数据足海量的,要从海量的数据中挖掘出理解的知识,大规模的数据挖掘足必须的。并且随着互联网上数据的快速增长,数据挖掘的任务远比搜索任务要复杂,导致了在挖掘过程中需要有很好的开发环境和应用环境。这种情况下,基于云计算的方式是比较合适的。
(2)基于云计算实现低成本分布式并行计算环境,因此,企业的数据处理成本大大的降低,同时也不再依存于高性能的机器。
(3)基于云计算的数据挖掘开发方便,屏蔽了底层。在并行化条件下。云计算能够利用原有设备提高对大规模数据的处理能力和速度,既保
原创力文档


文档评论(0)