网站大量收购独家精品文档,联系QQ:2885784924

大数据的挑战性问题及关键技术65.pdf

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据的挑战性问题及关键技术65大数据的挑战性问题及关键技术65

大数据的挑战性问题及关键技术 何 清 中国科学院计算技术研究所 2014/5/26 中国科学院计算技术研究所 1 ? 大数据挑战性问题 内容提要 ? 大数据挖掘算法 Outlines ? 大数据挖掘云服务平台 ? Web大数据挖掘平台 ? 典型案例 ? 展望 2014/5/26 中国科学院计算技术研究所 2 何谓大数据 ?维基百科: 大数据Big Data是指大小超出 了常用的软件工具在运行时间内可以承受 的收集,管理和处理数据能力的数据集 ?大数据是目前存储模式与能力、计算模式 与能力不能满足存储与处理现有数据集规 模产生的相对概念 何清——中国科学院计算技 3 2014/5/26 术研究所 大数据悖论 ? 1条数据=小数据 ? 真值为1 ?2条数据=小数据 ? 真值为(1 ? E ) ? 3条数据=小数据 ? 真值为(1 ? E )2 ? ……… ? ……… ?n条数据=小数据 ? 真值为(1 ? E )??? ?1 ?n +1条数据=小数据 ? 真值为(1 ? E )??? ? 有限条数据是小数据 ? 真值随条数增加趋于0 数学上看大数据 ?在数学上来看,计算机中存在不断变大的数据集, 不存在绝对的大数据 ?计算机中的所有数据集都是有限集合 ?计算机中不存在无限集合 ? 计算机中的大数据集不具有无限可分割性 ?没有比一个比特更小的数据单元 ? 计算机中的所有数据表达都有精度的限制 ?这种限制导致了算法精度的受限 ?计算机无法对无理数进行运算得到精确结果 2014/5/26 何清——中国科学院计算技术研究所 5 大数据的特征 ?稠密与稀疏共存:局部稠密与全局稀疏 ?冗余与缺失并在:大量冗余与局部缺失 ?显式与隐式均有:大量显式与丰富隐式 ?静态与动态忽现:动态演进与静态关联 ?多元与异质共处:多元多变与异质异性 ?量大与可用矛盾:量大低值与可用稀少 何清——中国科学院计算技 6 2014/5/26 术研究所 目前大数据的外延 ? 大数据规模大小是一个不断演化的指标 ?当前任务处理的单一的数据集 ?从数十TB到十几PB级的数据规模 ?TB?PB?EB?ZB ? 处理大数据的可等待的合理时间依赖任务的目标 ?地震数据预测要求在几分钟内才有效 ?气象数据应该在小时级别 ?失联飞机数据处理要在7天之内 ?数据挖掘一般要求在1

文档评论(0)

ganqludp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档