大数据及其运用中的理解与误解(bofang)精要.pptx

大数据及其运用中的理解与误解(bofang)精要.pptx

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据及其运用中的理解与误解(bofang)精要

对大数据及其应用的理解与误解 邱泽奇 提纲 1 人类活动 2 痕迹 3 证据 4 数据 5 大数据 1 变不可能为可能 2 变推测为确证 3 变不可预知为可预知 4 日常生活中的运用 理解 运用 误解 1 大数据是大泡沫 2 大数据是大价值 3 大数据是大篡改 暖场:大数据热? 2016年被称之为中国的“大数据之年”,国家推行“大数据战略”,各行各业在谈论大数据。5月25日,李克强总理出席在贵阳召开的大数据产业峰会。 主办:国家发展改革委、工业和信息化部、商务部、中央网信办、贵州省人民政府 腾讯-马化腾 戴尔-戴尔 高通-阿博利 京东-刘强东 滴滴-程维 奇虎-齐向东 HTC-王雪红 阿里-王坚 百度-李彦宏 阿里-马云 国务院印发 《促进大数据发展行动纲要》 2015年9月 微软研究院首席研究员、麻省理工学院公民媒体中心客座教授 凯特?克劳福德 “有了足够的数据,数字就可以自己说话” “大数据将使我们的城市变得更加智能和高效” “大数据对不同的社会群体不会厚此薄彼” “大数据是匿名的,因此它不会侵犯我们的隐私” “大数据是科学的未来” 我理解的大数据 留存 数据化 网络化汇集存储 造痕 数据 大数据 人类活动 痕迹 证据 人类活动 痕迹 数据 大数据 证据 生产生活 人际交流 人类活动 痕迹 历史学 考古学 历史学和考古学,都形成了各自的研究体系 把痕迹作为证据的方法,和社会科学对数据的运用一致 现代社会科学对过去痕迹证据的应用,形成了与历史学、考古学交叉的研究问题、甚至研究领域 痕迹 痕迹 证据 痕迹证据,是侦查研究的对象之一,如痕迹证据 人类的社会活动,时时刻刻都在留下痕迹,现在留下的痕迹,形成了 社会人为事实,是社会科学研究的对象之一,如观察的场景 痕迹证据 痕迹证据 数据 证据 从人类诞生至今,人类活动的绝大部分痕迹,随时间而消逝 留下来的是极少一部分,无论是物化的痕迹,还是数据化的痕迹 痕迹证据 数据 证据 痕迹证据 痕迹数据 数据化存储 数字化存储技术的发展,让存储变得快捷、成本更低 痕迹证据,转化为了痕迹数据 数据化了的痕迹,就是社会学研究常见的文献调查、观察调查的数据 数据 大数据 数据 数据 数据 数据 数据 数据 数据 数据 大数据 互联网技术的发展,让痕迹数据变成了大数据 痕迹数据记录从分散通过网络汇聚、存储 个案性的痕迹数据,汇聚成了社会性的在线数据流、大数据 在造痕的同时就被数据化 汇集了大量痕迹数据 痕迹三要素 任何的痕迹,都是由行动者作用于对象而留下的记录,无论作用的方式是什么;没有造痕者,就没有痕迹 造痕者 痕迹三要素 造痕者 任何痕迹,只有行动者的言行留下了记录,才会被称之为痕迹,记录行动者言行的载体,就是承痕体 承痕体 痕迹三要素 造痕者 作用力 行动者在承痕体上留下记录的作用力,无论是物理性的,还是其他的 若将留在木头上的痕迹数据化(如痕迹形状、长度、深度等),则痕迹证据就转变为了痕迹数据 承痕体 什么是 大数据? 四个“V” McKinsey Company IBM 速度(velocity) 数量(volume) 形态(variety) 价值(value) 邱泽奇 什么是大数据 数量 形态 价值 速度 数量 基本定义围绕着数据量 数据集的大小,超出了人类在可接受时间下的搜集、利用、管理和处理能力 2012年,单一数据集的大小,从MB级,跃升到了TB级,以及PB级 数据量超出了单部计算机、乃至大型机处理的能力 数量 5EB 据IDC预计,全球90%的数据都是在近期内生成的,互联网、社交网络、传感器、科研、金融正在产生越来越多的数据 数据总量的的年增长率为50% 知识:数据计量单位 Bytes(字节) ? KB ? MB ? GB ? TB ? PB ? EB ? ZB ? YB ? BB ? NB ? DB 1024 数量 传统的数据,是结构化的数据 形态 大数据是混合形态的数据 既有结构化的数据,例如SQL数据 主要是非结构化的数据,如日志、音频、视频、图片、地理位置等 并非有目的的测量数据,而是造痕者留下的并行数据(papradata) 其价值并非可以用来证明什么,而需要挖掘 通常认为,大数据的价值密度较低 价值 目标导向 具有明确价值 传统 大数据 记录导向 没有明确价值 速度 从测量到可用,需要相当长的时间 1887–1890 赫尔曼·霍尔瑞斯为统计1890年人口普查数据,发明了读卡机,用1年时间完成了原本耗时8年的人口普查活动 CFPS从结束调查到数据可用,也需要1-2年的时间 几乎随时可用 每时每刻,都在记录数据 每时每刻,都有数据可用;不过,可用,不是针对具体研究问题的可用,而是在给定研究问题的前提下,用于数据清理的可用、用于机器学习的可用 传统 大数据 速度 价值 形

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档