最新The Value Creation of Big Data.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最新The Value Creation of Big Data.ppt

数据挖掘 数据挖掘的定义 1. 从数据中提取出隐含的过去未知的有价值的潜在信息 2. 从大量数据或者数据库中提取有用信息的科学 相关概念:知识发现 1.数据挖掘是知识发现过程中的一步 2.粗略看:数据预处理?数据挖掘?数据后处理 预处理: 将未加工输入数据转换为适合处理的形式 后处理: 如可视化, 便于从不同视角探查挖掘结果 大数据的魅力 大数据的思维方法变革 数据采集和数据处理技术已经发生了翻天覆地的变化,人们的思维和方法要跟得上这个变化 大数据时代的精髓在于人们分析信息时的三个转变,这些转变将改变人们决策的制定和对表象的理解 1. 随机抽样:用最少的数据获得最多的信息 过去由于获取和分析全体数据的困难,抽样调查是一种常用统计分析方法。它根据随机原则从总体中抽取部分实际数据进行调查,并运用概率估计方法,根据样本数据推算总体相应的数量指标 抽样分析的精确性随抽样随机性的增加而提高,与样本数量的增加关系不大。抽样随机性高时,分析的精度能达到把全体作为样本调查时的97% 样本选择的随机性比样本数量更重要 变革一 — 更多: 不是随机样本, 而是全体数据 抽样分析的成功依赖于抽样的随机性,但实现抽样的随机性非常困难 当想了解更深层次的细分领域的情况时,随机抽样方法不一定有效,即在宏观领域起作用的方法在微观领域可能失去了作用 随机抽样需要严密的安排和执行,人们只能从抽样数据中得出事先设计好的问题的结果 2. 全体数据:用全体数据可对数据进行深度探讨 流感趋势预测分析了整个美国几十亿条互联网检索记录,使得它能提高微观层面分析的准确性,甚至能够推测某个特定城市的流感状况 信用卡诈骗需通过观察异常情况来识别,这只有在掌握所有的数据时才能做到 社会科学是被“样本=全体”撼动得最厉害的一门学科。这门学科过去非常依赖于样本分析、研究和调查问卷。当记录下人们的平常状态,就不用担心在做研究和调查问卷时存在的偏见了 对小数据而言,最基本和最重要的要求就是减少错误,保证质量。因为收集的数据较少,应确保每个数据尽量精确,以保证分析结果的准确性 允许不精确数据是大数据的一个亮点, 而非缺点。因为放松了容错的标准,就可以掌握更多数据,而掌握大量新型数据时,精确性就不那么重要了 例如,与服务器处理投诉时的数据进行比较,用语音识别系统识别呼叫中心接到的投诉会产生不太准确的结果, 但它有助于把握事情的大致情况 不精确的大量新型数据能帮助掌握事情发展趋势 变革二 — 更杂:不是精确性, 而是混杂性 执迷于精确性是信息缺乏时代的产物,大数据时代要求重新审视精确性的优劣,如果将传统的思维模式运用于数字化、网络化的21世纪,就会错过重要信息,失去做更多事情,创造出更好结果的机会 另一方面,需要与数据增加引起的各种混乱(数据格式不一致,数据错误率增加等)做斗争。错误并不是大数据的固有特性,但可能是长期存在并需要去处理的现实问题 1. 因果关系与相关关系 因果关系是指一个事件是另一个事件的结果 相关关系是指两个事件的发生存在某个规律 与通过逻辑推理研究因果关系不同,大数据研究通过统计性的搜索、比较、聚类、分析和归纳,寻找事件(或数据)之间的相关性 一般来说,统计学无法检验逻辑上的因果关系 也许正因为统计方法不致力于寻找真正的原因, 才促进数据挖掘和大数据技术在商业领域广泛应用 变革三 — 更好: 不是因果关系, 而是相关关系 未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。 比如,建立个人的数据中心,将每个人的日常生活习惯,身体体征,社会网络,知识能力,爱好性情,疾病嗜好,情绪波动……换言之就是记录人从出生那一刻起的每一分每一秒,将除了思维外的一切都储存下来,这些数据可以被充分的利用: 医疗机构将实时的监测用户的身体健康状况; 教育机构更有针对的制定用户喜欢的教育培训计划; 服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务; 社交网络能为你提供合适的交友对象,并为志同道合的人群组织各种聚会活动; 政府能在用户的心理健康出现问题时有效的干预,防范自杀,刑事案件的发生; 金融机构能帮助用户进行有效的理财管理,为用户的资金提供更有效的使用建议和规划; 道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排; …… 当然,上面的一切看起来都很美好,但是否是以牺牲了用户的自由为前提呢?只能说当新鲜事物带来了革新的同时也同样带来了“病菌”。 比如,在手机未普及前,大家喜欢聚在一起聊天,自从手机普及后特别是有了互联网,大家不用聚在一起也可以随时随地的聊天,只是“病菌”滋生了另外一种情形,大家慢慢习惯了和手机共渡时光,人与人

文档评论(0)

liuxiaoyu98 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档