第1章大数据分析概述.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1章大数据分析概述

第 1 章 大数据分析概述 本章内容 □ 大数据基本概念 □ 数据挖掘的产生与功能 □ 数据挖掘与相关学科的关系 □ 大数据研究方法 1.1 大数据概述 1.1.1 什么是大数据 20 世纪 90 年代后期,以信息技术、计算机和网络技术等高新技术发展为标志,人类 社会迅速迈进一个崭新的数字时代。现代信息技术铺设了一条广阔的数据传输道路,将人 类的感官延伸到广袤的世界中。政府和企业通过大力发展信息平台和网络建设,改善了对 信息的交互、存储和管理的效率,从而提升了信息服务的水平;生物科学领域通过对分子 基因数据的解读重新诠释了生物体中细胞、组织、器官的生理、病理、药理的变化过程,从 而突破了人类在许多疑难杂症上的传统认识;市场研究人员通过谷歌住房搜索量的变化对 住房市场趋势进行预测,已明显比不动产经济学家的预测更为准确也更有效率;手机、互联 网、物联网,这些先进的信息传输平台,在生成-传播着大量数据的同时,也越来越多的改善 了人们的生活。总之,政府、科学和社会等各个领域的每个细胞,都被快速发展的信息技术 激活,畅游于信息海洋并获得认知效率的飞跃,沉浸于价值被认可的幸福与满足中。 精彩纷呈的数据也带来了利用数据的烦恼。日新月异的应用背后是数据量爆炸式增长 带来的大数据分析的挑战,2012 年 3 月 30 日美国国家卫生研究院宣布世界最大的遗传变 异研究数据集——国际千人基因组项目(截至目前数据已约达 200 TB ),数据量正在由太字 节(TB=1012B )向拍字节PB (=1015B )、艾字节EB (=1018B )、泽字节ZB (=1021B )甚至尧 字节 YB (=1024B )升级,估计每两年就会增长三倍。 大数据是一个新概念,英文中至少有三种名称:大数据(big data ),大尺度数据(big scale data )和大规模数据(massive data ),尚未形成统一定义,维基百科、数据科学家、研究机构 和 IT 业界都曾经使用过大数据的概念,一致认为大数据具有四个基本特征:数据体量巨大; 价值密度低;来源广泛,特征多样;增涨速度快。业界称为4V 特征,取自volume, value, variety 和 velocity 四个英文单词的首字母。由此可见,大数据的核心问题是如何在种类繁多、数量 庞大的数据中快速获取有价值的信息。一方面,这种信息获取能力离不开优化的复杂大规 2 第 1 章 大数据分析概述 模数据处理技术。另一方面是模式提取的程序、标准和规范。比如随着社交网络、语义 Web 、 云计算、生物信息网络、物联网等新兴应用的快速增长,在经济学、生物学和商务等众多 领域中出现了成组数据、面板数据、空间数据、高维数据、多响应变量数据以及网络层次 数据等结构复杂的数据形态,迫切需要强大的数据处理能力以实现批量信息的生产。而这种 能力的一个关键问题是:对亿万个顶点级别的大规模数据进行高效分析的模型是什么?大数 据不仅数据类型复杂,更重要的是数据中模式结构复杂,信噪比较低。优质数据与劣质信 息的鉴别、操作便捷与垃圾信息有效过滤的平衡设计,信用危机的识别要素、稀有信息的发 现、精准需求定位等问题更加突出。在数据泛滥的情况下,有价值的信息被淹没在巨大的 数据海洋之中,有价值的见解和知识很难发现。而数据分析逻辑和规范的缺失必然导致垃 圾信息和乱象丛生的信息环境。大数据认知在社会分析、科学发现和商业决策中的作用越 来越重要。揭示数据背后的客观规律,识别信息的价值,评估信息之间的影响是合理开发数 据资源和改善人类活动的重要组成部分。大数据技术已经成为科技大国的重要发展战略。 数据与能源、货币一样,已成为一个国家的公共资源,金融市场上有“劣币驱逐良币”,能 源开发中“并非缺乏能源,而是缺乏清洁能源”,数据的管理和再利用技术不能取代科学, 在数据的结构与功能越来越复杂的客观现实面前,需要更多角度的模式探测和更可靠的模 型构建,无论是运用模型生成规则还是运用结果都需要更规范的设计与分析。 系统分析方法是传统数据建模方法,在大数据分析建模设计中大有作为,然而大数据 建模更为复杂,有两个鲜明的特色,首先模型不是主观设定的或普适性的,而是具体的,从 数据的内部逻辑和外部关联中根据问题的需要梳理出来的。在这个过程中,基于无形数据 的有形模式的探索、比较、估计、识别、确

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档