- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1章大数据分析概述
第 1 章 大数据分析概述
本章内容
□ 大数据基本概念
□ 数据挖掘的产生与功能
□ 数据挖掘与相关学科的关系
□ 大数据研究方法
1.1 大数据概述
1.1.1 什么是大数据
20 世纪 90 年代后期,以信息技术、计算机和网络技术等高新技术发展为标志,人类
社会迅速迈进一个崭新的数字时代。现代信息技术铺设了一条广阔的数据传输道路,将人
类的感官延伸到广袤的世界中。政府和企业通过大力发展信息平台和网络建设,改善了对
信息的交互、存储和管理的效率,从而提升了信息服务的水平;生物科学领域通过对分子
基因数据的解读重新诠释了生物体中细胞、组织、器官的生理、病理、药理的变化过程,从
而突破了人类在许多疑难杂症上的传统认识;市场研究人员通过谷歌住房搜索量的变化对
住房市场趋势进行预测,已明显比不动产经济学家的预测更为准确也更有效率;手机、互联
网、物联网,这些先进的信息传输平台,在生成-传播着大量数据的同时,也越来越多的改善
了人们的生活。总之,政府、科学和社会等各个领域的每个细胞,都被快速发展的信息技术
激活,畅游于信息海洋并获得认知效率的飞跃,沉浸于价值被认可的幸福与满足中。
精彩纷呈的数据也带来了利用数据的烦恼。日新月异的应用背后是数据量爆炸式增长
带来的大数据分析的挑战,2012 年 3 月 30 日美国国家卫生研究院宣布世界最大的遗传变
异研究数据集——国际千人基因组项目(截至目前数据已约达 200 TB ),数据量正在由太字
节(TB=1012B )向拍字节PB (=1015B )、艾字节EB (=1018B )、泽字节ZB (=1021B )甚至尧
字节 YB (=1024B )升级,估计每两年就会增长三倍。
大数据是一个新概念,英文中至少有三种名称:大数据(big data ),大尺度数据(big scale
data )和大规模数据(massive data ),尚未形成统一定义,维基百科、数据科学家、研究机构
和 IT 业界都曾经使用过大数据的概念,一致认为大数据具有四个基本特征:数据体量巨大;
价值密度低;来源广泛,特征多样;增涨速度快。业界称为4V 特征,取自volume, value, variety
和 velocity 四个英文单词的首字母。由此可见,大数据的核心问题是如何在种类繁多、数量
庞大的数据中快速获取有价值的信息。一方面,这种信息获取能力离不开优化的复杂大规
2 第 1 章 大数据分析概述
模数据处理技术。另一方面是模式提取的程序、标准和规范。比如随着社交网络、语义 Web 、
云计算、生物信息网络、物联网等新兴应用的快速增长,在经济学、生物学和商务等众多
领域中出现了成组数据、面板数据、空间数据、高维数据、多响应变量数据以及网络层次
数据等结构复杂的数据形态,迫切需要强大的数据处理能力以实现批量信息的生产。而这种
能力的一个关键问题是:对亿万个顶点级别的大规模数据进行高效分析的模型是什么?大数
据不仅数据类型复杂,更重要的是数据中模式结构复杂,信噪比较低。优质数据与劣质信
息的鉴别、操作便捷与垃圾信息有效过滤的平衡设计,信用危机的识别要素、稀有信息的发
现、精准需求定位等问题更加突出。在数据泛滥的情况下,有价值的信息被淹没在巨大的
数据海洋之中,有价值的见解和知识很难发现。而数据分析逻辑和规范的缺失必然导致垃
圾信息和乱象丛生的信息环境。大数据认知在社会分析、科学发现和商业决策中的作用越
来越重要。揭示数据背后的客观规律,识别信息的价值,评估信息之间的影响是合理开发数
据资源和改善人类活动的重要组成部分。大数据技术已经成为科技大国的重要发展战略。
数据与能源、货币一样,已成为一个国家的公共资源,金融市场上有“劣币驱逐良币”,能
源开发中“并非缺乏能源,而是缺乏清洁能源”,数据的管理和再利用技术不能取代科学,
在数据的结构与功能越来越复杂的客观现实面前,需要更多角度的模式探测和更可靠的模
型构建,无论是运用模型生成规则还是运用结果都需要更规范的设计与分析。
系统分析方法是传统数据建模方法,在大数据分析建模设计中大有作为,然而大数据
建模更为复杂,有两个鲜明的特色,首先模型不是主观设定的或普适性的,而是具体的,从
数据的内部逻辑和外部关联中根据问题的需要梳理出来的。在这个过程中,基于无形数据
的有形模式的探索、比较、估计、识别、确
您可能关注的文档
最近下载
- 2022年下半年教师资格证考试《综合素质》(中学)真题.docx VIP
- 市政道路施工方案投标文件(技术方案).doc
- 2024-2025学年小学英语闽教版六年级上册教学设计合集.docx
- 北京邮电大学 数电 数字逻辑第七章.pdf VIP
- 文物学概论_原创精品文档.pdf VIP
- 隧道帷幕注浆施工方案.docx VIP
- 安徽江淮十校2026届高三第一次联考(8月)数学试题+答案.doc VIP
- 2022年下半年教师资格证考试《教育知识与能力》(中学)真题.docx VIP
- 2022年广东深圳市南山区总工会招聘职业化工会工作者考试备考试题及答案解析.docx VIP
- 创建本质安全型企业工作方案.docx VIP
文档评论(0)