- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术体系现状
中国大数据技术与产业发展白皮书 (2013 )
第三章 大数据技术体系现状
根据大数据处理的生命周期,大数据的技术体系通常可以分为大数据采集与
预处理,大数据存储与管理,大数据计算模式与系统,大数据分析与挖掘,大数
据可视化计算以及大数据隐私与安全等几个方面。
3.1 大数据采集与预处理
3.1.1 问题与挑战
根据MapReduce 产生数据的应用系统分类,大数据的采集主要有四种来源:
管理信息系统、Web 信息系统、物理信息系统、科学实验系统。
1. 管理信息系统是指企业、机关内部的信息系统,如事务处理系统、办公自动
化系统,主要用于经营和管理,为特定用户的工作和业务提供支持。数据的
产生既有终端用户的原始输入,也有系统的二次加工处理。系统的组织结构
上是专用的,数据通常是结构化的。
2. Web 信息系统包括互联网上的各种信息系统,如社交网站、社会媒体、搜索
引擎等,主要用于构造虚拟的信息空间,为广大用户提供信息服务和社交服
务。系统的组织结构是开放式的,大部分数据是半结构化或无结构的。数据
的产生者主要是在线用户。电子商务、电子政务是在Web 上运行的管理信息
系统。
3. 物理信息系统是指关于各种物理对象和物理过程的信息系统,如实时监控、
实时检测,主要用于生产调度、过程控制、现场指挥、环境保护等。系统的
组织结构上是封闭的,数据由各种嵌入式传感设备产生的,可以是关于物理、
化学、生物等性质和状态的基本测量值,也可以是关于行为和状态的音频、
视频等多媒体数据。
4. 科学实验系统,实际上也属于物理信息系统,但其实验环境是预先设定的,
主要用于研究和学术,数据是有选择的、可控的,有时可能是人工模拟生成
的仿真数据。
在物理信息系统中,对于一个具体的物理对象,可采用不同观测手段,对其
45
中国大数据技术与产业发展白皮书 (2013 )
不同的属性(方面)进行测量,如测量一辆行驶汽车的尺寸、速度、路线、尾气、
外观等,其观测结果为具有不同形式的数据,这些数据代表实体不同的模态,称
为多模态(multi-modal) 。对于一个实体的多模态原始数据,需要做融合处理(data
fusion) 。在融合处理中,需要减少误差,保证数据的完整性和正确性。在高级的
嵌入式系统或数据采集系统中,通常具有数据质量控制和数据融合处理功能[2] 。
从人-机-物三元世界观点看,管理信息系统和Web 信息系统属于人与计算机
的交互系统,物理信息系统属于物与计算机的交互系统。关于物理世界的原始数
据,在人-机系统中,是通过人实现融合处理的;而在物-机系统中,需要通过计
算机等装置做专门的处理。融合处理后的数据,被转换为规范的数据结构,输入
并存储在专门的数据管理系统中,如文件或数据库,形成专门的数据集。
对于不同的数据集,可能存在不同的结构和模式,如文件、XML 树、关系
表等,表现为数据的异构性(heterogeneity )。对多个异构的数据集,需要做进一
步集成处理(data integration )或整合处理(data consolidation ),将来自不同数据
集的数据收集、整理、清洗,转换后,生成到一个新的数据集,为后续查询和分
析处理提供统一的数据视图。
通常大数据描述了一个对象(物理的或逻辑的)或一个过程的全景式的和全
周期的状态,因此,其来源必然是多源的,其形式是多模态的。数据的多源和多
模态的不确定性和多样性,必然导致数据的质量存在差异,严重影响到数据的可
用性。由于数据量的大规模性,即使错误数据的相对比例不大,而绝对的错误数
据量也是非常可观的。据国际咨询机构调查,全球财富 1000 强企业中25% 以上
的企业信息信息系统存在不正确的数据,美国企业信息系统中1%-30%的数据存
在各种错误,美国工业企业由于数据错误而引起的生产事故和决策错误,每年造
成6000 多亿美元的损失[3] 。
数据的可用性取决于数据质量。数据质量的定义有很多说法。按照文献[4]
的定义,数据质量包含5 种特性:精确性、一致性、完整性、同一性和实效性。
精确性指数据符合规定的精度,不超出误差范围;一致性指数据之间不能存在相
互矛盾;完整性指数据的值不能为空;同一性指实体的标
您可能关注的文档
- 大学 数学和教育专业 本科毕业论文 优秀8.pdf
- 大学·中庸(自制PDF文字版).pdf
- 大学C++期末复习资料.pdf
- 大学有机化学复习总结(全).pdf
- 大学德语教案.pdf
- 大学有机化学知识点概要.pdf
- 大学摄影教程01摄影简史02.pdf
- 大学物理上册复习总结.pdf
- 大学物理上总复习B.pdf
- 大学概率课件(全).pdf
- Unit5DinnerisreadyBReadandwrite(课件)人教PEP版英语四年级上册2.pptx
- 第2课《首届诺贝尔奖颁发》课件语文八年级上册.pptx
- Unit4Atthefarmstorytime(课件)人教PEP版英语四年级上册.pptx
- Unit1ANewStartUnderstandingIdeas课件高中英语3.pptx
- Unit2MyschoolbagPartALet’sspell(课件)人教PEP版英语四年级上册.pptx
- Unit4HistoryandtraditionsWordsandExpressions课件高中英语人教版(2019).pptx
- 8从猜想到验证课件科学一年级上册.pptx
- 16反冲现象火箭课件高二上学期物理人教版选择性(2).pptx
- 人教八(下)第九章第1节压强.pptx
- 33天气系统第2课时课件高二上学期地理选择性必修一.pptx
文档评论(0)