- 1、本文档共131页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2017-3-24
1
智能运输信息处理技术 Intelligent Transportation Information Processing Technology(ITIPT)
王艳辉
轨道交通控制与安全国家重点实验室
第二章 数据预处理
一、数据预处理的意义
二、描述性数据汇总
三、数据清理
四、数据集成
五、数据变换
六、数据归约
七、数据离散化和概念分层
智能运输系统信息处理技术-预处理
3
有价值的知识
可怕的数据
数据预处理的意义:
智能运输系统信息处理技术-预处理
4
大数据时代
整天接触电脑,不可避免地要与各种计量单位打交道,尤其是数据量,但是你知道bit、Byte、KB、GB、TB等等都意味着多少数据么?
bit(比特)是binary digit的英文缩写,量度信息的单位,也是表示信息量的最小单位,只有0、1两种二进制状态。
8个bit组成一个Byte(字节),能够容纳一个英文字符,而一个汉字需要两个字节的存储空间,普通英文单词则需要十个左右的字节,
Why?
智能运输系统信息处理技术-预处理
5
大数据时代
1B (Byte 字节)=8b (bit 位)
1KB (Kilobyte 千字节)=1024B,
1MB (Megabyte 兆字节 简称“兆”)=1024KB,
1GB (Gigabyte 吉字节 又称“千兆”)=1024MB,
1TB (Trillionbyte 万亿字节 太字节)=1024GB,
1PB(Petabyte 千万亿字节 拍字节)=1024TB,
智能运输系统信息处理技术-预处理
6
大数据时代
1EB(Exabyte 百亿亿字节 艾字节)=1024PB,
1ZB (Zettabyte 十万亿亿字节 泽字节)= 1024 EB,
1YB (Yottabyte 一亿亿亿字节 尧字节)= 1024 ZB,
1?BB?= 1,024 YB = 1,048,576 ZB
1?NB?= 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
智能运输系统信息处理技术-预处理
7
大数据时代
字节(8-bit)
?0.1字节:一个二分决策 (是或者不是)
?1字节:一个字符(例如:1, 2, a…)
?10字节:一个单词
?100字节:一份电报或者一个打孔卡片的信息量
智能运输系统信息处理技术-预处理
8
大数据时代
千字节Kilobyte (1000 Bytes)
?1千字节:一个很短的故事,一个笑话
?2千字节:可以打印一张纸的数据量
?10千字节:一张百科全书或者54张打孔卡片的信息量
?50千字节:一页图片的压缩文件的数据量
?100千字节:一个低分辨率的图片的数据量
?200千字节:一盒子打孔卡片的数据量
?500千字节:很重一盒子打孔卡片的数据量
智能运输系统信息处理技术-预处理
9
大数据时代
兆字节Megabyte (1 000 000 Bytes)
?1兆字节:一本小说或者一张3.5寸软盘的数据量
?2兆字节:一个高分辨率的图片的数据量
?5兆字节:莎士比亚所有的作品或者30秒电视图像视频
?10兆字节:一分钟的高保真音乐或一个数字X-射线胸透
?20兆字节:一盒子的软盘的数据量
?50兆字节:一张数字的乳房x线照片
?100兆字节:一米高的书架放的书或两卷百科全书
?200兆字节:9磁道的磁带或一个IBM 3480磁带
?500兆字节:一个CD-ROM或者个人电脑的硬盘
智能运输系统信息处理技术-预处理
10
大数据时代
G字节 Gigabyte (1 000 000 000 Bytes)
?1G字节:装满纸的卡车或者一段高保真的交响乐或者一部电视质量的电影
?2G字节:20米的书架装的书或者一叠9磁道的磁带
?5G字节:一个8mm的安百特磁带的信息量
?20G字节:贝多芬作品的合集或者5个安百特磁带或者用于数字存储的VHS磁带的信息量
?50G字节:一地板的书或者上百的9磁道磁带信息量
?100G字节:一地板的学术杂志或者一个大的ID-1数字磁带的信息量
?200G字节:50个安百特磁带的数据量
智能运输系统信息处理技术-预处理
11
大数据时代
太字节 Terabyte (1 000 000 000 000 Bytes)
?1太字节:一个自动磁带机器人或者一个技术医院所有的X-射线光片或者打印满50,000棵树所做的纸,或者地球观测系统每天产生的数据量
?2太字节:一个学术研究的图书馆或者一柜子的安百特磁带所记载的信息量
?10太字节:美国国会的图书馆所有收藏的打印版所记载的信息量
?50太字节:大规模数据存储系统的所有内容的信息量
智能运输系统信息处理技术-预处理
12
大
您可能关注的文档
最近下载
- 统编版语文七年级上册第15课《梅岭三章》(教学课件).ppt VIP
- 《Unit3-A-healthy-diet》公开课教学教案.doc VIP
- 学习关于加强党的作风建设论述摘编 (2).pptx VIP
- 审计署审计项目全流程审计质量控制办法.docx VIP
- 部编道德与法治中考主观题答题技巧汇总.pdf VIP
- 2025至2030中国印染行业产业运行态势及投资规划深度研究报告.docx
- 土建质量员-案例题试卷附答案.doc VIP
- 2025年4月23日北京市税务遴选笔试真题及答案解析.doc VIP
- 苏教版初中数学八年级下册《反比例函数》单元检测试卷及参考答案.pdf VIP
- 审计署审计项目全流程审计质量控制办法.docx VIP
文档评论(0)