网站大量收购独家精品文档,联系QQ:2885784924

智能交通大数据——综合交通数据科学技术及应用 课件 认识数据.pptx

智能交通大数据——综合交通数据科学技术及应用 课件 认识数据.pptx

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

认识数据

数据、信息、知识、智慧01数据的威力02数学基础03探索性数据分析04数据与抽样分布05获取数据06目录CONTENTS

什么是数据(Data)

数据、信息、知识、智慧DataInformationKnowledgeWisdom

数据的威力数据无处不在数据记录无处不在数据的范畴比数字要大得多获得知识数据是文明的基石

数学基础

探索性数据分析“面对那些我们坚信存在或不存在的事物时,“探索性数据分析”代表了一种态度,一种方法手段的灵活性,更代表了人们寻求真相的强烈愿望。”——JohnTukey

探索性数据分析NBA手球

有2种方法理解陌生领域咨询业内人士。去研究一下陌生领域的数据。

ExploratoryDataAnalysis|EDA探索性数据分析就是利用各种技术手段(大部分都是利用数据可视化)探索数据内部结构和规律的一种数据分析方法和理念。探索性数据分析的目的是尽可能是洞察数据集、发现数据的内部结构、提取重要的特征、检测异常值、检验基本假设、建立初步的模型。

探索性数据分析的3步方法数据分类数据可视化洞察数据

第一步:数据分类第一步就是把这些数据进行分类,然后用不同方法来处理不同类型的数据。数据由粗到细可以按照

右图方式来分类

StructuredvsUnstructureddata结构化数据:能够用表格来组织的数据都算是结构化的数据。例如:Excel里的数据、MySQL里的数据…非结构化数据:非表格形式组织的都是。例如:文本、图片、视频…

QualitativevsQuantitativedata定量数据:数值类型,衡量某样东西的数量。例如:2001定性数据:类别,描述某样东西的性质。例如:00后

数据的4个等级定类等级(norminallevel):是数据的第一个等级,其结构最弱。只需要按照名称来分类。例如:血型(A,B,AB,O)、姓名、颜色定序等级(ordinallevel):定序等级在定类等级的基础上加了自然排序,这样我们就可以对不同数据进行比较。例如:餐厅的评星,公司的考核等级定距等级(intervallevel):定距等级一定是数值类型的,并且这些数值不仅可以用来排序,还可以用来加减。例如:华氏度、摄氏度(温度有负数,不可以进行乘除运算)定比等级(ratiolevel):在定距等级的基础上,加入了绝对零点,不但可以做加减的运算,还可以做乘除的运算。例如:金钱、重量

第二步:数据可视化数据等级属性描述性统计图表定类离散、无序频率占比、众数条形图、饼图定序有序类别、比较频率、众数、中位数、百分位数条形图、饼图定距数字差别有意义频率、众数、中位数、均值、标准差条形图、饼图、箱线图定比连续均值、标准差条形图、曲线图、饼图、箱线图

数据的故事化(Storytelling)

数据的故事化(Storytelling)1912年4月14日,“泰坦尼克号”4月14日晚11点40分,泰坦尼克号在北大西洋撞上冰山(41°4355.66N49°5645.02W附近),2小时40分钟后,4月15日凌晨2点20分沉没,由于只有20艘救生艇,1523人葬身海底。?头等舱乘客:男士:175人,幸存57人,幸存率32.6%女士:144人,幸存140人,幸存率97.2%儿童:6人,幸存5人,幸存率83.3%乘客名单及详细信息如下……

第三步:洞察数据哪些数据更重要,不同数据之间可能存在的关系,哪些数据会相互影响…

EDA示例2.3.2练习:探索性数据分析

数据和抽样分布抽样能够有效地操作一组数据,并且可以最小化偏差。在大数据时代,涌现出了大量质量不一、相关性各异的数据通常也会使用抽样生成并导出预测模型。

随机抽样和样本偏差样本大型数据集的一个子集。总体一个大型数据集,或是一个构想的数据集。N(或n)一般用N表示总体的规模,n表示样本的规模。随机抽样从总体中随机抽取元素到样本中。分层抽样对总体分层,并在每层中做随机抽样。简单随机抽样在不对总体分层的情况下,做随机抽样所得到的样本。样本偏差样本对总体做出了错误的解释。

datasampling数据质量的影响要大于数据规模的影响。数据质量涉及数据的完整性、格式的一致性、整洁性以及单个数据点的准确性。在统计学中,数据质量还涉及抽样的代表性这一概念。

偏差Deviation统计偏差是一些系统性的测量误差或抽样误差,是在测量或抽样过程中产生的。要严格区分由随机选取所导致的误差和由偏差所导致的误差。

选择偏差选择偏差是指以一种可导致误导性或短暂性结论的方式,有选择性地选取数据的操作。选择偏差可能是有意而为之,也可能是无意识的。偏差:系统性误差。数据窥探:为得到

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档