环境数据处理与数学模型课件 03-环境数据分析方法-.pptVIP

环境数据处理与数学模型课件 03-环境数据分析方法-.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
02 数据处理 与展示 数据清洗 定类/定序数据的处理与展示 定距/定比数据的处理与展示 数据清洗 重复数据的处理 重复数据查找:开始?条件格式?突出显示单元格规则?重复值 重复数据删除:数据?数据工具?删除重复项 缺失数据的处理 缺失值定位:开始?编辑?定位条件?空值 缺失值处理:直接剔除;用样本的平均值代替缺失值;用统计模型计算的值代替;保留缺失值的记录,在相应的分析中做必要的排除 定类数据的处理与展示 频数/频率(Frequency):落在某一特定类别中的个体个数/个数占总体的比例 展示:频数/频率表、条形图/直线图、饼状图 类别 频数 大一 80 大二 30 大三 10 大四 5 各年级参加暑期社会实践人数的频数 * * * * * * * * * * * * * 环境数据处理与数学模型 环境数据分析方法 01 02 03 04 基本概念 数据处理与展示 描述性统计 二总体的假设检验 05 06 07 08 回归分析 主成分分析 聚类分析 时间序列分析 数据挖掘/大数据介绍(邀请讲座,待定) 01 基本概念 变量 总体和样本 参数和统计量 变量的测量尺度/等级 变量(Variable) 描述现象某种特征 从一次观察到下一次观察会呈现出差别或变化 产品销售额、TN浓度、受教育程度…… 数据就是变量的具体表现 variable data 总体(Population) 包含所研究的全部个体(数据)的集合 有限总体:组成总体的个体个数有限 一批待检验的灯泡 无限总体:所包含的个体数量无限 反应器中的COD浓度 对于有限总体,每次抽样不是独立的;对于无限总体,每次抽样相互独立 样本(Sample) 从总体中抽取的一部分个体的集合 样本是有限的 用样本的信息推断总体的信息 样本容易获得,也易于处理 参数 μ σ 统计量 变量的测量尺度/等级(Scale) 从变量取值特征的角度对变量分类 不同测量等级的变量,所适用的统计方法也不同 测量等级分类: 1951年由美国著名统计学家斯蒂文斯提出 名义级、顺序级、区间级、比率级 名义级测量(Nominal Measurement) 对个体的类别或属性的一种测度,是按照个体的某种属性对其进行分类或分组 值仅代表个体的类别和属性,仅能测度类别差异,不能比较各类之间的大小,各类之间没有顺序和等级之分 目的:对个体予以区别、标志和分类 测量的最低层次,只有逻辑运算“等于”和“不等于”两种形式 =100 =1 200= 0= 编号 土地利用类型 编号 土地利用类型 211 商业用地 213 餐饮旅馆业用地 212 金融保险用地 214 其他商服用地 定类 顺序级测量(Ordinal Measurement) 对个体间等级或顺序差别的一种测度,可以比较优劣或排序 比名义级测量的信息量多,不仅含有类别的信息(辨别个体类别),还包含次序的信息(显示个体间差异) 逻辑运算除了“等于”与“不等于”之外,还可以比较大小,即“大于”或“小于” 不同次序之间的间隔大小可以不同 虽然一个顺序变量的分类可以按它所代表的程度来排序,但一般无法精确确定不同分类之间的差异 HOTEL 4star3star2star 4star-3star≠3star-2star 4star≠2*2star 类别 COD(mg/L) I 15 II 15 III 20 IV 30 V 40 定序 区间级测量(Interval Measurement) 对个体类别或次序之间间距的测度 不仅能将个体分为不同类型并进行排序,而且可以准确指出类别之间的差距是多少 区间级测量值没有真正的零值,但区间级测量中的零值往往是人为规定的 不仅有逻辑运算,还可以进行加、减类的数值运算 0测量值随着所使用的温度测量单位不同而不同 不能说150F的温度是75F的温度的两倍,这个比例在使用摄氏度单位时就改变了 定距 比率级测量(Interval Measurement) 与区间级测量相比,差别在于它有一个固定的绝对“零点” 最高层次的测量 不仅有逻辑运算,还可以进行加、减、乘、除类的数值运算 对于一个变量而言 根据测量等级,变量可分为:定类变量、定序变量、定距变量、定比变量 等级不唯一 高层次的测量变量可以作为低层次的变量来使用,但信息会丢失 水体COD浓度:确切数值,比率级测量 水体COD浓度:地表水5级标准,顺序级测量 损失了水体水质的信息 定类变量:二分变量、多分变量 二分变量较为特殊,即使使其归为其他类型,一般也不会影响后续分析 * * * * * * * * * * * * *

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档