数据分析For数学建模培训要点.pptVIP

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数 据 分 析 乔立山 qiaolishan@lcu.edu.cn 内容提要 简介: 什么是数据分析?方法?工具?… 数据分析方法入门 (以成绩数据为例,以实际问题驱动) 描述性统计分析 层次教学分组 缺失成绩补全 触类旁通 图像碎片拼接(2013年数学建模题) 人脸识别/智能视频监控(本人研究领域) 总结 简介:什么是数据分析? 信息时代,大数据时代…… 密切关系?!“数据是信息的载体”。 数据无处不在! 销售情况 国民经济 天气情况 银行交易 课程成绩 化验报告 图像 声音…… 简介:什么是数据分析? 然而,数据不等于信息。 实际情况:数据泛滥,信息贫乏。 肿么办? 数据分析:从数据中获取信息。 怎么分析? 数据分析的方法? 从加减乘除到统计(特别是多元统计)、数据挖掘、机器学习… 只要面向的是数据,并期望从数据中获取信息的方法 数据分析的工具? 统计数据分析的工具软件:SAS、SPSS、EXCEL、MATLAB 数据分析方法入门 以成绩数据为例,以实际问题驱动 数据分析方法入门 以成绩数据为例,以实际问题驱动 1. 给我尽可能多的信息?(描述性统计分析) 2. 分层次教学分组 3*. 缺失数据补全 4*. 图像碎片拼接(2013年建模题) 5*. 人脸识别/智能监控(本人研究领域) 数据分析方法入门 数据读入MATLAB 数据格式?矩阵,.mat文件 (1)直接输入 (2)Load .mat文件 (3)复制粘贴,例,A=[‘Ctrl+V’ ]; (4)菜单操作 (5)高级命令,如xlsread(), … (6)某些特殊矩阵的输入 数据存储 (1)save() (2)菜单操作 问题1: 提供尽可能多信息 描述性数据分析 描述性: 集中程度 分散程度 偏斜程度 相关程度 … 怎么描述? 数字 图形 问题1: 提供尽可能多信息 集中程度: 均值:mean() 中值:median() 分位数:prctile(x,25);prctile(x,75); 众数:mode() 其它: geomean():几何平均 harmean():调和平均 … 问题1: 提供尽可能多信息 分散程度: 方差:var() 标准差:std() 变异系数std()./mean() 极差:max()-min()或range()…… 问题1: 提供尽可能多信息 偏斜程度: 偏度:skewness() 问题1: 提供尽可能多信息 相关性分析: 相关系数:corrcoef() 问题1: 提供尽可能多信息 图形的作用:百闻不如一见,一目了然… 常用matlab命令:plot(),subplot(),stem(),hist(),bar(),boxplot(),… 问题1: 提供尽可能多信息 图形的作用 问题1: 提供尽可能多信息 问题2:分层次教学分组 若只有一门成绩的话(如英语),简单,每个人都会做! 比如,按成绩排序,分A,B,C… 事实上,隐含着一个原则:成绩相近的尽可能分到一个班 如何根据2门以上(如29门、35门)成绩分组? 原则没变:成绩相近的尽可能分到一个班 首要问题是,在多门成绩下如何度量学生之间的相似性? 距离度量! 问题2:分层次教学分组 符号:xi(第i行);xj(第j行) 问题2:分层次教学分组 常用距离度量: 欧氏距离: 绝对距离: (city block metric) 明氏距离: 马氏距离: 海明距离、切比雪夫距离、余弦距离... 问题2:分层次教学分组 解决思路1:数据降维+简单排序 数据降维方法很多,最经典的当属主成份分析 1933年,可能是最古老的降维方法 但是,仍然是目前应用最广泛的降维方法 什么是降维? 主成份分析降维的动机:以两门课为例 问题2:分层次教学分组 主成份分析的动机 散度最大原则:数据降维后尽可能散开(方差尽可能大) 距离保持原则:原始空间距离近的点,降维后距离近;相反,原始空间距离远的点,降维后距离仍然远。 重建误差最小原则:(可通过最小二乘原则实现)…… 问题2 成绩数据分析: “分组” 解决思路2:聚类分析 层次聚类(hierarchical clustering) k-均值聚类(k-means clustering) …… 问题2:分层次教学分组 层次聚类(hierarchical clustering) 问题2:分层次教学分组 逐对距离计算:pdist(X,’distance’) 问题2:分层次教学分组 例. 样本点包括:1,2,6,8,11 问题2:分层次教学分组 点集之间的距离: 最小距离: 最大距离: 中间距离: 类平均距离: …… 问题2:分层次教学分组 树状图/冰状图/dendrogram 问题2:分层次教学分组 算法: Step1. 将每

文档评论(0)

挺进公司 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档