人工智能通识实践教程 课件 第3章 数据、计算与智能.pptx

人工智能通识实践教程 课件 第3章 数据、计算与智能.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第3章数据、计算与智能

实验要求(1)通过股票数据集学习数据清洗、规范化(2)通过鸢尾花数据集学习数据统计及可视化(3)通过波士顿房价数据集学习数据归一化及回归分析建模

实验目标通过Excel工具了解数据清洗、数据规一化、数据统计、数据可视化、数据建模的概念和方法3.2.6实验数据清洗:删除重复、处理缺失、处理异常、规范数据3.3.5实验数据统计:描述性统计数据可视化:柱状图、散点图、饼图等3.4.4实验数据归一化数据建模:回归分析

算法模型f(x)新数据预测结果建模阶段应用模型阶段训练数据测试数据训练测试算法:训练模型的方法模型:算法训练的结果机器学习

1数据清洗为什么要数据清洗:在实际应用中,由于系统限制或人为因素的干扰,用户收集的数据往往存在缺失、重复、不一致或异常等问题。数据清洗是对这些问题数据进行筛选、修正和优化的过程,目的是将原始数据转化为适合分析的形式,从而确保数据分析的有效性和准确性。数据清洗的常见任务:删除重复值、处理缺失值、处理异常值、规范数据

1数据清洗处理缺失值的方法删除法:直接删除包含缺失值的记录填充法统计值填充:通过使用统计值(如均值、中位数、众数等)对缺失数据进行填充模型法填充:利用回归等模型预测缺失值并进行填充

1数据清洗异常值:数据集中明显偏离其余数据的值。异常值可能是由于测量误差、录入错误或其他因素导致的。识别异常值的常用方法包统计分析箱线图

1数据清洗(实验任务1)规范数据:数据类型有误(日期和数字可能被存储为文本)、单元格中可能包含多项数据(需要拆分)、不可见的多余空格符(去空白)等。

2数据统计平均值、总和、计数、最大值、最小值、样本方差、样本标准差、中位数以及众数等概念含义举例方差描述一组数据的离散程度,或者样本个体距离均值的分散程度两组数据{1,9,30,60}和{24,25,25,26},样本均值都是25,而方差分别为520.5,0.5,表示第一组数据的离散程度远大于第二组标准差方差的平方根,与原始数据的单位一致,用于衡量数据点相对于均值的分散程度众数样本中出现次数最多的值,如果所有值出现的次数一样多,则认为样本没有众数课程兴趣反馈数据的众数是4,则对课程感兴趣的同学人数最多中位数将样本数据从小到大顺序排列,如果样本容量为奇数,处在中间的数是中位数;否则处在最中间两个数的平均值是中位数中位数的作用类似于平均值,反应数据整体特征,但是不受最大、最小两个极端数值的影响

2数据统计分类汇总手动方法:排序、汇总自动方法:数据透视表

3数据可视化认识图形柱形图:分类比较(多类数据)饼图:少量数据的对比散点图:展现变量之间的关系折线图:数据的变化趋势

3数据可视化认识图元

实验任务2【任务1】通过分类汇总分析不同种类的鸢尾花数据在花萼长度、花萼宽度、花瓣长度、花瓣宽度等特征上的平均值。【任务2】创建数据透视表,统计不同种类的鸢尾花数据在花萼长度、花萼宽度、花瓣长度、花瓣宽度等特征上的平均值。【任务3】创建散点图,分别展示不同种类的鸢尾花的花萼长度和花萼宽度之间的分布关系、以及花瓣长度与花瓣宽度的分布情况。要求不同种类的鸢尾花用不同颜色进行区分。【任务4】创建箱线图,分别展示不同种类的鸢尾花的花萼长度、花瓣宽度的分布情况,不同种类的鸢尾花用颜色进行区分。花萼Sepals花瓣Petal

上机练习3.3.5数据分析与可视化员工支出数据集

算法模型f(x)新数据预测结果建模阶段应用模型阶段训练数据测试数据训练测试算法:训练模型的方法模型:算法训练的结果机器学习

分类和回归监督学习:训练数据带有标签回归分析:学习的结果是连续值分类:学习的结果是离散值预测猫的年龄预测猫的种类预测房价、评分…预测是否患有疾病预测情感倾向…

回归分析:目标值为连续数据Y:房价(万元),值域Y≥0X:房屋面积(m2)预测:面积=90,房价=?

分类:目标值为离散数据Y:所属类别X:鸢尾花的花萼宽度和长度预测:sepallength=5sepalwidth=2.5的分类

4回归分析回归分析是一种预测性的建模技术,用来确定两种或两种以上变量之间的定量关系。线性回归:自变量和因变量之间的关系为线性分布一元线性回归多元线性回归

4回归分析(1)通过回归分析,建立血糖与其它几项指标关系的线性回归模型。(2)分析哪些指标对血糖的影响较大,哪些指标对血糖的影响较小。(3)计算平均相对误差。

P-value的含义:当原假设为真时所得到的样本观察结果或更极端结果出现的概率。说明P-value越接近0,则相关性越强。决定系数表征一个拟合的好坏,越接近1,表明函数的自变量对因变量y的解释能力越强,0.6的物理解释是,因变量y的60%变化由自变量X组合来解释

上机练习3.4.

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档