网站大量收购独家精品文档,联系QQ:2885784924

人工智能基础 课件 8.2 利用AI清洗数据.pptx

人工智能基础 课件 8.2 利用AI清洗数据.pptx

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第8章大模型操作表格

任务1:借助AI获取外部数据任务2:利用AI清洗数据任务3:AI助力WPS表格函数运用从网络上获取数据从文件中提取数据WPS表格格式设置处理缺失值去除重复值处理错误格式数据排序、筛选公式与函数AI助力函数运用

2任务2:利用AI清洗数据处理缺失值去除重复值处理错误格式数据排序、筛选

利用AI清洗数据将外部数据导入表格后,通常需要对数据进行清洗,以确保数据的准确性和一致性。数据清洗涉及多个方面,包括处理缺失值、去除重复值、调整数据格式等。通过清洗数据,可以消除错误、填补缺失、修正不一致的数据,从而确保数据集的质量。

处理缺失值缺失值是指导入的数据集中有空白单元格或者以特殊符号表示的缺失数据。在数据处理中,缺失值是一个常见的问题。缺失值可能会导致数据分析结果的偏差,因此需要进行妥善处理。

处理缺失值了解缺失值产生的原因对于选择合适的处理方法非常重要。缺失值可能是由于数据采集过程中的遗漏、数据损坏或其他原因导致的。1分析缺失原因2处理缺失值的方法(1)删除法如果缺失值的数量较少,且对数据分析的影响不大,可以考虑直接删除包含缺失值的行或列。(2)填充法均值填充:对于数值型数据,可以使用该列的均值来填充缺失值。中位数填充:对于存在异常值的数据,中位数填充可能更合适。众数填充:适用于分类数据。插值法:根据数据的分布情况,使用插值算法来估算缺失值。(3)模型预测法利用机器学习模型,根据其他相关变量来预测缺失值。在使用AI辅助处理缺失值时,可以借助相关的数据处理工具和算法,自动识别和处理缺失值,提高数据清洗的效率和准确性。

处理缺失值【例】某家庭记录日常支出的表格中缺失部分数据,请选择合适的方式处理缺失值。对于日常支出表来说,缺失的值要么是没有花销,要么是忘记了记录花销,且根据观察每一项前后数值都不大,因此选择将缺失的数据全部填充为0。输入提示词:将有缺失值的部分用数字0填充。

处理缺失值【例】某气象观测站的观测数据因为某些原因有所缺失(使用NaN表示),需要处理这些缺失值。气候数据不能像前一个例子一样简单的填补为0,需要综合温度、湿度、降水量、风速、气压进行估算。输入提示词:综合考虑温度、湿度、降水量、风速、气压的关系,对缺失值数据进行填补填补的新数据小数点位数与同列其他值保持一致给我填充了缺失值后的新表格。

去除重复值在处理表格数据时,经常会遇到重复值的情况,即数据中存在重复的记录或数值。重复值可能会干扰数据分析的准确性,一般需要对重复值进行删除。

去除重复值【例】图书馆借阅记录表中有部分借阅记录重复了,借助AI快速去除重复数据。在当前例子中很明显的看到有3条借阅记录是重复的,真实的借阅记录数据量会非常大,人工不容易发现和剔除,使用AI工具则可以快速完成重复值的删除。输入提示词:去除图书馆借阅记录中的重复记录并显示去除重复后的新表。

处理错误格式在数据表中,错误格式可能会导致数据分析和处理的不准确。常见的错误包括日期格式不一致、数字格式错误、文本格式混乱等。例如,有的日期采用“2024/10/01”的格式,有的日期采用“2024年10月1日”的格式。例如有的数字被设为文本格式、或使用了不统一的小数点位数。例如,同一列中包含了多种不同的文本格式。传统的手动调整不仅费时,而且容易出错、有遗漏,利用AI可以更高效地处理这些错误格式。

处理错误格式【例】某社交媒体的用户数据中存在多处数据格式多样且不一致的情况,需要将各列数据调整统一。可以看出发布时间的日期格式不统一,点赞数、评论数、分享数的数字格式也不统一,地理位置也用了多种表达方式。借助AI工具,将其快速更正。

处理错误格式输入提示词:处理该表中错误数据格式,将每一列的格式调整统一,遵循以下格式要求:发布时间:年-月-日小时:分钟,例如2024-01-0112:30点赞数、评论数、分享数:使用整数,例如100地理位置:显示城市名,例如北京处理完错误数据格式后,显示新表

数据排序、筛选WPS表格的排序功能,可以对单元格进行升序、降序和自定义排序。1排序【例】将图书信息表,按照出版日期降序排列。

数据排序、筛选【例】将图书信息表,按照出版日期降序排列。选中E列,单击在“数据”菜单栏下的“排序”图标,可以对单元格进行降序。弹出的对话框中,“扩展选定区域”表示与其同行的单元格也随之移动。“以当前选定区域排序”指的是仅仅对E列进行降序排列,其他的单元格不移动。

数据排序、筛选WPS表格的筛选功能,可以快速筛选出符合条件的单元格。2筛选【例】对上例中的图书信息表进行筛选,筛选出历史类的图书。选中表格第一行任意单元格,单击“数据”菜单栏中的“筛选”旁的下拉箭头,选择“筛选”。

数据排序、筛选WPS表格的筛选功能,可以快速筛选出符合条件的单元格。2筛选【例】对

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档