《人工智能应用素养》_11-4.案例数据准备.pptxVIP

下载本文档

0
0
约2.32千字
约 25页
2025-12-12 发布于广东
举报
版权申诉

《人工智能应用素养》_11-4.案例数据准备.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

01目录CONTENTS数据读取02数据预处理03数据划分04数据升维与特征值选取

数据读取1Part

1.pandas设置数据显示格式本案例中使用pandas加载数据，pandas也可以设置数据的显示格式2.pandas读取数据数据读取

数据读取1.pandas设置数据显示格式01行：设置显示表格列中数据最?显?宽度为100002行：设置表格中数据显示的最大行数为50003行：设置表格中数据显示的最大列数为50004行：设置表格中数据显示的最大宽度为1000

数据读取2.pandas读取数据01行：使用pandas的read_csv()函数读取训练集02行：使用pandas的read_csv()函数读取测试集

数据预处理2Part

MinimalistwindAI计算机准确地理解数据需要以标准化方式提供数据，并且要求数据不包含异常值、噪声数据、部分特征值缺少的条目。反之，系统将做出与数据不符的假设则模型训练的速度就会变慢，并且由于数据解释的失误导致结果的不准确。数据预处理

1.缺失数据处理数据预处理处理的数据包括处理异常值数据、处理噪声数据和处理缺失数据。2.异常值处理数据预处理

MinimalistwindAI仅一部分特征有值的数据，或者缺少有意义特征值的数据都被视为缺失数据。数据预处理红色方框和箭头标注数据特征值多数为0.00，特征值无意义，即可认为是缺失数据。

1.删除缺失数据处理缺失数据时，一般方法是删除该值或者使用其他数值来替换。2.均值代入3.回归代入数据预处理

数据预处理1.本案例缺失值处理缺失值筛选：使用pandas的过滤功能筛选出数据中为0的数据，数据为0即可认为特征数据缺失。缺失值预测填充：发电量预测时将缺失数据的预测量使用特定值0.379993053填充。

1.删除异常值异常值指的是远离均值的值。如果一个属性的值遵循高斯分布，异常值则是位于尾部的值。2.阈值判断+分配新值数据预处理

数据预处理1.本案例异常值处理-定义删除异常值函数01行：定义drop_all_outlier函数。02行：使用pandas中DataFrame的方法drop_duplicates去除数据中的重复值03-11行：调用pandas的drop的方法去除不符合要求的数据；电压值在(500，800)区间，现场温度在(-30，30)之间，转换效率小于100，风向和风速在合理范围内

数据预处理1.本案例异常值处理-删除异常值01、03行：调用数据复制方法，拷贝数据02、04行：调用方法去除训练集、测试集的异常数据05行：获取cleaned_sub_data的ID赋给cleaned_sub_data_ID变量

1.查找异常值的行索引阈值判断+分配新值分为以下四步：2.使用阈值法确定该行中异常值3.取距离该异常值最近的两个正常值的平均数数据预处理4.使用该平均数代替异常值

数据预处理2.本案例异常值处理-“阈值判断+分配新值”01行：使用pandas的concat方法拼接数据，sort_values按照ID给数据重新排序，reset_index()方法对数据重置索引，drop([index]，axis=1)删除原来的索引列。03行：按照列索引遍历数据，筛选并删除异常值。04行：按照03行搜索到的索引查询数据并按照ID升序排序。

数据预处理2.本案例异常值处理-“阈值判断+分配新值”01行：iterrows()遍历异常数据；02行：获取每行的‘ID’特征值；03行：找出有异常数据的行中异常的值的列索引；04行：获得当前数据的行号。05-10行：取距该异常值最近的上下正常值的行偏移值；11行：取相邻最近的上下两个正常值的平均值。12行：使用平均值代替异常值。

数据划分3Part

MinimalistwindAI训练集用于训练不同的模型，验证集用于调整每个模型的超参数以选择一个最优的超参数组合，而测试集可以用来比较模型，目的是对最终模型进行无偏评估。在有些项目中，数据集划分仅划分为训练集和测试集，没有验证集。数据划分数据集训练集验证集测试集

MinimalistwindAItrain_test_split是数据划分函数，从样本中随机的按比例选取traindata和testdata人工智能助力芯片制造train_data：所要划分的样本特征集，即Xtrain_target：所要划分的样本结果，即ytest_size：测试集占比，案例中为0.2，即训练集和测试集的抽取比例为8:2random_state：是随机数的种子

数据升维与特征值选取4Part

数据升维与特征值选取1.数据升维数据集的特征不足的情况，需要对数据集的特征扩充。交互式特征式在原始数据中添加交互项，使特征数量增加。01行导入相关库和方法03行：使用

您可能关注的文档

文档评论（0）

酱酱 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《人工智能应用素养》_11-4.案例数据准备.pptxVIP