《人工智能应用素养》_11-4.案例数据准备.pptxVIP

《人工智能应用素养》_11-4.案例数据准备.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

01目录CONTENTS数据读取02数据预处理03数据划分04数据升维与特征值选取

数据读取1Part

1.pandas设置数据显示格式本案例中使用pandas加载数据,pandas也可以设置数据的显示格式2.pandas读取数据数据读取

数据读取1.pandas设置数据显示格式01行:设置显示表格列中数据最?显?宽度为100002行:设置表格中数据显示的最大行数为50003行:设置表格中数据显示的最大列数为50004行:设置表格中数据显示的最大宽度为1000

数据读取2.pandas读取数据01行:使用pandas的read_csv()函数读取训练集02行:使用pandas的read_csv()函数读取测试集

数据预处理2Part

MinimalistwindAI计算机准确地理解数据需要以标准化方式提供数据,并且要求数据不包含异常值、噪声数据、部分特征值缺少的条目。反之,系统将做出与数据不符的假设则模型训练的速度就会变慢,并且由于数据解释的失误导致结果的不准确。数据预处理

1.缺失数据处理数据预处理处理的数据包括处理异常值数据、处理噪声数据和处理缺失数据。2.异常值处理数据预处理

MinimalistwindAI仅一部分特征有值的数据,或者缺少有意义特征值的数据都被视为缺失数据。数据预处理红色方框和箭头标注数据特征值多数为0.00,特征值无意义,即可认为是缺失数据。

1.删除缺失数据处理缺失数据时,一般方法是删除该值或者使用其他数值来替换。2.均值代入3.回归代入数据预处理

数据预处理1.本案例缺失值处理缺失值筛选:使用pandas的过滤功能筛选出数据中为0的数据,数据为0即可认为特征数据缺失。缺失值预测填充:发电量预测时将缺失数据的预测量使用特定值0.379993053填充。

1.删除异常值异常值指的是远离均值的值。如果一个属性的值遵循高斯分布,异常值则是位于尾部的值。2.阈值判断+分配新值数据预处理

数据预处理1.本案例异常值处理-定义删除异常值函数01行:定义drop_all_outlier函数。02行:使用pandas中DataFrame的方法drop_duplicates去除数据中的重复值03-11行:调用pandas的drop的方法去除不符合要求的数据;电压值在(500,800)区间,现场温度在(-30,30)之间,转换效率小于100,风向和风速在合理范围内

数据预处理1.本案例异常值处理-删除异常值01、03行:调用数据复制方法,拷贝数据02、04行:调用方法去除训练集、测试集的异常数据05行:获取cleaned_sub_data的ID赋给cleaned_sub_data_ID变量

1.查找异常值的行索引阈值判断+分配新值分为以下四步:2.使用阈值法确定该行中异常值3.取距离该异常值最近的两个正常值的平均数数据预处理4.使用该平均数代替异常值

数据预处理2.本案例异常值处理-“阈值判断+分配新值”01行:使用pandas的concat方法拼接数据,sort_values按照ID给数据重新排序,reset_index()方法对数据重置索引,drop([index],axis=1)删除原来的索引列。03行:按照列索引遍历数据,筛选并删除异常值。04行:按照03行搜索到的索引查询数据并按照ID升序排序。

数据预处理2.本案例异常值处理-“阈值判断+分配新值”01行:iterrows()遍历异常数据;02行:获取每行的‘ID’特征值;03行:找出有异常数据的行中异常的值的列索引;04行:获得当前数据的行号。05-10行:取距该异常值最近的上下正常值的行偏移值;11行:取相邻最近的上下两个正常值的平均值。12行:使用平均值代替异常值。

数据划分3Part

MinimalistwindAI训练集用于训练不同的模型,验证集用于调整每个模型的超参数以选择一个最优的超参数组合,而测试集可以用来比较模型,目的是对最终模型进行无偏评估。在有些项目中,数据集划分仅划分为训练集和测试集,没有验证集。数据划分数据集训练集验证集测试集

MinimalistwindAItrain_test_split是数据划分函数,从样本中随机的按比例选取traindata和testdata人工智能助力芯片制造train_data:所要划分的样本特征集,即Xtrain_target:所要划分的样本结果,即ytest_size:测试集占比,案例中为0.2,即训练集和测试集的抽取比例为8:2random_state:是随机数的种子

数据升维与特征值选取4Part

数据升维与特征值选取1.数据升维数据集的特征不足的情况,需要对数据集的特征扩充。交互式特征式在原始数据中添加交互项,使特征数量增加。01行导入相关库和方法03行:使用

文档评论(0)

酱酱 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档