《人工智能应用素养》_14.3案例数据准备.pptxVIP

下载本文档

0
0
约1.72千字
约 18页
2025-12-15 发布于广东
举报
版权申诉

《人工智能应用素养》_14.3案例数据准备.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

01目录CONTENTS案例数据集介绍及常见预处理02推荐系统所用库03数据加载04数据划分

案例数据集介绍及常见预处理1Part

MinimalistwindAIMovieLens是一个基于Web的研究型推荐系统，从1997年秋季开始运行，用于接收用户对电影项目的评分，并提供相应的电影推荐列表。MovieLens数据集通过MovieLens网站，从1997年9月19日到1998年4月22日，共汇总了来自943个用户对1682部电影的100000个评分。案例数据集介绍及常见预处理1.MovieLens数据集介绍

MinimalistwindAI本案例主要使用其中的ml-100k数据集。主要用到三个部分：u.data（评分）u.item(电影信息)u.user(用户信息)案例数据集介绍及常见预处理1.MovieLens数据集介绍图MovieLens数据集文件目录情况

MinimalistwindAI由于案例使用的数据集是经过预处理过的，我们可以直接拿来使用，但事实上，我们一般拿到的数据都是原始数据，可能会遇到异常数据、缺失值、噪声值等一些情况，这时候就需要对这些数据进行处理，否则就会降低后期训练模型的精度。案例数据集介绍及常见预处理2.数据完整性不足及一般应对方法

MinimalistwindAI常见的缺失值处理方法包括（但不局限于）：案例数据集介绍及常见预处理2.数据完整性不足及一般应对方法忽略数据人工填写缺失值使用全局固定值填充使用属性的中心度量（如均值、中位数）进行填充使用与给定元组属于同一类的所有样本的属性均值或中位数填充使用回归、决策树等工具进行推理

推荐系统所用库2Part

MinimalistwindAISurprise（SimplePythonRecommendationSystemEngine）是一款推荐系统库，是scikit系列中的一个。简单易用，同时支持多种推荐算法（基础算法、协同过滤、矩阵分解等）。推荐系统所用库

推荐系统所用库Surprise库如何安装？一般情况可以直接用：建议使用Anaconda的方式安装：

数据加载3Part

MinimalistwindAI数据加载，由Reader和Dataset两个类来提供功能，具体的思路是由Reader提供读取数据的格式，然后Dataset按照Reader的设置来完成对数据的载入。数据加载Reader类和Dataset类

数据加载代码实现代码解析：01行：从Surprise库中导入Dataset和Reader两个包。02行：解析数据。其中，line_format：定义每行格式，默认空格分割；sep：设置分隔符。03行：加载数据。

数据划分Part4

数据划分在机器学习中，通常将数据集划分为训练数据集、验证数据集和测试数据集。它们的功能分别为：训练数据集（TrainDataset）：用来构建机器学习模型。验证数据集（ValidationDataset）：辅助构建模型，用于在构建过程中评估模型，为模型提供无偏估计，进而调整模型的超参数。测试数据集（TestDataset）：评估训练完成的最终模型的性能。1.数据划分原理图三类数据集在模型训练和评估过程中的使用顺序

数据划分常见数据集划分方法：留出法1.数据划分原理K-折交叉验证法自助法

数据划分train_test_split()函数是交叉验证中常用的函数，其功能是用来随机划分样本数据为训练集和测试集的，当然也可以人为的切片划分。因此我们可以看出，train_test_split()函数的优点就是随机客观的划分数据，减少人为因素。2.train_test_split()函数

数据划分3.代码实现代码解析：01行：从surprise.model_selection中导入划分数据集函数train_test_split()。02行：划分训练集和测试集。这里用到了关键函数train_test_split()，根据自己的需要进行训练集trainset和测试集testset的分割。

感谢您的观看！以上是

本节全部内容

您可能关注的文档

文档评论（0）

酱酱 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《人工智能应用素养》_14.3案例数据准备.pptxVIP