- 5
- 0
- 约4.23万字
- 约 21页
- 2023-10-13 发布于湖北
- 举报
数据挖掘实验报告——K-最临近分类算法
学号:311062202 姓名:汪文娟
数据源说明
1.数据理解
选择第二包数据Iris Data Set,共有150组数据,考虑到训练数据集的随机性和多样性,选择rowNo模3不等于0的100组作为训练数据集,剩下的50组做测试数据集。
每组数据有5个属性,分别是:1. sepal length in cm
2. sepal wrowNoth in cm
3. petal length in cm
4. petal wrowNoth in cm
5. class:
-- Iris Setosa
-- Iris Versicolour
-- Iris Virginica
为了操作方便,对各组数据添加rowNo属性,且第一组rowNo=1。
2.数据清理
现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致。
缺失值:当数据中存在缺失值是,忽略该元组(注意:本文选用的第二组数据Iris Data Set的Missing Attribute Values: None)。
噪声数据:本文暂没考虑。
K-最临近分类算法
KNN(k Nearest Neighbors)算法又叫k最
您可能关注的文档
最近下载
- CA6140车床831005_拨叉设计_工序卡片.doc VIP
- 5. 指针2--指针与一维数组.ppt VIP
- 手把手教你海淘Skinstore.pdf VIP
- 2021CA6140拨叉831005工艺卡片.docx VIP
- 7.2.2 东南亚(第2课时 东南亚的城市分布和旅游业)(课件)-【上好课】七年级地理下册同步备课系列(人教版).pptx VIP
- CA6140车床拨叉(831005)课程设计说明书.doc VIP
- CA6140车床拨叉831005课程设计说明书.doc VIP
- 四川省成都市温江区2022-2023学年八年级下学期期末数学试卷.pdf VIP
- ca6140拨叉831005课程设计说明书..doc VIP
- 2022—2023学年四川省成都市温江区八年级下学期期末数学试卷.doc VIP
原创力文档

文档评论(0)