- 7
- 0
- 约4.23万字
- 约 21页
- 2016-11-24 发布于贵州
- 举报
数据挖掘实验报告——K-最临近分类算法
学号:311062202 姓名:汪文娟
数据源说明
1.数据理解
选择第二包数据Iris Data Set,共有150组数据,考虑到训练数据集的随机性和多样性,选择rowNo模3不等于0的100组作为训练数据集,剩下的50组做测试数据集。
每组数据有5个属性,分别是:1. sepal length in cm
2. sepal wrowNoth in cm
3. petal length in cm
4. petal wrowNoth in cm
5. class:
-- Iris Setosa
-- Iris Versicolour
-- Iris Virginica
为了操作方便,对各组数据添加rowNo属性,且第一组rowNo=1。
2.数据清理
现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致。
缺失值:当数据中存在缺失值是,忽略该元组(注意:本文选用的第二组数据Iris Data Set的Missing Attribute Values: None)。
噪声数据:本文暂没考虑。
K-最临近分类算法
KNN(k Nearest Neighbors)算法又叫k最临
您可能关注的文档
最近下载
- 中复神鹰(上海)科技有限公司碳纤维航空应用研发及制造项目 环评报告书.pdf VIP
- HTY-DI1000C型总有机碳分析仪说明书C版(7).doc VIP
- 门式起重机安全操作规程及注意事项.docx VIP
- 物理-江苏省无锡市2025-2026学年度第一学期2026届高三年级期末.pdf VIP
- 广东省水功能区划.pdf VIP
- 文物保护项目计划书模板.docx VIP
- 景观艺术概论 第三章 景观生态保护--修复与再生.ppt VIP
- 2024年武汉市中考数学真题试卷及解析.docx VIP
- 舒尔特方格-专注力训练表3阶4阶5阶6阶7阶(已排版-可以直接打印).pdf VIP
- 03J502-2内装修吊顶图集标准.docx VIP
原创力文档

文档评论(0)