- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘实验报告 xxx 201021030483
基于 weka 的数据分类分析实验报告
1 实验基本内容
本实验的基本内容是通过使用 weka 中的三种常见分类方法 (朴素贝叶斯,KNN 和决策
树 C4.5 )分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,
找出各个模型最优的参数值, 并对三个模型进行全面评价比较, 得到一个最好的分类模型以
及该模型所有设置的最优参数。 最后使用这些参数以及训练集和校验集数据一起构造出一个
最优分类器,并利用该分类器对测试数据进行预测。
2 数据的准备及预处理
2.1 格式转换方法
原始数据是 excel 文件保存的 xlsx 格式数据,需要转换成 Weka 支持的 arff 文件格式或
csv 文件格式。由于 Weka 对 arff 格式的支持更好,这里我们选择 arff 格式作为分类器原始
数据的保存格式。
转换方法:在 excel 中打开“ movie_given.xlsx ”,选择菜单文件 -> 另存为,在弹出的对
话框中,文件名输入“ total_data ”,保存类型选择“ CSV (逗号分隔)”,保存,我们便可得
到“ total_data.csv ”文件;然后,打开 Weka 的 Exporler ,点击 Open file 按钮,打开刚才得
到的“ total_data ”文件,点击“ save”按钮,在弹出的对话框中,文件名输入“ total_data ”,
文件类型选择“ Arff data files (*.arff )”,这样得到的数据文件为“ total_data.arff ”。
2.2 如何建立数据训练集,校验集和测试集
数据的预处理过程中, 为了在训练模型、 评价模型和使用模型对数据进行预测能保证一
致性和完整性,首先要把 movie_given.xslx 和 test.xslx 合并在一起,因为在生成 arff 文件的
时候,可能会出现属性值不一样的情况,否则将为后来的测试过程带来麻烦。
通过统计数据信息,发现带有类标号的数据一共有 100 行,为了避免数据的过度拟合,
必须把数据训练集和校验集分开,目前的拆分策略是各 50 行。类标号为‘ female ’的数据
有 21 条,而类标号为‘ male’的数据有 79 条,这样目前遇到的问题是,究竟如何处理仅有
的 21 条 female 数据?为了能在训练分类模型时有更全面的信息,所以决定把包含 21 条
female 类标号数据和 29 条 male 类标号数据作为模型训练数据集,而剩下的另 49 条类标号
类 male 的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作用
区别不大, 而在训练数据模型时, 则更需要更全面的信息, 特别是不同类标号的数据的合理
比例对训练模型的质量有较大的影响。
1
数据挖掘实验报告 xxx 201021030483
2.3 预处理具体步骤
第一步:合并 movie_given.xlsx 和 test.xlsx ,保存为 total_data.xlsx ;
第二步:在 total_data.xlsx 中删除多余的 ID 列信息;
第三步: 在 excel 中打开 “total_data.xlsx ”,选择菜单文件 -> 另存为, 在弹出的对话框中,
文件名输入“ total_data ”,保存类型选择“ CSV (逗号分隔)”;
第四步:使用 UltraEdit 工具把 total_d
您可能关注的文档
- 基于vi服务器和队列的程序架构课件.pdf
- 基于webgis数字校园需求分析.pdf
- 基于vs2010ide环境水晶报表讲解(原创).pdf
- 基于web办公电子文档设计大学学位论文.pdf
- 基于web的办公电子文档管理系统设计毕业设计论文.pdf
- 基于web的单片机课程远程实验系统设计.pdf
- 基于web的在线购物系统1.pdf
- 基于web的学校网站设计与实现学位论文.pdf
- 基于web的学生信息管理系统范文.pdf
- 基于web的客户管理系统设计报告.pdf
- 2022年部编人教版九年级数学上册期末考试题及答案【最新】.doc
- 人教部编版四年级数学(上册)期末质量分析卷及答案.doc
- 人教版一年级科学下册期中试卷及答案【一套】.doc
- 2023年人教版九年级地理(上册)期末考试卷及答案.doc
- 2022-2023年人教版七年级数学下册期中测试卷及答案【全面】.doc
- 苏教版五年级《数学》下册全单元测试题【附答案】.docx
- 人教版三年级语文上册期末考试卷及答案【全面】.doc
- 部编版五年级数学下册期中考试题及答案【完美版】.doc
- 2022年部编版六年级数学上册期末试卷加答案.doc
- 2021—2022年部编人教版三年级语文上册期末试卷(参考答案).doc
文档评论(0)