- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于weka的数据分类分析实验报告
姓名:xxx 学号:201021030483
1实验基本内容
本实验的基本内容是通过使用weka中的三种常见分类方法(朴素贝叶斯,KNN和决策树C4.5)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。
2数据的准备及预处理
2.1格式转换方法
原始数据是excel文件保存的xlsx格式数据,需要转换成Weka支持的arff文件格式或csv文件格式。由于Weka对arff格式的支持更好,这里我们选择arff格式作为分类器原始数据的保存格式。
转换方法:在excel中打开“movie_given.xlsx”,选择菜单文件-另存为,在弹出的对话框中,文件名输入“total_data”,保存类型选择“CSV(逗号分隔)”,保存,我们便可得到“total_data.csv”文件;然后,打开Weka的Exporler,点击Open file按钮,打开刚才得到的“total_data”文件,点击“save”按钮,在弹出的对话框中,文件名输入“total_data”,文件类型选择“Arff data files(*.arff)”,这样得到的数据文件为total_data.arff”。
2.2如何建立数据训练集,校验集和测试集
数据的预处理过程中,为了在训练模型、评价模型和使用模型对数据进行预测能保证一致性和完整性,首先要把movie_given.xslx和test.xslx合并在一起,因为在生成arff文件的时候,可能会出现属性值不一样的情况,否则将为后来的测试过程带来麻烦。
通过统计数据信息,发现带有类标号的数据一共有100行,为了避免数据的过度拟合,必须把数据训练集和校验集分开,目前的拆分策略是各50行。类标号为‘female’的数据有21条,而类标号为‘male’的数据有79条,这样目前遇到的问题是,究竟如何处理仅有的21条female数据?为了能在训练分类模型时有更全面的信息,所以决定把包含21条female类标号数据和29条male类标号数据作为模型训练数据集,而剩下的另49条类标号类male的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作用区别不大,而在训练数据模型时,则更需要更全面的信息,特别是不同类标号的数据的合理比例对训练模型的质量有较大的影响。
2.3预处理具体步骤
第一步:合并movie_given.xlsx和test.xlsx,保存为total_data.xlsx;
第二步:在total_data.xlsx中删除多余的ID列信息;
第三步:在excel中打开“total_data.xlsx”,选择菜单文件-另存为,在弹出的对话框中,文件名输入“total_data”,保存类型选择“CSV(逗号分隔)”;
第四步:使用UltraEdit工具把total_data.csv中的数据缺失部分补上全局常量‘?’;
第五步:打开Weka的Exporler,点击Open file按钮,打开刚才得到的“total_data.csv”文件,点击“save”按钮,在弹出的对话框中,文件名输入“total_data”,文件类型选择“Arff data files(*.arff)”,这样得到的数据文件为total_data.arff”。
第六步:从total_data.arff文件里面剪切所有没有分类标号的数据作为预测数据集(test.arff),共26项。
第七步:把剩下含有类标号数据的total_data.arff文件复制一份,作为总的训练数据集。文件名称为build_model.arff。
第八步:从total_data.arff文件中剩下的数据里面选取所有分类标号为male的49行数据作为校验数据集(validate_data.arff)。
第九步:从把剩下的total_data.arff文件改名为train_data.arff。
3. 实验过程及结果截图
3.1决策树分类
用Explorer”打开刚才得到的.arff”,并切换到Class”。点Choose”按钮选择tree (weka.classifiers.trees.j48)”,这是WEKA中实现算法。 使用不同配置训练参数,得到的实验数据:
配置不同的叶子节点的实例个数 实例数/叶节点 2 3 4 5 6 准确率 54% 60% 56% 56% 56% 结果分析:使用决策树时,每个叶子节点最优的实例个数为3。
校验数据集校验决策树得出的结果 初步结果分析:
使
文档评论(0)