- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘实验报告 xxx 201021030483
基于 weka 的数据分类分析实验报告
1 实验基本内容
本实验的基本内容是通过使用 weka 中的三种常见分类方法(朴素贝叶斯,KNN 和决策
树 C4.5)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,
找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以
及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个
最优分类器,并利用该分类器对测试数据进行预测。
2 数据的准备及预处理
2.1 格式转换方法
原始数据是 excel 文件保存的 xlsx 格式数据,需要转换成 Weka 支持的 arff 文件格式或
csv 文件格式。由于 Weka 对 arff 格式的支持更好,这里我们选择 arff 格式作为分类器原始
数据的保存格式。
转换方法:在 excel 中打开“movie_given.xlsx”,选择菜单文件-另存为,在弹出的对
话框中,文件名输入“total_data”,保存类型选择“CSV(逗号分隔)”,保存,我们便可得
到“total_data.csv”文件;然后,打开 Weka 的 Exporler,点击 Open file 按钮,打开刚才得
到的“total_data”文件,点击“save”按钮,在弹出的对话框中,文件名输入“total_data”,
文件类型选择“Arff data files(*.arff)”,这样得到的数据文件为“total_data.arff”。
2.2 如何建立数据训练集,校验集和测试集
数据的预处理过程中,为了在训练模型、评价模型和使用模型对数据进行预测能保证一
致性和完整性,首先要把 movie_given.xslx 和 test.xslx 合并在一起,因为在生成 arff 文件的
时候,可能会出现属性值不一样的情况,否则将为后来的测试过程带来麻烦。
通过统计数据信息,发现带有类标号的数据一共有100 行,为了避免数据的过度拟合,
必须把数据训练集和校验集分开,目前的拆分策略是各 50 行。类标号为‘female’的数据
有 21 条,而类标号为‘male’的数据有79 条,这样目前遇到的问题是,究竟如何处理仅有
的 21 条 female 数据?为了能在训练分类模型时有更全面的信息,所以决定把包含 21 条
female 类标号数据和 29 条 male 类标号数据作为模型训练数据集,而剩下的另 49 条类标号
类 male 的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作用
区别不大,而在训练数据模型时,则更需要更全面的信息,特别是不同类标号的数据的合理
比例对训练模型的质量有较大的影响。
1
数据挖掘实验报告 xxx 201021030483
2.3 预处理具体步骤
第一步:合并 movie_given.xlsx 和 test.xlsx,保存为 total_data.xlsx;
第二步:在 total_data.xlsx 中删除多余的 ID 列信息;
第三步:在 excel 中打开“total_data.xlsx”,选择菜单文件-另存为,在弹出的对话框中,
文件名输入“total_data”,保存类型选择“CSV(逗号分隔)”;
第四步:使用 UltraEdit 工具把 total_data.csv 中的数据缺失部分补上全局常量‘?’;
第五步:打开 Weka的 Exporler,点击 Open file 按钮,打开刚才得到的“total_data.csv”
文件,点击“save”按钮,在弹出的对话框中,文件名输入“total_data”,文件类型选择“Arff
data files(*.arff)”,这样得到的数据文件为“total_data.arff”。
第六步:从 total_data.arff 文件里面剪切所有没有分类标号的数据作为预测数据集
(test.arff), 共 26 项。
第七步:把剩下含有类标号数据的total_data.arff 文件复制一份,作为总的训练数据集。
文件名称为 build_model.arff。
第八步:从 total_data.arff 文件中剩下的数据里面选取所有分类标号为 male 的 49 行数
据作为校验数据集(validate_data.arff)。
第九步:从把剩下的 total_data.arff 文件改名为 train_data.arff。
3. 实验过程及结果截图
3.1 决策树分类
用“Explorer”打开刚才得到的“train-data.arff”,并切换到“Class”。点“Choose”按
钮选择“tree (weka.classifiers.tre
您可能关注的文档
最近下载
- 血透室护士在医疗行为中的职业暴露与职业防护专家讲座.pptx VIP
- 水利工程事故应急方案【精选资料】.doc VIP
- 西奥扶梯XO-9800电气原理图纸.pdf
- 2025年中级注册安全工程师《安全生产法律法规》考试真题及答案解析.docx VIP
- 配送中食材卫生保障措施.docx VIP
- 国家科学技术学术著作出版基金资助力度与科技学术著作出版成本初探.pdf VIP
- DBJ50T-323-2019 滨江步道技术标准 .docx VIP
- 2025年电竞教育机构运营模式与盈利分析.docx
- 5.2染色体变异课件(共47张PPT)人教版(2019)高中生物学必修2(内嵌音频+视频).pptx VIP
- 【复习资料】00642传播学概论(章节复习要点).doc VIP
原创力文档


文档评论(0)