基于weka的数据分类分析实验报告.pdf

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘实验报告 xxx 201021030483 基于 weka 的数据分类分析实验报告 1 实验基本内容 本实验的基本内容是通过使用 weka 中的三种常见分类方法 (朴素贝叶斯,KNN 和决策 树 C4.5 )分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价, 找出各个模型最优的参数值, 并对三个模型进行全面评价比较, 得到一个最好的分类模型以 及该模型所有设置的最优参数。 最后使用这些参数以及训练集和校验集数据一起构造出一个 最优分类器,并利用该分类器对测试数据进行预测。 2 数据的准备及预处理 2.1 格式转换方法 原始数据是 excel 文件保存的 xlsx 格式数据,需要转换成 Weka 支持的 arff 文件格式或 csv 文件格式。由于 Weka 对 arff 格式的支持更好,这里我们选择 arff 格式作为分类器原始 数据的保存格式。 转换方法:在 excel 中打开“ movie_given.xlsx ”,选择菜单文件 -> 另存为,在弹出的对 话框中,文件名输入“ total_data ”,保存类型选择“ CSV (逗号分隔)”,保存,我们便可得 到“ total_data.csv ”文件;然后,打开 Weka 的 Exporler ,点击 Open file 按钮,打开刚才得 到的“ total_data ”文件,点击“ save”按钮,在弹出的对话框中,文件名输入“ total_data ”, 文件类型选择“ Arff data files (*.arff )”,这样得到的数据文件为“ total_data.arff ”。 2.2 如何建立数据训练集,校验集和测试集 数据的预处理过程中, 为了在训练模型、 评价模型和使用模型对数据进行预测能保证一 致性和完整性,首先要把 movie_given.xslx 和 test.xslx 合并在一起,因为在生成 arff 文件的 时候,可能会出现属性值不一样的情况,否则将为后来的测试过程带来麻烦。 通过统计数据信息,发现带有类标号的数据一共有 100 行,为了避免数据的过度拟合, 必须把数据训练集和校验集分开,目前的拆分策略是各 50 行。类标号为‘ female ’的数据 有 21 条,而类标号为‘ male’的数据有 79 条,这样目前遇到的问题是,究竟如何处理仅有 的 21 条 female 数据?为了能在训练分类模型时有更全面的信息,所以决定把包含 21 条 female 类标号数据和 29 条 male 类标号数据作为模型训练数据集,而剩下的另 49 条类标号 类 male 的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作用 区别不大, 而在训练数据模型时, 则更需要更全面的信息, 特别是不同类标号的数据的合理 比例对训练模型的质量有较大的影响。 1 数据挖掘实验报告 xxx 201021030483 2.3 预处理具体步骤 第一步:合并 movie_given.xlsx 和 test.xlsx ,保存为 total_data.xlsx ; 第二步:在 total_data.xlsx 中删除多余的 ID 列信息; 第三步: 在 excel 中打开 “total_data.xlsx ”,选择菜单文件 -> 另存为, 在弹出的对话框中, 文件名输入“ total_data ”,保存类型选择“ CSV (逗号分隔)”; 第四步:使用 UltraEdit 工具把 total_d

文档评论(0)

本尊 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档