- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
weka实验报告(DOC X页)
基于weka的数据分类分析实验报告
姓名: 学号:
1实验基本内容
本实验的基本内容是通过使用weka中的三种常见分类方法(朴素贝叶斯,KNN和决策树C4.5)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。
2数据的准备及预处理
2.1格式转换方法
原始数据是老师直接给的arff文件,因此不用转换,可以直接导入。但如果原始数据是excel文件保存的xlsx格式数据,则需要转换成Weka支持的arff文件格式或csv文件格式。由于Weka对arff格式的支持更好,这里我们选择arff格式作为分类器原始数据的保存格式。
转换方法:假如我们准备分析的文件为“breast-cancer.xlsx”,则在excel中打开“breast-cancer.xlsx”,选择菜单文件-另存为,在弹出的对话框中,文件名输入“breast-cancer”,保存类型选择“CSV(逗号分隔)”,保存,我们便可得到“breast-cancer.csv”文件;然后,打开Weka的Exporler,点击Open file按钮,打开刚才得到的“filename”文件,点击“save”按钮,在弹出的对话框中,文件名输入“breast-cancer”,文件类型选择“Arff data files(*.arff)”,这样得到的数据文件为breast-cancer.arff”。
2.2如何建立数据训练集,校验集和测试集
通过统计数据信息,发现带有类标号的数据一共有286行,为了避免数据的过度拟合,必须把数据训练集和校验集分开,目前的拆分策略是训练集200行,校验集86行。类标号为‘no-recurrence-events’的数据有201条,而类标号为‘recurrence-events’的数据有85条,为了能在训练分类模型时有更全面的信息,所以决定把包含115条no-recurrence-events类标号数据和85条recurrence-events类标号数据作为模型训练数据集,而剩下的86条类标号类no-recurrence-events的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作用区别不大,而在训练数据模型时,则更需要更全面的信息,特别是不同类标号的数据的合理比例对训练模型的质量有较大的影响。另外,我们为了做预测测试,我们将分类标号为no-recurrence-events的86行数据集的分类标号去掉,作为预测数据集。
2.3预处理具体步骤
第一步:把breast-cancer.arff文件复制一份,作为总的训练数据集。文件名称为build_model.arff。
第二步:从breast-cancer.arff文件数据里面选取分类标号为no-recurrence-events的86行数据作为校验数据集(validate_data.arff)。
第三步:从把剩下的breast-cancer.arff文件改名为train_data.arff。
第四部:由于老师给的全部都是有类标号的数据集,为了我们方便进行预测测试,我们将分类标号为no-recurrence-events的86行数据集的分类标号去掉,作为预测数据集。
3. 实验过程及结果截图
3.1决策树分类
用Explorer”打开刚才得到的.arff”,并切换到Class”。点Choose”按钮选择tree (weka.classifiers.trees.j48)”,这是WEKA中实现算法。
使用不同配置训练参数,得到的实验数据:
配置不同的叶子节点的实例个数 实例数/叶节点 2 3 4 5 6 准确率 63.5% 63.5% 62.5% 62.5% 62.5% 结果分析:使用决策树时,每个叶子节点最优的实例个数为2或者3。
校验数据集校验决策树得出的结果 初步结果分析:
使用决策树进行分类,对于已知的86个类标号为no-recurrence-events的数据进行比较准确的分类,准确率达到86%;该数据一般,并且有一定的缺陷,因为该结果是以训练集的低准确率作为前提的。
3.2 K最近邻算法分类
点Choose”按钮选择,这是WEKA中实现算法。
使用不同配置训练参数,得到的实验数据:
配置不同的叶子节点的实例个数 K值 1 2 3 4 5 6 7 8 9 10 准确率 66.5% 64% 65% 68.5% 67% 66.5% 66.5% 66% 66% 67% 结果分析:使用KNN算法分类时,K最优值
文档评论(0)