WEKA中文详细教程.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2021/3/27 * 2021/3/27 * 9、数据可视化 Visualize WEKA 的可视化页面可以对当前的关系作二维散点图式的可视化浏览。 散点图矩阵 选择了 Visualize 面板后,会为所有的属性给出一个散点图矩阵,它们会根据所选的class 属性来着色。 在这里可以改变每个二维散点图的大小,改变各点的大小,以及随机地抖动(jitter)数据(使得被隐藏的点显示出来)。 也可以改变用来着色的属性,可以只选择一组属性的子集放在散点图矩阵中,还可以取出数据的一个子样本。 注意这些改变只有在点击了Update 了按钮之后才会生效。 2021/3/27 * 2021/3/27 * 选择单独的二维散点图 在散点图矩阵的一个元素上点击后,会弹出一个单独的窗口对所选的散点图进行可视化。 数据点散布在窗口的主要区域里。上方是两个下拉框选择用来选择打点的坐标轴。左边是用作 x 轴的属性;右边是用作 y 轴的属性。 在 x 轴选择器旁边是一个下拉框用来选择着色的方案。它可以根据所选的属性给点着色。 在打点区域的下方,有图例来说明每种颜色代表的是什么值。如果这些值是离散的,可以通过点击它们所弹出的新窗口来修改颜色。 2021/3/27 * 打点区域的右边有一些水平横条。每一条代表着一个属性,其中的点代表了属性值的分布。这些点随机的在竖直方向散开,使得点的密集程度能被看出来。 在这些横条上点击可以改变主图所用的坐标轴。左键点击改变 x 轴的属性;右键点击改变 y 轴的。横条旁边的“X”和“Y”代表了当前的轴用的那个属性(“B”则说明 x 轴和 y 轴都是它)。 属性横条的上方是一个标着 Jitter 的游标。它能随机地使得散点图中各点的位置发生偏移,也就是抖动。把它拖动到右边可以增加抖动的幅度,这对识别点的密集程度很有用。 如果不使用这样的抖动,几万个点放在一起和单独的一个点看起来会没有区别。 2021/3/27 * 2021/3/27 * 在y轴选择按钮的下方是一个下拉按钮,它决定选取数据点的方法。 2021/3/27 * 可以通过以下四种方式选取数据点: Select Instance. 点击各数据点会打开一个窗口列出它的属性值,如果点击处的点超过一个,则更多组的属性值也会列出来。 Rectangle. 通过拖动创建一个矩形,选取其中的点。 Polygon. 创建一个形式自由的多边形并选取其中的点。左键点击添加多边形的顶点,右键点击完成顶点设置。起始点和最终点会自动连接起来因此多边形总是闭合的。 Polyline. 可以创建一条折线把它两边的点区分开。左键添加折线顶点,右键结束设置。折线总是打开的(与闭合的多边形相反)。 2021/3/27 * 使用 Rectangle,Polygon 或 Polyline 选取了散点图的一个区域后,该区域会变成灰色。 这时点击 Submit按钮会移除落在灰色区域之外的所有实例。 点击Clear按钮会清除所选区域而不对图形产生任何影响。 如果所有的点都被从图中移除,则 Submit 按钮会变成 Reset 按钮。这个按钮能使前面所做的移除都被取消,图形回到所有点都在的初始状态。 最后,点击Save按钮可把当前能看到的实例保存到一个新的 ARFF 文件中。 2021/3/27 * 数据可视化举例 2021/3/27 * 2021/3/27 * 2021/3/27 * 2021/3/27 * 结果分析 当前Within cluster sum of squared errors: 1604.7416693522332,调整“seed”参数,观察Within cluster sum of squared errors(SSE)变化。采纳SSE最小的一个结果。 “Cluster centroids:”之后列出了各个簇中心的位置。对于数值型的属性,簇中心就是它的均值(Mean),如cluster0的数值型变量age的均值37.1299;分类型的就是它的众数(Mode),如cluster0的分类型变量children的众数为3,也就是说这个属性上取值为众数值3(有3个孩子)的实例最多。 为了观察可视化的聚类结果,在左下方“Result list”列出的结果上右击,点“Visualize cluster assignments”。弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标,第二行的”color”是散点图着色的依据,默认是根据不同的簇“Cluster”给实例标上不同的颜色。例如,横坐标选择Instance_number,纵坐标选择income。 2021/3/27 * 2021/3/27 * 点击“Save”,把聚类结果保存成bank_Clust

文档评论(0)

xiaohuer + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档