wek学习笔记.docVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
wek学习笔记

Weka 学习笔记 一、数据格式: 以“%”开始的行是注释。 除去注释后,整个ARFF文件可以分为两个部分。第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。第二部分给出了数据信息(Data information),即数据集中给出的数据。从“@data”标记开始,后面的就是数据信息了。 1、关系声明 :@relation relation-name 在ARFF文件的第一个有效行来定义。 relation-name是一个字符串。如果这个字符串包含空格,它必须加上引号(指英文标点的单引号或双引号)。 2、属性声明 : @attribute attribute-name datatype 声明语句的顺序按照该项属性在数据部分的位置来排。 最后一个声明的属性被称作class属性,在分类或回归任务中,它是默认的目标变量。 attribute-name是必须以字母开头的字符串。和关系名称一样,如果这个字符串包含空格,它必须加上引号。 WEKA支持的datatype有四种,分别是 :numeric数值型、nominal-specification分类型、string字符串型、date [date-format日期型。 (1)数值属性:数值型属性可以是整数或者实数,但WEKA把它们都当作实数看待。 (2)分类属性:分类属性由nominal-specification列出一系列可能的类别名称并放在花括号中:{nominal-name1, nominal-name2, nominal-name3, ...} 。 例如如下的属性声明说明“outlook”属性有三种类别:“sunny”,“ overcast”和“rainy”: @attribute outlook {sunny, overcast, rainy} 如果类别名称带有空格,仍需要将之放入引号中。 (3)字符串属性:字符串属性中可以包含任意的文本。这种类型的属性在文本挖掘中非常有用。 如: @ATTRIBUTE LCC string (4)日期和时间属性:日期和时间属性统一用“date”类型表示,它的格式是 @attribute name date [date-format] date-format是一个字符串,来规定该怎样解析和显示日期或时间的格式,默认的字符串是ISO-8601所给的日期时间组合格式“yyyy-MM-ddTHH:mm:ss”。 数据信息部分表达日期的字符串必须符合声明中规定的格式要求。 3、数据信息:@data “@data”标记独占一行,剩下的是各个实例的数据。 每个实例占一行。实例的各属性值用逗号“,”隔开。如果某个属性的值是缺失值(missing value),用问号“?”表示,且这个问号不能省略。例如: @data sunny,85,85,FALSE,no ?,78,90,?,yes 4、注意: (1)字符串属性和分类属性的值是区分大小写的。若值中含有空格,必须被引号括起来。例如: @relation LCCvsLCSH @attribute LCC string  @attribute LCSH string  @data  AG5, Encyclopedias and dictionaries.;Twentieth century.  AS262, Science -- Soviet Union -- History. (2)日期属性的值必须与属性声明中给定的格式相一致。例如: @RELATION Timestamps  @ATTRIBUTE timestamp DATE yyyy-MM-dd HH:mm:ss  @DATA 2001-04-03 12:12:12   2001-05-03 12:59:55 (3)稀疏数据处理 有的时候数据集中含有大量的0值(比如购物篮分析),这个时候用稀疏格式的数据存贮更加省空间。 稀疏格式只记录非0的值,实例中每一个非0的属性值用index 空格 value表示。index是属性的序号,从0开始计;value是属性值。属性值之间仍用逗号隔开。 看如下的数据: @data   0, X, 0, Y, class A   0, 0, W, 0, class B 用稀疏格式表达的话就是 @data   {1 X, 3 Y, 4 class A}   {2 W, 4 class B} 这里每个实例的数值必须按属性的顺序来写,如 {1 X, 3 Y, 4 class A},不能写成{3 Y, 1 X, 4 class A}。 注意缺失值必须显式的用问号表示出来。 (4)Relational型属性 在WEKA 3.5

文档评论(0)

ipad0d + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档