- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
wek学习笔记
Weka 学习笔记
一、数据格式:
以“%”开始的行是注释。
除去注释后,整个ARFF文件可以分为两个部分。第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。第二部分给出了数据信息(Data information),即数据集中给出的数据。从“@data”标记开始,后面的就是数据信息了。
1、关系声明 :@relation relation-name
在ARFF文件的第一个有效行来定义。
relation-name是一个字符串。如果这个字符串包含空格,它必须加上引号(指英文标点的单引号或双引号)。
2、属性声明 : @attribute attribute-name datatype
声明语句的顺序按照该项属性在数据部分的位置来排。
最后一个声明的属性被称作class属性,在分类或回归任务中,它是默认的目标变量。
attribute-name是必须以字母开头的字符串。和关系名称一样,如果这个字符串包含空格,它必须加上引号。
WEKA支持的datatype有四种,分别是 :numeric数值型、nominal-specification分类型、string字符串型、date [date-format日期型。
(1)数值属性:数值型属性可以是整数或者实数,但WEKA把它们都当作实数看待。
(2)分类属性:分类属性由nominal-specification列出一系列可能的类别名称并放在花括号中:{nominal-name1, nominal-name2, nominal-name3, ...} 。
例如如下的属性声明说明“outlook”属性有三种类别:“sunny”,“ overcast”和“rainy”:
@attribute outlook {sunny, overcast, rainy}
如果类别名称带有空格,仍需要将之放入引号中。
(3)字符串属性:字符串属性中可以包含任意的文本。这种类型的属性在文本挖掘中非常有用。 如:
@ATTRIBUTE LCC string
(4)日期和时间属性:日期和时间属性统一用“date”类型表示,它的格式是
@attribute name date [date-format]
date-format是一个字符串,来规定该怎样解析和显示日期或时间的格式,默认的字符串是ISO-8601所给的日期时间组合格式“yyyy-MM-ddTHH:mm:ss”。
数据信息部分表达日期的字符串必须符合声明中规定的格式要求。
3、数据信息:@data
“@data”标记独占一行,剩下的是各个实例的数据。
每个实例占一行。实例的各属性值用逗号“,”隔开。如果某个属性的值是缺失值(missing value),用问号“?”表示,且这个问号不能省略。例如:
@data
sunny,85,85,FALSE,no
?,78,90,?,yes
4、注意:
(1)字符串属性和分类属性的值是区分大小写的。若值中含有空格,必须被引号括起来。例如:
@relation LCCvsLCSH
@attribute LCC string
@attribute LCSH string
@data
AG5, Encyclopedias and dictionaries.;Twentieth century.
AS262, Science -- Soviet Union -- History.
(2)日期属性的值必须与属性声明中给定的格式相一致。例如:
@RELATION Timestamps
@ATTRIBUTE timestamp DATE yyyy-MM-dd HH:mm:ss
@DATA
2001-04-03 12:12:12
2001-05-03 12:59:55
(3)稀疏数据处理
有的时候数据集中含有大量的0值(比如购物篮分析),这个时候用稀疏格式的数据存贮更加省空间。
稀疏格式只记录非0的值,实例中每一个非0的属性值用index 空格 value表示。index是属性的序号,从0开始计;value是属性值。属性值之间仍用逗号隔开。
看如下的数据:
@data
0, X, 0, Y, class A
0, 0, W, 0, class B
用稀疏格式表达的话就是
@data
{1 X, 3 Y, 4 class A}
{2 W, 4 class B}
这里每个实例的数值必须按属性的顺序来写,如 {1 X, 3 Y, 4 class A},不能写成{3 Y, 1 X, 4 class A}。
注意缺失值必须显式的用问号表示出来。
(4)Relational型属性
在WEKA 3.5
您可能关注的文档
- SS物提升机安装拆卸方案.doc
- subaysurf全攻略.doc
- strts零配置Action路径到Result页面路径自动映射.doc
- STT机附墙顶升施工组织设计方案方案.doc
- SuraceView介绍.doc
- sufr功能说明书.doc
- Surivalofthebiggest互联网巨头间战斗最大者生存.doc
- Surivin基因研究现状.doc
- SU快键大全.doc
- Surac数据库导入流程.doc
- springbooot+vue基于java的房屋维修系统毕业论文.doc
- 中国消防救援学院《单片机系统实验》2023-2024学年第一学期期末试卷.doc
- 2025年溧阳纺织化学品项目申请.pptx
- 景区门票包销合同模板(3篇).docx
- 【股票技术指标学习指南】第七章第三节货币需要量的测算.doc
- 2025春 _ 人教版七年级英语下册【unit4】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit5】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit6】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit7】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit8】看音标写单词.doc
文档评论(0)