- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
专题7知识管理与技术创新 1091
连续特征离散化方法综述
汪庆,张巍,刘鹏
上海财经大学信息管理与工程学院,上海200439
wq__811@yahoo.com.crl
摘要:离散特征在数据挖掘的过程中具有重要的作用,如何将实际数据集中的连续特征最好地离散化是一个NP—hard
问题。本文介绍了离散化方法的不同角度的分类、离散化过程中用到的术语及一般离散化的过程。同时,还按照离散化方法
有监督和无监督的分类方法体系,介绍了几种有代表性的离散化方法。提出需根据学习环境选择合适的离散化方法,将关联
分析中连续特征离散化作为以后的研究方向。
关键词:连续特征;离散特征;离散化
围扩展了[4][6][7|。但最优离散化问题已经被证明是一
1 引 言
个NP-hard问题。
数据集的特征按照其取值可以分为连续特征和离 离散化的方法有很多,本文接下来第2节介绍了
散特征。连续特征也称为定量特征,通常用间隔尺度 离散化方法的分类体系、术语及离散化过程,第3节选
和比例尺度来衡量,有较多甚至无穷的数值表达,其 取了目前比较有代表性的几种离散化方法进行了详细
值取自某个连续的区间,表示了对象的某种可测性 介绍以及一些改进的离散化方法,第4节提出了要根
质,例如人的身高、年龄,商品的价格、空气温度、物体 据学习环境和用户需要选择合适的离散化方法,并以
长度等等。离散特征也称定性特征,一般以名义尺度 关联分析中的离散化为例,指出在关联分析中离散化
或有序尺度定义,是指以文本型数据表达的对象特征, 方法选择需要注意的问题,最后是全文的结束语,并将
如人的性别、学历特征,商品的用途(食品、服装)等, 关联分析中的连续特征离散化作为以后的研究方向。
此类特征的值域只限定于较少的取值[1][2。。连续特征
2现状及离散化过程
的取值允许被排序,可进行算术运算;离散特征的取值
有时允许被排序,但是其不能进行算术运算[33。 2.1分类
在机器学习和数据挖掘中,已经发展了处理离放 离散化方法依据不同的需求沿着不同的主线发展
型数据的很多算法,如决策树、关联规则及基于粗糙集 至今,目前已存在很多不同离散化方法的分类体系。
理论的许多方法,而这些算法对于连续型数据却不适 不同的分类体系强调离散化方法问的区别的不同方
用;而有些算法即使能处理连续型数据,挖掘和学习也 面[3]。主要的分类体系有有监督的和尤监督的、动态
没有处理离散型数据有用和有效。但是在实际数据库 的和静态的、全局的和局部的、分裂式的(从上至下)和
中,往往不只存在着离散型数据,也存在着大量连续型 合并式的(从下至上)、单变量的和多变量的以及直接
数据。这样就有必要将连续特征离散化,使得特征可 的和增量式的。
以适用于各种算法。特征的离散化处理就是把连续特 根据离散化方法是否使用数据集的类信息,离散
征转化为离散特征,它足数据预处理的一个重要过程, 化方法可以分为有监督的和无监督的。有监督的离散
直接关系到挖掘和学习的效果口][4f。 化方法使用类信息,而无监督的离散化方法不使用类
将连续特征离散化,再将离散化的结果应用于算 信息。有监督的离散化方法又分为建立在错误率基础
法有很多好处。(1)离散化结果将会减少给定连续特 上的、建立在熵值基础上的和建立在统计信息基础上
征值的个数,减小系统对存储空间的实际需求。(2)离 的[3][5]【8=]。早期的等宽、等频的离散化方法是
文档评论(0)