连续离散化方法.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
连续离散化方法

连续特征离散化方法综述 汪庆,张巍,刘鹏 上海财经大学信息管理与工程学院,上海,200439 wq_811@ 摘要:离散特征在数据挖掘的过程中具有重要 间的实际需求。(2)离散特征相对于连续特征 的作用,如何将实际数据集中的连续特征最好 来说更接近于知识层面的表示。(3)通过离散 地离散化是一个 NP-hard 问题。本文介绍了离 化,数据被规约和简化,对于使用者和专家来 散化方法的不同角度的分类、离散化过程中用 说,离散化的数据都更易于理解,使用和解释。 到的术语及一般离散化的过程。同时,还按照 (4)离散化处理使得算法的学习更为准确和迅 离散化方法有监督和无监督的分类方法体系, 速[5]。(5)一系列算法只能应用于离散型数据, 介绍了几种有代表性的离散化方法。提出需根 使得离散化处理成为必要,而离散化又使很多 据学习环境选择合适的离散化方法,将关联分 算法的应用范围扩展了[4,6,7]。但最优离散化 析中连续特征离散化作为以后的研究方向。 问题已经被证明是一个NP-hard问题。 关键词:连续特征,离散特征,离散化 离散化的方法有很多,本文接下来第 2 节 介绍了离散化方法的分类体系、术语及离散化 1 引言 过程,第 3 节选取了目前比较有代表性的几种 离散化方法进行了详细介绍以及一些改进的离 数据集的特征按照其取值可以分为连续特 散化方法,第 4 节提出了要根据学习环境和用 征和离散特征。连续特征也称为定量特征,通 户需要选择合适的离散化方法,并以关联分析 常用间隔尺度和比例尺度来衡量,有较多甚至 中的离散化为例,指出在关联分析中离散化方 无穷的数值表达, 其值取自某个连续的区间, 法选择需要注意的问题,最后是全文的结束语, 表示了对象的某种可测性质,例如人的身高、年 并将关联分析中的连续特征离散化作为以后的 龄, 商品的价格、空气温度、物体长度等等。 研究方向。 离散特征也称定性特征,一般以名义尺度或有 序尺度定义,是指以文本型数据表达的对象特 2 现状及离散化过程 征, 如人的性别、学历特征, 商品的用途( 食 品、服装) 等, 此类特征的值域只限定于较少的 2.1 分类 [1-2] 取值 。连续特征的取值允许被排序,可进行 离散化方法依据不同的需求沿着不同的主 算术运算;离散特征的取值有时允许被排序, 线发展至今,目前已存在很多不同离散化方法 但是其不能进行算术运算[3]。

文档评论(0)

ranfand + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档