连续数据离散化预案.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
连续属性离散化 吴志强 1.连续属性离散化的定义? 2.进行离散化的目的?有什么好处? 3.连续属性离散化方法有哪些? 4.离散化结果的评价 1、定义 连续属性离散化就是采取各种方法将连续的区间划分为小的区间,并将这连续的小区间与离散的值关联起来。 连续属性离散化的问题本质是:决定选择多少个分割点和确定分割点位置。 2、连续属性离散化的目的 在实际数据库中存在较多的连续属性,而现有的很多数据挖掘算法只能处理离散型的属性,因此连续属性离散化是应用这些算法的前提。此外,有效的离散化能够减少算法的时间和空间开销、提高系统对样本的聚类能力、增强系统抗数据噪音的能力以及提高算法的学习精度。 连续属性离散化的好处 减少给定连续特征值的个数 相对连续特征更接近于知识层面的表达 离散化的数据更易于理解,使用和解释 很多不适用于连续型数据的算法得以适用 可以有效地客服数据中隐藏的缺陷,使模型结果更加稳定 离散化处理的一般过程 1、对连续属性值按照某种指定的规则进行排序 2、初步确定连续属性的划分断点 3、按照某种给定的判断标准继续分割断点或合并断点 4、如果第三步得到判定标准的终止条件,则终止整个连续 属性离散化过程,否则继续按第三步执行 分类 属性离散化的方法有很多,基本上可分为三种分类方法: 无监督离散化和有监督离散化。在离散化过程中使用类信息的方法是有监督的,而不使用类信息的方法是无监督的。 全局离散化和局部离散化。全局离散化指使用整个样本空间进行离散化,而局部离散化指在样本空间的一个区域内进行离散化。 动态离散化和静态离散化。动态的离散化方法就是在建立分类模型的同时对连续属性进行离散化,而静态离散化方法就是在进行分类之前完成离散化处理。 3、属性离散化的方法—无监督离散化 等宽分箱法:将数据均匀划分成n等份,每份的间距相等。 等频分箱法:把观察点均匀分为n等份,每份包含的观察点数相同。 自定义法:根据研究目的,业务需求或数据分布情况进行分段。 优点:方法简单,易于操作 缺点:(1)需要人为地规定划分区间的个数。 (2)等宽法对异常点比较敏感,倾向于不均匀地把实例分布到各个箱中。 (3)等频法虽然避免了上述问题,却可能将具有相同类标号的相同特征值分入不同的箱中以满足箱中数据的固定个数的条件。 *异常点敏感问题 离散化前首先设定某个阈值将异常数据移除。 方法1: 设定阈值为90%。将数据从小到大排序,移除全部数据最小的5%和最大的5%数据。 方法2: 设定阈值为90%。将数据从小到大排序,然后对所有数据求和,并计算每个数据占总和的比例,移除最大的占比10%的数据。 聚类分析的方法: 首先是将连续属性的值用聚类算法(如K-means 算法)划分成簇。 然后是将聚类得到的簇进行再处理,可分为自上而下的分裂策略或自下而上的合并策略。 缺点:需要指定簇的个数,从而决定产生的区间数。 无监督离散化现状 现阶段,无监督的方法还比较少,在没有类信息的情况下,要得到好的离散化结果比较困难,并且离散化的结果也比较难衡量。但是实际数据集在多数情况下又是没有类标号的,我们可以考虑先使用聚类算法人为地为数据集添加类标号,然后再用添加了类标号的数据集进行离散化。 属性离散化的方法—有监督离散化 基于熵的离散化方法: 使用类别信息计算和确定分割点,是自顶向下的分裂技术。 步骤1:定义区间的熵; 步骤2:把每个值看成分割点,将数据分成两部分,在多种可能的分法中寻找一种产生最小熵的分法; 步骤3:在分成的两个区间中,找较大熵的区间,继续步骤1; 步骤4:满足用户指定个数时,结束过程。 停止准则: 最小描述长度原则:选择分裂区间,使得理论尺寸与理论期望之和最小化。 共有信息理论:当前分裂不显著时停止分裂。 Example: 数据如下: 信息计算如下: 第一次分裂: → 第一次分裂出现在断点3.5处 重复上述过程,得到最终的分段区间为: [2,3.5), [3.5,16.5), [16.5,19] 卡方分裂算法(自上而下): 把整个属性值区间当作一个离散的属性值,然后对该区间一分为二,即把一个区间分为两个相邻的区间,每个区间对应一个离散的属性值,该划分可以一直进行下去,知道满足某种停止条件,其关键是划分点的选取。 停止准则: 当卡方检验显著(P-值α)时,继续分裂区间; 当卡方检验不显著(P-值=

您可能关注的文档

文档评论(0)

希望之星 + 关注
实名认证
文档贡献者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档