数据挖掘的概念与技术
* * 没有高质量的数据,就没有高质量的挖掘结果 * 四分位数给出数据分布的中心、离散和形状的某种指示 * * 数据挖掘的实践中,使用离散化进行数据规约主要是适用于以下三类属性值…,连续值(比如实数),如果不使用离散化进行表示,其个数将是无穷无尽的。 怎么离散化?…基于判定树的分类挖掘的大部分时间花在数据的分类和比较上(比如一个判定条件为:400?,0-1000的整数将在比较1000次后得出结果,但是如果先将这1000个值划分为10个区间:0-100,100-200…900-1000,则只要比较10次就可以得出结果) * 现在来看看离散化的定义以及一种我们在前面已经提到过的离散化技术——概念分层… 概念分层后,数据的细节丢失了,但是概化后的数据更有意义,更容易解释,而且所需的存储空间更少。有效的减少I/O支出 * 人工进行概念分层是一项乏味耗时的工作。实际数据挖掘操作中,我们发现很多分层蕴涵在数据库的模式中,因而可以自动的产生概念分层。或者可以对数据的统计分析动态的加以提炼,产生概念分层。 数值属性的概念分层可以根据数值分布分析自动的构造,我们主要考察5中方法: 分箱、递归的:比如将10,000个值,每个箱子中放10个,则可以将其规约为1000个值;如果要求将这10,000个值规约为10个概念,则只要将上述分箱方法递归的使用3次就可以了。 * 这个示例的图比较小,不知大家是否能
您可能关注的文档
最近下载
- AP 统计模拟题.pdf VIP
- TZJSAE-电动汽车分布式驱动控制通用技术规范.pdf VIP
- 2023年武汉市江夏国有资产经营管理集团有限公司人员招聘考试参考题库及答案解析.docx VIP
- 环境温湿度及大气压力测试仪不确定度分析报告.pdf VIP
- (2025版)结直肠癌肠造口患者全程营养管理专家共识课件.pptx VIP
- 2024年济南高一下期中物理试卷.pdf VIP
- TYNBX 23-2020柠檬及其制品中柠檬苦素和诺米林的测定高效液相色谱法.docx VIP
- 最优化理论课件.pptx VIP
- 一种卧式脱水机.pdf VIP
- “文明的产生与早期发展”教学设计及反思【论文】.pdf VIP
原创力文档

文档评论(0)