第1讲 数据挖掘概论.ppt

数据挖掘的主要方法 (1) 概念/类描述: 特性化和区分 归纳,总结和对比数据的特性。比如:对每个月来网站购物超过5000元的顾客的描述:40-50岁,有正常职业,信用程度良好。 关联分析 发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出现的条件。 广泛的用于购物篮或事务数据分析。 空间自关联,超市出现在生活区。 数据挖掘的主要方法 (2) 分类和预测 通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。 比如:按气候将国家分类,按汽油消耗定额将汽车分类 导出模型的表示: 判定树、分类规则、神经网络 可以用来预报某些未知的或丢失的数字值 聚类分析 将类似的数据归类到一起,形成一个新的类别进行分析。 最大化类内的相似性和最小化类间的相似性 数据挖掘的主要方法(3) 孤立点分析 孤立点:一些与数据的一般行为或模型不一致的孤立数据 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。 趋势和演变分析 描述行为随时间变化的对象的发展规律或趋势 趋势和偏差: 回归分析 序列模式匹配:周期性分析 基于类似性的分析 其他定向模式或统计分析 所有模式都是有趣的吗? 数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。 模式兴趣度的度量 一个模式是有趣的,如果(1)

文档评论(0)

1亿VIP精品文档

相关文档