数据挖掘系列讲座五、描述:特征化与比较摘要.ppt

数据挖掘系列讲座五、描述:特征化与比较摘要.ppt

面向数据库的方法与机器学习的方法的差异 (2) 训练样本集大小上的差异 机器学习训练样本集小,容易找到覆盖所有正样本而不覆盖任何负样本的描述 面向数据库的方法通常面对大量数据,因此概念描述的目标是尽量的涵盖正面数据(概率分布) 所使用的概化方法不同 机器学习方法是逐个元组的进行概化 面向数据库的方法是逐个属性(或维)的进行概化,从而使得数据挖掘的过程能够与面向集合的数据库操作集成 * * * * * 先解释该表中的t-weight和d-weight 解析特征化——示例 (2) 1. 数据收集 目标类:研究生 对比类:本科生 2. 使用保守的阀值Ui和Ti进行AOI 属性删除 name和phone# 属性概化 概化major, birth_place, birth_date 和 gpa 进行累积计数 候选关系:gender, major, birth_country, age_range 和gpa 目标类候选关系:研究生(?=120) 对比类候选关系:本科生 (?=130) (可以在类比较时使用) 解析特征化——示例 (3) 3. 相关性分析 计算给定的样本分类所需要的期望信息 计算每个属性的熵: e.g. major Number of grad students in “Science” Number of undergrad students in “Science”

文档评论(0)

1亿VIP精品文档

相关文档