数据挖掘系列讲座五、描述：特征化与比较摘要.ppt

下载文档 降价啦

2
0
约9.89千字
约 63页
2016-10-01 发布于湖北
举报
保障服务

数据挖掘系列讲座五、描述：特征化与比较摘要.ppt

面向数据库的方法与机器学习的方法的差异 (2) 训练样本集大小上的差异机器学习训练样本集小，容易找到覆盖所有正样本而不覆盖任何负样本的描述面向数据库的方法通常面对大量数据，因此概念描述的目标是尽量的涵盖正面数据（概率分布）所使用的概化方法不同机器学习方法是逐个元组的进行概化面向数据库的方法是逐个属性（或维）的进行概化，从而使得数据挖掘的过程能够与面向集合的数据库操作集成 * * * * * 先解释该表中的t-weight和d-weight 解析特征化——示例 (2) 1. 数据收集目标类：研究生对比类：本科生 2. 使用保守的阀值Ui和Ti进行AOI 属性删除 name和phone# 属性概化概化major, birth_place, birth_date 和 gpa 进行累积计数候选关系：gender, major, birth_country, age_range 和gpa 目标类候选关系：研究生(?=120) 对比类候选关系：本科生 (?=130) (可以在类比较时使用）解析特征化——示例 (3) 3. 相关性分析计算给定的样本分类所需要的期望信息计算每个属性的熵: e.g. major Number of grad students in “Science” Number of undergrad students in “Science”

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘系列讲座五、描述：特征化与比较摘要.ppt