面向数据库的方法与机器学习的方法的差异 (2) 训练样本集大小上的差异 机器学习训练样本集小,容易找到覆盖所有正样本而不覆盖任何负样本的描述 面向数据库的方法通常面对大量数据,因此概念描述的目标是尽量的涵盖正面数据(概率分布) 所使用的概化方法不同 机器学习方法是逐个元组的进行概化 面向数据库的方法是逐个属性(或维)的进行概化,从而使得数据挖掘的过程能够与面向集合的数据库操作集成 * * * * * 先解释该表中的t-weight和d-weight 解析特征化——示例 (2) 1. 数据收集 目标类:研究生 对比类:本科生 2. 使用保守的阀值Ui和Ti进行AOI 属性删除 name和phone# 属性概化 概化major, birth_place, birth_date 和 gpa 进行累积计数 候选关系:gender, major, birth_country, age_range 和gpa 目标类候选关系:研究生(?=120) 对比类候选关系:本科生 (?=130) (可以在类比较时使用) 解析特征化——示例 (3) 3. 相关性分析 计算给定的样本分类所需要的期望信息 计算每个属性的熵: e.g. major Number of grad students in “Science” Number of undergrad students in “Science”
您可能关注的文档
最近下载
- 商业交房标准.pdf VIP
- 幼儿小班教学节气课件.ppt VIP
- 维保工程施工方案(3篇).docx VIP
- 2021-2022学年福州市连江县八年级上学期期中数学试卷(B卷)(含答案解析).docx VIP
- 《植物激素》(教案)-中职农林牧渔大类《植物生长和环境》同步教学(高教版)(第四版)(全一册).docx VIP
- 诊断学学习资料:西医诊断学总结.pdf VIP
- 幼儿小班教学节气.pptx VIP
- 《光合作用与呼吸作用的关系》(教案)-中职农林牧渔大类《植物生长和环境》同步教学(高教版)(第四版)(全一册).docx VIP
- 小学生入学行为规范课件.pptx VIP
- 马铃薯组培技术全流程.pdf VIP
原创力文档

文档评论(0)