- 13
- 0
- 约9.89千字
- 约 63页
- 2016-11-18 发布于湖北
- 举报
面向数据库的方法与机器学习的方法的差异 (2) 训练样本集大小上的差异 机器学习训练样本集小,容易找到覆盖所有正样本而不覆盖任何负样本的描述 面向数据库的方法通常面对大量数据,因此概念描述的目标是尽量的涵盖正面数据(概率分布) 所使用的概化方法不同 机器学习方法是逐个元组的进行概化 面向数据库的方法是逐个属性(或维)的进行概化,从而使得数据挖掘的过程能够与面向集合的数据库操作集成 * * * * * 先解释该表中的t-weight和d-weight 解析特征化——示例 (2) 1. 数据收集 目标类:研究生 对比类:本科生 2. 使用保守的阀值Ui和Ti进行AOI 属性删除 name和phone# 属性概化 概化major, birth_place, birth_date 和 gpa 进行累积计数 候选关系:gender, major, birth_country, age_range 和gpa 目标类候选关系:研究生(?=120) 对比类候选关系:本科生 (?=130) (可以在类比较时使用) 解析特征化——示例 (3) 3. 相关性分析 计算给定的样本分类所需要的期望信息 计算每个属性的熵: e.g. major Number of grad students in “Science” Number of undergrad students in “Science”
您可能关注的文档
- 蔬菜的平衡施肥技术.ppt
- 蔬菜员工如何技能考核.ppt
- 四下3.记金华的双龙洞.ppt
- 暑假讲义之Word办公篇.ppt
- 四下大自然的声音.ppt
- 暑假英语小学生竞赛.ppt
- 四下语文教材分析3、4单元朱春梅1.pptx
- 四章人力资本1.ppt
- 四种ziyou的解释.doc
- 四种典型全控型器件比较.doc
- 2026年中国三相电能计量箱市场调查研究报告.docx
- 2026年中国八位半数字万用表市场调查研究报告.docx
- 2026年及未来5年干装垂直玻璃幕墙项目市场数据调查、监测研究报告.docx
- 2026年中国发醇罐市场调查研究报告.docx
- 2026年及未来5年干法短切原丝项目市场数据调查、监测研究报告.docx
- 2026年中国普通型台式血压计市场调查研究报告.docx
- 2026年及未来5年无线报警定位系统项目市场数据调查、监测研究报告.docx
- 2026年及未来5年移动斗式提升机项目市场数据调查、监测研究报告.docx
- 2026年中国茉莉香精市场调查研究报告.docx
- 2026年中国平面刨市场调查研究报告.docx
最近下载
- 国际私法国际民事诉讼.ppt VIP
- 自工程完结活动实施计划.xls VIP
- 《1.电力系统基础知识.》.ppt VIP
- (王瑞元版本)运动生理学--课件-3-第三章-血液.pptx VIP
- F701B.D仪表说明书2013-04-01.pdf VIP
- 第五章-国际民事诉讼与国际商事仲裁.ppt VIP
- 2024年教师资格考试高中学科知识与教学能力美术自测试卷与参考答案.docx VIP
- 第四单元+第1课美丽校园课件+2025-2026学年人教版初中美术八年级下册.pptx VIP
- 第二单元第3课第1课时《木刻乾坤》 课件 人美版八年级下.ppt
- 《想和你谈恋爱》异性交往主题班会课件.pptx VIP
原创力文档

文档评论(0)