- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Lecture 9_kNN, Combining Classifiers and Evaluation 机器学习概论 教学课件
预备知识 目标 对给定新样本x,预测y 目标函数空间 损失函数 AdaBoost 思想 简单分类决策函数不够好 决策函数组合?增加精确度 问题 如何产生多个不同的决策函数 如何组合决策函数 方法 计算样本分布d1, d2, …, dN 利用带权训练样本生成决策函数(x1 y1, d1), (x2 y2, d2), …, (xN yN, dN) 线性组合决策函数 基本思想 Step1: 原始训练集输入,带有原始分布 Step2: 给出训练集中各样本的权重 Step3: 将改变分布后的训练集输入已知的弱学习机,弱学习机对每个样本给出假设 Step4: 对此次的弱学习机给出权重 Step5: 转到Step2, 直到循环到达一定次数或者某度量标准符合要求 Step6: 将弱学习机按其相应的权重加权组合形成强学习机 核心问题 样本的权重 在没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有N个样本,每个样本的分布概率为1/N 每次循环一次后提高错误样本的分布概率,错分样本在训练集中所占权重增大, 使得下一次循环的弱学习机能够集中力量对这些错误样本进行有效判断。 弱学习机的权重 准确率越高的弱学习机权重越高 循环控制:损失函数达到最小 在学习机的组合中增加一个加权的弱学习机,使准确率提高,损失函数值减小。 思想 提高错分样本的权重 分类正确与否 采用函数形式 样本权重 思想 错误率越低,该学习机的权重应该越大 错误率 ht的权值 分类器权重 算法描述 带权样本的采样问题 方法1 还有其它方法吗? 0.2 0.8 有放回取样(2次) 原始训练集 Example Example ROUND 1 Example ROUND 2 Example ROUND 3 Example 性能展示 分析 对两分类问题,训练误差满足 泛化误差 实验表明,即便叠代上千次,也不存在“过学习”(overfitting)问题 Project 1-垃圾邮件分类 设计并实现一个分类器 数据 电子邮件-用58维向量表示 训练数据集合 用于学习分类器 在本次课程之后将放在课程网站上 文件名:训练集.data 测试数据集合 用于评估分类器的性能 11月10日将放在课程网站上 文件名:测试集.data 训练数据集合 格式 共58个属性,每个属性均为数值型。 前57个属性为事实属性 最后一个属性为分类属性。取值范围为{0, 1}。 数据 共3601条记录,每条记录对应一个电子邮件,记录的最后一个属性值指示该记录对应的电子邮件是否是垃圾邮件。 0:表示对应的电子邮件是正常邮件 1:表示对应的电子邮件是垃圾邮件 0,1.47,0,0, …, 0,2.333,12,21,1 1.6,0,0,1.3, …, 3.333,13,0,17,0 垃圾邮件 正常邮件 测试数据集合 格式 共57个属性,没给出分类属性 共1000条记录 1, 0,0, 1.37, …, 0,2.5,0,13 任务 源代码 报告(PPT) 讲述你是如何设计分类器以及个人的心得等 对测试集的分类结果 按测试数据在测试集中的顺序,给出预测结果(0或1),每个结果占一行。所有预测结果放在一个文件中。 0,1.47,0,0, …, 0,2.333,12,21 1.6,0,0,1.3, …, 3.333,13,0,17 … 1, 0,0, 1.37, …, 0,2.5,0,13 测试集 预测结果 0 1 … 1 DeadLine 2008年11月22日之前(含22日)提交 源代码 报告(PPT) PPT中注明姓名和学号 每个同学都有可能要在课堂上作报告 对测试集的分类结果 11月24日将在课堂上隆重发布各位实现的分类器的性能。同时,同学需要在本次课上做报告。 通过email,将上述材料打包发送到 pkucthh@ 于航(电话地址:理科2号楼2320) 注意:每个文件以学号和姓名为文件名 下一讲 SVM See you next time ? * nin:网络输入单元数目 nout :网络输出单元数目 nhidden :网络隐藏单元数目 ? :是学习率 样本用向量表示 xji表示单元i到单元j的输出 wji表示单元i到单元j的权重 downstream(h):直接输入包括单元h输出的单元集合。即由h直接输出的下一个单元的集合。 * PB是最优贝叶斯误差(optimal Bayesian error) * * Ht为到第t次产生的强分类器。 * 文档集为Reuter 21450 类中文档最大的前k个类作为评估文档集。 整体上与KNN相同 * m是样本数 T是叠代次数 d是弱分类算法的VC维 Lecture 9:- kNN, Combinin
您可能关注的文档
- Franklin 新 高等教育出版社 美国文学选读课件.ppt
- Fundamentals of Electrochemistry 应用电化学 教学课件.ppt
- future continous and future perfect 英语教学相关.ppt
- Fuzzy Controller of a Small Wind-Fuel Cell Hybrid Energy System 智能控制基础课件.ppt
- f《现代物流管理》第五章 装卸搬运.ppt
- gambit中的default参数.doc
- Future_10讲课记录 WebGIS课件.pdf
- GCT讲座4 第七章 综合推理.ppt
- GCT语文讲义 18 语文知识绪论.ppt
- GCT《逻辑推理》辅导(全套).doc
- 2024年山西省临汾市企业人力资源管理师之一级人力资源管理师考试真题题库附答案【基础题】.docx
- 2024年山东省泰安市企业人力资源管理师之四级人力资源管理师考试完整题库加答案.docx
- 2024年山东省济宁市企业人力资源管理师之四级人力资源管理师考试A4版可打印.docx
- 2024年山西省长治市企业人力资源管理师之一级人力资源管理师考试优选题库含答案(实用).docx
- 2024年山东省莱芜市企业人力资源管理师之一级人力资源管理师考试题库附答案【基础题】.docx
- 2024年广东省云浮市企业人力资源管理师之一级人力资源管理师考试完整题库【能力提升】.docx
- 2024年山东省菏泽地区企业人力资源管理师之一级人力资源管理师考试题库带答案(最新).docx
- 2024年山西省太原市企业人力资源管理师之一级人力资源管理师考试优选题库(名校卷).docx
- 2024年山东省聊城市企业人力资源管理师之一级人力资源管理师考试【基础题】.docx
- 2024年山东省淄博市企业人力资源管理师之四级人力资源管理师考试通关秘籍题库带答案(模拟题).docx
文档评论(0)