- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * 连续型描述属性的处理方法举例 假设年龄序列为 {32,25,46,56,60,52,42,36,23,51,38,43,41,65} 寻找最佳的分割点 * 数据仓库与数据挖掘 * * 数据仓库与数据挖掘 * 5.3.5 SQL Server 2005中的决策树应用 创建 Analysis Services 项目 创建数据源 创建数据源视图 创建决策树挖掘结构 设置决策树挖掘结构的相关参数 建立决策树挖掘模型 查看挖掘结果 * 数据仓库与数据挖掘 * 5.3.6 决策树剪枝 决策树剪枝过程试图检测和去掉多余的分枝,以提高对未知类标号的数据进行分类时的准确性 先剪枝方法:在生成决策树的过程中对树进行剪枝 后剪枝方法:在生成决策树之后对树进行剪枝 * 数据仓库与数据挖掘 * 5.4 支持向量机 支持向量机的特点 1995年由Vapnik等人提出 对小样本学习有好的泛化能力 最优分类超平面 * 数据仓库与数据挖掘 * 5.4 支持向量机 设线性可分的训练集为 Margin H2 H1 H w * 数据仓库与数据挖掘 * 5.4 支持向量机 线性判别函数 分类超平面 样本要满足 满足 的数据样本离超平面H是最近的 * 数据仓库与数据挖掘 * 5.4 支持向量机 要求分类超平面能将两类数据样本正确地分类,需要满足下面的条件 超平面H1和H2的方程 H1和H2之间的距离,即分类间隔 是分类间隔 * 数据仓库与数据挖掘 * 5.4 支持向量机 两类样本之间的分类间隔(Margin)为 使得分类间隔最大就是最小化 对线性不可分的情况,约束为 最小化 * 数据仓库与数据挖掘 * 5.4 支持向量机 支持向量机使分类间隔最大可以转化为如下的约束优化问题 Max Subject to * 数据仓库与数据挖掘 * 5.4 支持向量机 核函数 * 数据仓库与数据挖掘 * 5.4 支持向量机 多项式核函数 径向基核函数 S型核函数 * 数据仓库与数据挖掘 * 5.5 近邻分类方法 近邻分类方法是基于实例的分类方法 不需要事先进行分类器的设计 直接使用训练集对未知类标号的数据样本进行分类 最近邻分类、k-近邻分类 * 数据仓库与数据挖掘 * 5.5 近邻分类方法 k=1时为最近邻分类 k1时为k近邻分类 应用举例 * 数据仓库与数据挖掘 * 作业 1-7 * 数据仓库与数据挖掘 * * * * * * * * * * * * * * * * * * 数据仓库与数据挖掘 数据仓库与数据挖掘 * 数据仓库与数据挖掘 * 第5章 数据分类 主讲:张莉 Email:zhangliml@suda.edu.cn * 数据仓库与数据挖掘 * 5.1 引例 分类的定义 分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类 * 数据仓库与数据挖掘 * 5.1 引例 Age Salary Class 30 high c1 25 high c2 21 low c2 43 high c1 18 low c2 33 low c1 … … … 描述属性 类别属性 分类问题使用的数据集格式: * 数据仓库与数据挖掘 * 5.1 引例 分类问题使用的数据集格式 描述属性可以是连续型属性,也可以是离散型属性;而类别属性必须是离散型属性。 连续型属性是指在某一个区间或者无穷区间内该属性的取值是连续的 ,例如属性“Age” 离散型属性是指该属性的取值是不连续的 ,例如属性“Salary”和“Class” * 数据仓库与数据挖掘 * 5.1 引例 分类问题使用的数据集格式 分类问题中使用的数据集可以表示为X={(xi,yi)|i=1,2,…,total} xi=(xi1,xi2,…,xid) ,其中xi1,xi2,…,xid分别对应d个描述属性A1,A2,…,Ad的具体取值 yi表示数据样本xi的类标号,假设给定数据集包含m个类别,则yi∈{c1,c2,…,cm},其中c1,c2,…,cm是类别属性C的具体取值 未知类标号的数据样本x用d维特征向量x=(x1,x2,…,xd)来表示 * 数据仓库与数据挖掘 * 5.2 分类问题概述 5.2.1 分类的过程 5.2.2 分类的评价准则 5.2.1 分类的过程 * 数据仓库与数据挖掘 * 获取数据 预处理 分类器设计 分类决策 5.2.1 分类的过程 获取数据 数据的表示 图像—-- 文字、指纹等 波形----- 脑电图、心电图、机械振动波等 物理数据-----既包含数值型数据,
您可能关注的文档
最近下载
- 2025年安徽皖江高速公路有限公司高速公路收费人员招聘笔试模拟试题及答案解析.docx VIP
- 人体结构与功能教案仅供参考.pptx VIP
- 物探报告范例.pdf VIP
- 三级养老护理员国家职业技能培训模块一项目三任务三协助老年人进行口腔吸痰.pptx VIP
- 2025年安徽皖江高速公路有限公司高速公路收费人员招聘考试备考题库及答案解析.docx VIP
- 2025年安徽皖江高速公路有限公司高速公路收费人员招聘笔试备考试题及答案解析.docx VIP
- 完整版2025年开学思政第一课.ppt VIP
- 2025年安徽皖江高速公路有限公司高速公路收费人员招聘考试备考试题及答案解析.docx VIP
- 写作载体与写作受体.ppt VIP
- 电子科技大学博士、硕士学位授权点一览表最终.docx VIP
文档评论(0)