数据挖掘与机器学习(非参数统计)讲述.ppt

数据挖掘与机器学习(非参数统计)讲述.ppt

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 用决策树归纳分类 决策树 一个类似于流程图的数结构 内部节点表示一个属性上的测试 每个分支代表一个测试的输出 叶结点代表类或类分布 决策树的生成包括两个过程 树的建构 首先所有的训练样本都在根结点 基于所选的属性循环的划分样本 树剪枝 识别和删除哪些反应映噪声或孤立点的分支 决策树的使用:为一个未知的样本分类 在决策树上测试样本的属性值 * Data Mining: Concepts and Techniques * * Data Mining: Concepts and Techniques * 决策树归纳的算法 基本算法 以自顶向下递归的各个击破方式构造决策树 首先,所有的训练样本都在根结点 所有属性都是分类的(如果值是连续的,它们应预先被离散化) 基于所选属性递归的划分样本 在启发式或统计度量的基础上选择测试属性(例如,信息增益) 停止划分的条件 给定节点的所有样本属于同一个类 没有剩余属性可以用来进一步划分样本-使用多数表决来分类叶节点 没有剩余的样本 * 先用决策树,后用神经网络 训练过渡。。。。。解决(项目作业题) * 其每个步骤相关的工作如下表: 业务目标确定 l???????? 对于所有的数据挖掘项目,这并不是自动获得的。许多数据挖掘项目的目标通常是模糊和不清晰的。对于分析人员和决策制定者来说,在任何数据挖掘项目的开始阶段,对业务问题、业务目标以及数据挖掘目的有一个清晰而描述是至关重要的。 l???????? 涉及人员:高级管理人员,业务分析员和项目经理 l??????? 活动:与业务用户的会议和访谈 数据源的识别 l???????? 给定一个业务目标,下一步就是找到可以回答和解决这一业务问题的数据。所需要的数据可以来自操作型数据或者是公司内的数据库/数据仓库。 l???????? 涉及人员:业务分析员,数据挖掘分析员和IT人员 l??????? 活动:与IT部门的会议和访谈 数据收集 l???????? 收集需要的数据有几种方式,这取决于数据需求和经济因素的综合考量。 l???????? 途径:在公司内部数据中提取、向数据公司购买、进行市场调研、从公告或媒体中获取; l???????? 涉及人员:数据挖掘分析员和IT人员 l???????? 活动:确定及收集可能用于挖掘的数据 数据选择 l?? 从数据源选择将使用的数据类型 l?? 数据量大,采集时间长 = 数据抽样技术 1.??????? 平衡减少数据量和采样必须具有较全面的代表性 2.??????? 根据统计方法来计算样本的大小 l?? 了解数据的定义 l?? 数据的质量:准确性、一致性、完整性、有效性、代表性、非冗余性; l?? 涉及人员:数据挖掘分析员、IT人员,有时还有业务分析员 l?? 活动:确定及选择可能用于挖掘的数据 数据质量审核 n???????? 对选择的数据进行审核 n???????? 审核方法 1.??????? 离散数据频率分析 2.??????? 定量数据的分位数分析 3.??????? 图形分析(包括柱状图、饼图、散点图, boxplots, 和时间曲线) n???????? 涉及人员:数据挖掘分析员、IT人员,有时还有业务分析员 n???????? 活动:检测抽取数据的质量 数据转换 n???????? 在选择并检验了需要的数据(表、变量)之后,多数情况下需要进行数据转换。特定的转换取决于数据挖掘类型和数据挖掘工具,比如计算机软件和数据挖掘所使用的技术。 n???????? 典型的转换 n???????? 转换类别变量成数字变量 n???????? 数学转换,如对数转换、次方转换 n???????? 数字定义新变量 n???????? 涉及人员:数据挖掘分析员 n???????? 活动:抽取信息的转换 数据挖掘 n???????? 数据挖掘项目的核心部分 n???????? 尝试多种不同的数据挖掘技术以发现最优 n???????? 数据挖掘方法 n???????? 预测模型:分类、值预估 n???????? 分割 n???????? 链接分析 n???????? 时间序列预测 n???????? 涉及人员:数据挖掘分析员 n???????? 活动:挖掘数据 结果解释 l???????? Analysis of Results:-Select-Train-Test-Analyze--Answer l???????? Definitions n???????? Interestingness:Valid、Novel、Potentially useful、Ultimately understandable n???????? A pattern is knowledge if it satisfies the

文档评论(0)

ss55863378 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档