- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
bigdata数据挖掘培训
分类过程 (2): 在预测中使用模型 分类规则 测试数据 新数据 (Jeff, Professor, 4) Tenured? 分类法准确性: 估计错误概率 划分: 训练与测试 交叉验证 10折交叉验证(10-fold cross validation),将数据集分成十份,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10折交叉验证求均值,例如:10次10折交叉验证,以求更精确一点 交叉验证有时也称为交叉比对 讨论: 经过训练的模式,是否准确率越高越好? Supervised vs. Unsupervised Learning 监督学习(Supervised learning )(分类) 监督: 训练数据的分类标号已知(通过观察、度量等) 根据训练数据集对新数据分类 无监督学习(Unsupervised learning) (聚类) 训练数据的分类标号未知 要学习的类或集合的个数也可能未知 用聚类尝试确定“相似的组群” 什么是预测? 预测和分类的相似点 首先,构建一模型 其次,用模型预测未知值 预测和分类的不同点 分类指预测分类标号 预测模型化连续值函数 线性函数: Y = ? + ? X 多元回归: Y = b0 + b1 X1 + b2 X2. 非线性回归和其他回归模型 预测中的回归分析和线性模型 分类和预测的问题 (1): 数据准备 数据清理 消除、减少噪声,处理缺失值 相关分析 分析强相关的冗余属性和不相关属性,探查对分类无用的属性 数据变换与归约 规范化、概念分层 分类和预测的问题 (2):比较分类方法 分类的准确率 评估分类器的预测准确率 需要用测试数据而不是训练数据来检测,避免过拟合(overfit)。 速度 鲁棒性:能适应噪声和数据缺失 可伸缩性 可解释性 分类与预测不同 (数值)预测没有“类标号” 因为处理的属性值是连续值 构建模型的方法不同 三、数据挖掘技术1 1.基本概念 2.有效的和可伸缩的频繁项集挖掘方法 3.挖掘各种类型的关联规则 4.由关联挖掘到相关分析 5.分类与预测基本概念 6.决策树技术 3.6用决策树归纳分类 决策树 一个类似流程图的树结构 每个内部节点表示在一个属性上的测试 每个分支代表一个测试输出 每个树叶节点代表类或类分布 决策树的产生包含两个方面 树的构造 树的剪枝 决策树的使用: 对未知样本分类 样本的属性值在决策树上测试 训练数据集 输出: 概念 “buys_computer”的决策树 age? overcast student? credit rating? no yes fair excellent =30 40 no no yes yes yes 30..40 决策树归纳算法 基本算法 (贪心算法) 1)如何划分训练集 自顶向下递归的分治法构造决策树 开始,所有的训练样本在根部 属性分类 (假如是连续值, 属性首先离散化) 基于选定的属性递归的形成每个划分 选择属性基于启发式或统计式策略 (比如, 信息增益) 2)如何停止(停止条件) 给定节点的所有样本属于同一类 没有剩余属性可以用来进一步划分样本 –使用majority voting 没有样本剩余 划分方式,离散属性 Size {Small, Medium} {Large} Size Small Medium Large Binary Split Multi-way split 划分方式,连续值属性 需离散化 决策树归纳(创建决策树) 算法基本框架(Hunt算法) 通过将训练集相继划分为较纯的子集,以递归方式创建决策树 设Dt是与结点t相关联的训练集, y={y1,y2,…,yc}是类标号 算法递归定义如下: 决策树归纳(创建决策树) (1)如果Dt中所用元组都属于同一个类yt,则t是叶结点,用yt标记;(递归结束条件) (2)若Dt中包含属于多个类的元组,则根据分裂准则找出最好的分裂属性,将数据划分成较小的子集。为测试条件的每个输出,创建一个子女结点(含相应元组)。 (3)对每个子女结点,递归调用该算法。 Hunt’s Algorithm Don’t Cheat Refund还款 Don’t Cheat Don’t Cheat Yes No Refund Don’t Cheat Yes No Marital Status Don’t Cheat Cheat Single, Divorced Married Taxable Income Don’t Cheat 80K = 80K Refund Don’t Cheat Yes No Marital Status Don’t Cheat Cheat Single, Divorced Marri
文档评论(0)