bigdata数据挖掘培训.pptVIP

下载本文档

41
0
约1.27万字
约 103页
2018-06-30 发布于四川
举报
版权申诉

bigdata数据挖掘培训.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

bigdata数据挖掘培训

分类过程 (2): 在预测中使用模型分类规则测试数据新数据 (Jeff, Professor, 4) Tenured? 分类法准确性: 估计错误概率划分: 训练与测试交叉验证 10折交叉验证(10-fold cross validation)，将数据集分成十份，轮流将其中9份做训练1份做测试，10次的结果的均值作为对算法精度的估计，一般还需要进行多次10折交叉验证求均值，例如：10次10折交叉验证，以求更精确一点交叉验证有时也称为交叉比对讨论：经过训练的模式，是否准确率越高越好？ Supervised vs. Unsupervised Learning 监督学习（Supervised learning ）(分类) 监督: 训练数据的分类标号已知(通过观察、度量等) 根据训练数据集对新数据分类无监督学习（Unsupervised learning） (聚类) 训练数据的分类标号未知要学习的类或集合的个数也可能未知用聚类尝试确定“相似的组群” 什么是预测? 预测和分类的相似点首先，构建一模型其次，用模型预测未知值预测和分类的不同点分类指预测分类标号预测模型化连续值函数线性函数: Y = ? + ? X 多元回归: Y = b0 + b1 X1 + b2 X2. 非线性回归和其他回归模型预测中的回归分析和线性模型分类和预测的问题 (1): 数据准备数据清理消除、减少噪声，处理缺失值相关分析分析强相关的冗余属性和不相关属性，探查对分类无用的属性数据变换与归约规范化、概念分层分类和预测的问题 (2):比较分类方法分类的准确率评估分类器的预测准确率需要用测试数据而不是训练数据来检测，避免过拟合（overfit）。速度鲁棒性：能适应噪声和数据缺失可伸缩性可解释性分类与预测不同（数值）预测没有“类标号” 因为处理的属性值是连续值构建模型的方法不同三、数据挖掘技术1 1.基本概念 2.有效的和可伸缩的频繁项集挖掘方法 3.挖掘各种类型的关联规则 4.由关联挖掘到相关分析 5.分类与预测基本概念 6.决策树技术 3.6用决策树归纳分类决策树一个类似流程图的树结构每个内部节点表示在一个属性上的测试每个分支代表一个测试输出每个树叶节点代表类或类分布决策树的产生包含两个方面树的构造树的剪枝决策树的使用: 对未知样本分类样本的属性值在决策树上测试训练数据集输出: 概念 “buys_computer”的决策树 age? overcast student? credit rating? no yes fair excellent =30 40 no no yes yes yes 30..40 决策树归纳算法基本算法 (贪心算法) 1）如何划分训练集自顶向下递归的分治法构造决策树开始，所有的训练样本在根部属性分类 (假如是连续值, 属性首先离散化) 基于选定的属性递归的形成每个划分选择属性基于启发式或统计式策略 (比如, 信息增益) 2）如何停止（停止条件）给定节点的所有样本属于同一类没有剩余属性可以用来进一步划分样本 –使用majority voting 没有样本剩余划分方式，离散属性 Size {Small, Medium} {Large} Size Small Medium Large Binary Split Multi-way split 划分方式，连续值属性需离散化决策树归纳（创建决策树）算法基本框架（Hunt算法）通过将训练集相继划分为较纯的子集，以递归方式创建决策树设Dt是与结点t相关联的训练集， y={y1,y2,…,yc}是类标号算法递归定义如下：决策树归纳（创建决策树）（1）如果Dt中所用元组都属于同一个类yt，则t是叶结点，用yt标记；（递归结束条件）（2）若Dt中包含属于多个类的元组，则根据分裂准则找出最好的分裂属性，将数据划分成较小的子集。为测试条件的每个输出，创建一个子女结点（含相应元组）。（3）对每个子女结点，递归调用该算法。 Hunt’s Algorithm Don’t Cheat Refund还款 Don’t Cheat Don’t Cheat Yes No Refund Don’t Cheat Yes No Marital Status Don’t Cheat Cheat Single, Divorced Married Taxable Income Don’t Cheat 80K = 80K Refund Don’t Cheat Yes No Marital Status Don’t Cheat Cheat Single, Divorced Marri