数据挖掘原理、算法与应用教学课件ppt作者梁亚声第8章电子教案课件.pptVIP

下载本文档

41
0
约1万字
约 42页
2017-03-09 发布于广东
举报
版权申诉

数据挖掘原理、算法与应用教学课件ppt作者梁亚声第8章电子教案课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘原理、算法与应用教学课件ppt作者梁亚声第8章电子教案课件.ppt

8.4.3 模型比较 8.4 验证在比较不同数据挖掘算法和模型性能时，通常可以采用以T检验、成对T检验为代表的一些常用统计方法。 T检验包括下面5个步骤：建立虚无假设H0：μ1=μ2，即先假定两个算法的性能指标平均值之间没有显著差异；计算统计量T值，评断两组样本平均数之间的差异程度；根据自由度df=n1+n2-2，查T值表，找出规定的T理论值并进行比较; 比较计算得到的t值和理论T值，推断发生的概率; 根据是以上分析，结合具体情况，作出算法或模型比较的结论。 8.4.3 模型比较 8.4 验证统计量T值的计算公式为： T值与差异显著性关系表为： 8.4.3 模型比较 8.4 验证成对T检验假设两个模型在n个不同数据集上进行验证，在每个数据集Di（1≤i≤n）上的准确度分别为xi1和xi2，即构成一对数据。假设di表示成对数据之差，即di= xi1-xi2（1≤i≤n），则成对T检验中的t统计量和自由度计算如下： 8.5 性能提升数据挖掘算法和模型的性能评估中，算法和模型的效率和准确率是重点。云计算和多分类器集成分别是提升数据挖掘算法和模型效率和准确率的常用有效方法。云计算系统采用分布式存储和处理策略。将云计算与现有数据挖掘算法研究和应用结合，已经成为多个行业共识。多分类器集成学习则有助于克服单个分类器的性能缺陷，提升整体的识别准确率。 8.5 性能提升为了解决海量数据的高性能计算的问题，国内外学者相继提出了基于集群、基于网格、基于Agent等各种分布式数据挖掘平台，以提高数据挖掘系统的处理能力。然而，这些分布式数据挖掘平台均有自身难以解决的问题。云计算（Cloud Computing），作为一种新的分布式处理平台，采用大规模并行计算，可以更好地解决海量数据挖掘的效率问题。云计算的独特之处就是把普通的服务器或者个人计算机连接起来以获得超级计算机（也称为高性能和高可用性计算机）的功能，但是具有更低的成本。 8.5.1 效率提升 8.5 性能提升云计算环境下的数据挖掘并行化主要有OpenMP（Open Multi-Processing）、MPI（Message Passing Interface）和MapReduce等三种比较常见的解决方法： 8.5.1 效率提升 8.5 性能提升 OpenMP OpenMP是一种基于共享内存的多线程并行化方式。OpenMP中的运行实例通过共享内存进行通信，而每个实例相当于一个线程，因此OpenMP大多数时候是运行在单机上的。 MPI MPI是一个计算机直接进行进程交互的消息传递接口规范，其本质是通过计算机之间的消息传递来同步并行计算中各个部分的状态，由开发者控制信息传递的时间和方式。 MapReduce MapReduce模型将程序运行划分为Map和Reduce两个步骤，其中Map过程是一个读取、处理原始数据的过程，然后发送到Reduce过程，由Reduce过程进行第二次的整理和处理。 8.5.1 效率提升 8.5 性能提升多分类器集成学习思路分类器构建的最终目标是获得尽可能高的识别性能。提升分类器识别性能的传统做法为：对目标问题分别采用不同的分类方法处理，然后选择一个最好的分类器作为最终的解决方案。然而，一些研究人员在实践中发现上述传统做法有问题，因为对于某个分类器错分的样本，其他分类器则有可能得到正确的分类结果，不同分类器之间具有的信息互补性有助于提高识别性能。 8.5.2 准确率提升 8.5 性能提升多分类器集成学习思路在学习阶段，先由原始训练集产生s个训练子集，每一个训练子集Ti（i=1, 2, …, s）产生对应的基分类器hi。在实际应用阶段，基分类器以某种方式结合在一起组成h*=F(h1, h2, …, hs)。测试样本x由集成后的学习系统h*进行识别。 8.5.2 准确率提升 8.5 性能提升多分类器集成学习方法装袋装袋（bagging）又称自助聚集（bootstrap aggregation），是一种根据均匀概率分布从数据集中重复抽样（有放回的）的技术。 8.5.2 准确率提升 8.5 性能提升多分类器集成学习方法提升提升（boosting）是一个迭代的过程，用来自适应地改变训练样本的分布，使得基分类器聚焦在那些很难分的样本上。不像装袋，提升给每一个训练样本赋一个权值，而且可以在每一轮提升过程结束时自动地调整权值。 8.5.2 准确率提升 8.5 性能提升多分类器集成学习方法随机森林集成分类器中的每个分类器都是一棵决策树，因此分类器的集合就是一个“森林”。个体决策树在每个结点使用随机