《数据挖掘》读书报告讲解.docVIP

下载本文档

26
0
约 7页
2016-05-01 发布于湖北
举报
版权申诉

《数据挖掘》读书报告讲解.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《数据挖掘导论》读书报告随着网络信息时代的到来数据收集和数据存储技术也在飞速发展使得各组织机构可以积累海量数据然而Chernoff脸等技术。最后介绍了OLAP和多维数据分析。OLAP是一种新近开发的包含一系列考察多维数组数据的技术，它的分析功能集中在从多维数组中创建汇总表的各种方法。在用多维数组表示数据的过程中我们需要注意两点维的识别和分析所关注的属性的识别…then…”规则来对记录进行分类的技术，相对其他分类技术而言，它和最近邻分类器是最简单的。分类规则的质量可以用覆盖率和准确率来度量。基于规则的分类器是根据测试记录所触发的规则来对记录进行分类的，书中以动物分类为例，做了详细的介绍。基于最近邻的分类器是一类基于实例的学习，它使用具体的训练实例进行预测，是一种消极学习方法，它不需要建立模型。贝叶斯分类方法是一种对属性集和类变量的概率关系建模的方法。文中详细介绍了贝叶斯分类器的两种实现：朴素贝叶斯和贝叶斯信念网络。贝叶斯分类器从理论上讲具有最小的出错率，还可以用来为不直接使用贝叶斯定理的其他分类算法提供理论判定。其缺点主要来自于贝叶斯分类的假定，当假定成立时，与其分类算法相比最精确的，然而，在实践中，假定不一定总是成立的。人工神经网络是有一组相互连接的结点和有向链构成。本章重点介绍了如下两种ANN模型：感知器、多层人工神经网络。神经网络技术的优点是对其噪声数据具有较高的承受能力，对未经训练的数据具有分类识别的能力。但是它的主要缺点是可解释性差，这影响了神经网络技术的使用。相对于神经网络技术，决策树技术的优点比较易于理解和解释，而它的主要缺点是由于递归划分方式导致数据子集变小，失去了进一步划分的意义。支持向量机是一种更高级的分类技术，它可以很好地应用于高维数据，避免了维灾难。它通过最大化决策边界的边缘来控制模型的能力。而组合方法则是通过聚集多个分类器的预测来提高分类的准确率。组合方法由训练数据构建一组基分类器，然后通过对每个基分类器的预测进行投票来进行分类。文中主要介绍了构建组合分类器的技术及组合方法比任意单分类器的效果好的原因。总之，书中介绍的分类算法虽多，但各有优缺点，因此在具体工作中，必须根据数据类型特点及数据集大小，选择合适的算法，也可以通过对数据进行预处理来提高分类过程的准确性、有效性和可伸缩性。最后文中还给出了一些为处理不平衡类问题而开发的方法和扩展二元分类器以处理多类问题的方法。第六章详细介绍了关联分析的基础：频繁项集、关联规则以及产生它们的一些算法。关联分析是当前数据挖掘领域最常用的一种方法，主要用于发现隐藏在数据集中不同领域之间的联系，它的目的在于在一个数据集中找出项的关系。书中介绍了一个很有名的例子：尿布和啤酒，表示成关联规则的形式就是{尿布}→{啤酒}。这就是使用关联分析方法所得到的结果，而关联分析所得到的结果，我们可以用关联规则或者频繁项集的形式表示。关联分析的挖掘分为两步：（1）找出所有频繁项集；（2）由频繁项集产生强关联规则。而在搜索频繁项集时，最基本的算法就是Apriori算法。该算法开创性地使用了基于支持度的剪枝技术，系统地控制候选项集指数增长。它的核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。尽管Apriori算法十分简洁明了，但同时也存在一些难以克服的缺点。因此，书中还详细介绍了一些替代方法，如频繁树算法等。另外，本章还介绍了一些特殊类型频繁项集：极大频繁项集和闭频繁项集。最后讨论了关联分析的评估度量。在第六章中，主要针对的是非对称的二元属性，并且只有频繁模式才被认为是有趣的。第七章则是将这种表示扩展到具有对称二元属性、分类属性和连续属性的数据集，并且详细讨论了三类对连续数据进行关联分析的方法：（1）基于离散化的方法；（2）基于统计学的方法；（3）非离散化的方法。此外，还讲述了概念分层的基本定义和处理方法及将它引入关联规则的优缺点。介绍了序列模式的基本概念和发现序列模式的算法，及频繁子图的挖掘问题。最后，本章还简单概述了非频繁模式的概念及相关算法。第八章主要讲述聚类分析的基本概念和算法。首先介绍了不同的簇类型：明显分离的、基于原型的、基于图的、基于密度的、共同性质的。然后给出三种特定的聚类技术：K均值、凝聚层次聚类和DBSCAN，最后讨论验证聚类算法结果的技术。聚类分析是指根据在数据中发现的描述对象及其关系的信息将数据对象分组的分析过程。它与分类规则不同的是，聚类分析是一种探索性分析，进行聚类前并不知道将要划分为几个组和什么样的组，也不确定根据哪些空间区分规则来定义组。聚类分析的目标就是在相似的基础上收集数据来分类。组内的相似性越大，组间差别越大，聚类就越好。聚类分析是数据挖掘的主要任务之一，它能够作为一个独立的工具