防灾科技学院数据挖掘期末考试复习资料.docVIP

下载本文档

22
0
约4.23千字
约 5页
2016-11-28 发布于重庆
举报
版权申诉

防灾科技学院数据挖掘期末考试复习资料.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

防灾科技学院数据挖掘期末考试复习资料

数据挖掘考点总结版本号2.0.0.1 第一章介绍 1. 数据挖掘的定义 Hand等人200年给了简明定义：数据挖掘就是从大型数据集合里挖掘出有用的信息。还有一个定义来源于一家信息技术研究公司——加特那集团：数据挖掘是从大量的存储数据里进行筛选，采用模式识别技术以及统计和数学技巧，发现有意义的新的相互关系、模式以及趋势的过程。 2. 数据挖掘处于统计学和机器学习（也称人工智能）领域的交叉点上。 3. 经典统计学的两个核心难点——计算复杂、数据稀少。 4. DarylPregibon把数据挖掘描述为“建立在规模和速度上的统计学”。有人把这一说法推广：数据挖掘是“建立在规模、速度和简单化上的统计学”。 5. 过度拟合过度拟合指的是现有样本跟一个模型拟合太过，以至于模型不仅描述数据的根本特性，而且也描述了其随机特性。按工程上的术语指这个模型不光是拟合信号，还拟合噪声。 6. 算法算法指的是用于实现某一数据挖掘技术——如分类树、辨识分析等的特定程序。 7. 有约束学习有约束学习指的是用已有记录得到算法（逻辑回归、回归树等）的过程。 8. 无约束学习无约束学习指的是人们试图从数据中了解一些东西的分析，而不是预测感兴趣的输出值（例如输出结果是否属于某个聚类）。 9. 或许挖动数据挖掘发展的最重要的因素是数据的增长。 10. 数据仓库——一个把企业的决策系统结合在一起的大型综合数据存储系统。 11. 计算能力方面的持续迅速的改进是数据挖掘发展的一个基本动力。 12. 大数据的特征：数据量大volume、种类多variety、读取速率快velocity、价值密度小value 第二章数据挖掘过程概览 1. 数据挖掘的一项基本任务就是用类别已知的数据找出规则，然后把这些规则用在未进行分类的数据上。 2. 预测和分类相似，差别在于我们是预测一个变量的数值，而不是一个类别。当然，在分类时我们试图去预测一个类别，而“预测”（在本书）是指预测一个连续变量的数值。 3. 各数据挖掘技术之间的一个基本区别在于是否采用了有约束学习方法。训练数据是分类和预测算法用来“学习”预测变量和结果变量之间的关系（或称为模型）。验证数据以检验其是否比其他模型好。测试数据用于检测最后选择的模型的优劣。 4. 无约束学习算法是在没有结果变量去预测或者分类时的算法。关联分析、数据精简和聚类技术都是无约束学习方法。 5. 当算法涉及到有约束学习时，我们要把总的数据集合分成训练、验证和测试数据三个子集合。 6. SEMMA Sample采样 Explore探索 Modify调整 Model建模 Assess评估 7. 多少变量和多大数据合适一条经验法则认为对应每一个预测变量要有10条记录，这应该是合理的。Delmater和Hancock在其分类任务里使用的另一法则是，观测记录数量至少要有6*M*N。（M，输出变量类别的数目；N，变量的数目）原则上，预测变量少是模型的一个好特征。 8. 奇异值远离大块数据的数值称为奇异值。有的分析人员采用这样的经验法则“离均值3个标准差之外的点事奇异值”。 9. 数据标准化标准化数据一般指的是从每一个值减去平均值，然后除以距离平均值的偏差的标准差。 10. 为什么即需要一个验证块还要一个测试块呢？（验证块与测试块异同点）因为验证数据增强了所选择模型性能的现象是随机的，在模型被应用到新数据上时其好的性能将不存在，因此我们可能高估了模型的精度。我们测试的模型越多，就越有可能会选择那个把验证数据的噪声拟合得最好的模型。把模型用在以前未出现过的测试数据上将会产生模型在新数据上的无偏估计。分块的过程应该是随机的以避免产生偏差的划分。 11. 建立模型 1）目的 2）获取数据 3）探索、清理和预处理数据 4）精简数据和把它划分成训练、验证以及测试数据块 5）决定数据挖掘任务 6）选择技术 7）用算法去执行这个任务 8）解释结果 9）应用模型第三章有约束学习——分类和预测 1. 判断一个分类法效果的自然标准是它错误分类的概率。 2. 在此，我们希望使用分类法的效果能比使用“粗暴”法则：“把所有记录划分到记录最多的类里去”得到的效果要好一点。 3. 一个分类法的精度特别依赖与这两个类（由分类法使用的预测变量而显示出）的间隔。 4. 贝叶斯法则的一个重要优点是，在给一个记录分类的同时，我们可以计算该记录属于每一个类的条件概率。它的好处是 1）我们可以用这一个概率作为我们要分类的每一个记录的“分数” 2）我们可以为任一记录计算期望的利益或者损失。 5. 什么是三分Triage策略？【简答题】见书P37 第四章多元线性回归 1. 经典的多元线性回归分析包括模型假设、系数估计和检验、方差分析、变量子集选择等许