数据挖掘基本原理与方法.pptVIP

下载本文档

20
0
约9.26千字
约 69页
2019-10-15 发布于江西
举报
版权申诉

数据挖掘基本原理与方法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘基本原理与方法与选择变量类似，你可能也想用你所有的记录来建立模型，然而如果你的资料量确实非常巨大的话，要么要花费很长的时间来建立这个模型，要么买一台计算能力非常强大的机器。因此，如果资料量特别大，进行抽样就是一个很好的主意。如果做的足够仔细，保证抽样是按真正的随机来进行的，抽样对大部分商业问题来说都不会丢失信息。你可以用所有的资料建立一个模型；你还可以用抽样的方法根据不同得抽样方法建立几个模型，然后评价这几个模型选择一个最好的。我们认为后面这种方法得到的方法更准确、更健壮。你可能选择资料中明显的异常资料删除掉。然而在某些情况下，这些看来异常的资料可能包含了你要建立模型的重要信息。基于你对问题的理解方式的不同，通常可以把这些异常忽略掉。比如可以把异常认为是人为的录入错误。有时也需要向资料中添加一些新的资料（如，那些没有做出购买的客户）。选择记录很多情况下需要从原始资料中衍生一些新的变量作为预测变量。比如，用话费额度占收入的百分比来预测信用风险比直接用话费额度和收入做预测变量更准确一些，也更容易理解一些。很多变量如果组合起来（加、减、比率等）会比这些变量自身影响力更大。一些变量如果扩大它的范围也会成为一个非常好的预测变量，比如用一段时间内话费变化情况代替一个单一的话费资料。创建新变量你所选择的算法和工具决定了都要对资料做哪些转换工作。如神经网络要求所有的变量都在0-1之间，因此在这些资料被提交到算法之前就必须先对不在[0,1]内的变量进行映像。同样一些决策树算法不接受数值型变量作为输入，在使用他们之前也要把这些数值映像到“高、中、低”等。当然你的转换方式也在一定程度上影响了模型的准确度。转换变量对建立模型来说要记住的最重要的事是它是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对你的商业问题最有用。你在寻找好的模型的过程中学到的的东西会启发你修改你的资料，甚至改变最初对问题的定义。一旦决定了预测的类型之后（分类还是回归），就需要为这个预测选择模型的类型。可能是一棵决策树、神经网络、甚至传统的数学统计。选择什么样的模型决定了你需对资料做哪些预处理工作。如神经网络需要做资料转换，有些数据挖掘工具可能对输入资料的格式有特定的限制等。一旦所有的资料准备好之后，就可以开始训练和建构你的模型。建立模型验证的效验为了保证得到的模型具有较好的精确度和健壮性，需要一个定义完善的训练—验证协议。有时也称此协议为带指导的学习。他的主要思想就是先用一部分资料建立模型，然后再用剩下的资料来测试和验证这个得到的模型。有时还有第三个资料集，称为验证集，因为测试集可能受模型的特性的影响，这时需要一个独立的资料集来验证模型的准确性。训练和测试资料数据挖掘需要把资料至少分成两个部分：一个用于模型训练，另一个用于模型测试。如果不使用不同的训练和测试集，那么模型的准确度就很难使人信服。验证的效验用训练集把模型建立出来之后，就可以先在测试集资料上先试验一把此模型在测试集上的预测准确度就是一个很好的指导数字，它说明如果将来与训练集和测试集类似的资料用此模型预测时，正确的百分比会有多大。这并不能保证模型的正确性，他只是说相似的资料用此模型会得出相似的结果。最基本的测试方法是被称为简单验证的方法。做法是从原始资料中拿出一定百分比的资料作为测试资料，这个百分比大概在5%到33%之间。注意在把数据库分成几部分时，一定要保证选择的随机性，这样才能使分开的各部分资料的性质是一致的。先用数据库的主体把模型建立起来，然后用此模型来预测测试集中的资料。出现错误的预测与预测总数之间的比，称为错误率。正确的预测与总数的比，是准确率（准确率=1 - 错误率）。对回归模型来说，可以用方差，决定系数来描述准确的程度。在一次模型的建立过程中，即使这种最简单的验证就要执行几十次。例如在训练神经网络时，有时每一个训练周期就要求在测试集上运行一次，不断的训练测试，直到在测试集上的准确率不再提高为止。简单验证法交叉验证如果资料不是很多（比如只有几千条），那么你可能承受不了再把一部分资料拿到一边不用，单用来做简单验证。交叉验证提供了一种让你使用全部资料的方法。首先把原始资料随机平分成两份，然后用一部分做训练集；另一部分做测试集计算错误率；做完之后把两部分资料交换再计算一次，得到另一个错误率；最后再用所有的资料建立一个模型，把上面得到的两个错误率进行平均作为最后用所有资料建立的模型的错误率。更通用的算法是：先把资料随机分成不相交的n份。例如，如果把资料分成10份，先把第一份拿出来放在一边用作模型测试，把其它9份合在一起来建立模型，然后把这个用90%的资料建立起来的模型用上面放在一边的第一份资