第3章数据挖掘建模.PDFVIP

下载本文档

11
0
约1.54万字
约 13页
2017-06-24 发布于湖北
举报
版权申诉

第3章数据挖掘建模.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

18 第 3 章数据挖掘建模数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。各运营支系统所积累的海量历史数据是企业的一笔宝贵财富，谁能正确地挖掘与分析隐含在数据中的信息，谁就能更好地向用户提供产品与服务，从而在竞争中脱颖而出。 3.1 数据挖掘的过程数据挖掘提供了从数据到价值的解决方案：数据+ 工具+ 方法+ 目标+行动=价值目前，数据挖掘已有一系列应用：分类分析、聚类分析、预测分析、偏差分析、关联分析和时序模式等，这些应用涉及的技术和工具各不相同，然而却可以依据统一的方法论来实行，并可以协同作战，解决许多有价值的商业问题，图 3-1 是进行数据挖掘的一般过程。图 3-1 数据挖掘一般过程 3.2 数据挖掘建模过程广州 TipDM 团队在多年的数据挖掘项目实施过程中，积累了一套行之有效的数据挖掘方法论，数据挖掘建模过程如图 3-2 所示。 3.2.1 定义挖掘目标针对具体的数据挖掘应用需求，首先要非常清楚：本次的挖掘目标是什么？系统完成后能达到什么样的效果？因此我们必须分析应用领域，包括应用中的各种知识和应用目标。了解相关领域的有关情况，熟悉背景知识，弄清用户需求。要想充分发挥数据挖掘的价值，必须要对目标有一个清晰明确的定义，即决定到底想干什么。否第 3 章数据挖掘建模 19 则，很难得到正确的结果。图 3-2 TipDM 数据挖掘建模过程 3.2.2 数据取样数据采集前首要考虑的问题包括：哪些数据源可用，哪些数据与当前挖掘目标相关？如何保证取样数据的质量？是否在足够范围内有代表性？数据样本取多少合适？如何分类（训练集、验证集、测试集）？在明确了需要进行数据挖掘的目标后，接下来就需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集。抽取数据的标准，一是相关性，二是可靠性，三是最新性。而不是动用全部企业数据。通过数据样本的精选，不仅能减少数据处理量，节省系统资源，而且能通过数据的筛选，使想要反映的规律性更加突显出来。进行数据取样一定要严把质量关。在任何时候都不要忽视数据的质量，即使是从一个数据仓库中进行数据取样，也不要忘记检查其质量如何。因为数据挖掘是要探索企业运作的内在规律性，原始数据有误，就很难从中探索规律性。若从有误的数据中探索出来了 “规律性 ”，再依此去指导工作，则很可能是在进行误导。若从正在运行着的系统中进行数据取样，则更要注意数据的完整性和有效性。衡量取样数据质量的标准包括： 20 第一部分基础篇 1）资料完整无缺，各类指标项全。 2 ）数据准确无误，反映的都是正常（而不是反常）状态下的水平。对获取的数据，可再从中作抽样操作。抽样的方式是多种多样的，包括：随机抽样：在采用随机抽样方式时，数据集中的每一组观测值都有相同的被抽样的概率。如按 10%的比例对一个数据集进行随机抽样，则每一组观测值都有 10%的机会被取到。等距抽样：如按 5% 的比例对一个有 100 组观测值的数据集进行等距抽样，则有 100/5 = 20，等距抽样方式是取第 20 、40 、60 、80 和 100 五组观测值。分层抽样：在这种抽样操作时，首先将样本总体分成若干层次（或者说分成若干个子集）。在每个层次中的观测值都具有相同的被选用的概率，但对不同的层次可设定不同的概率。这样的抽样结果可能具有更好的代表性，进而使模型具有更好的拟合精度。从起始顺序抽样：这种抽样方式是从输入