- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
 - 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
 - 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
 - 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
 - 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
 - 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
 - 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
 
                        查看更多
                        
                    
                
18 
                      第 3 章  数据挖掘建模  
    数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。各运营支 
系统所积累的海量历史数据是企业的一笔宝贵财富,谁能正确地挖掘与分析隐含在数 
据中的信息,谁就能更好地向用户提供产品与服务,从而在竞争中脱颖而出。 
3.1    数据挖掘的过程 
    数据挖掘提供了从数据到价值的解决方案: 
                        数据+ 工具+ 方法+ 目标+行动=价值 
    目前,数据挖掘已有一系列应用:分类分析、聚类分析、预测分析、偏差分 
析、关联分析和时序模式等,这些应用涉及的技术和工具各不相同,然而却可以依 
据统一的方法论来实行,并可以协同作战 ,解决许多有价值的商业问题,图                                      3-1 是 
进行数据挖掘的一般过程。 
                             图 3-1 数据挖掘一般过程 
3.2    数据挖掘建模过程 
    广州   TipDM   团队在多年的数据挖掘项目实施过程中,积累了一套行之有效的数 
据挖掘方法论,数据挖掘建模过程如图 3-2 所示。 
3.2.1   定义挖掘目标 
    针对具体的数据挖掘应用需求,首先要非常清楚:本次的挖掘目标是什么?系统 
完成后能达到什么样的效果?因此我们必须分析应用领域,包括应用中的各种知识和 
应用目标。了解相关领域的有关情况,熟悉背景知识,弄清用户需求。要想充分发挥 
数据挖掘的价值,必须要对目标有一个清 晰明确的定义,即决定到底想干什么。否 
                                                    第 3 章  数据挖掘建模           19 
则,很难得到正确的结果。 
                          图 3-2 TipDM 数据挖掘建模过程 
 3.2.2  数据取样 
    数据采集前首要考虑的问题包括: 
       哪些数据源可用,哪些数据与当前挖掘目标相关? 
       如何保证取样数据的质量? 
       是否在足够范围内有代表性? 
       数据样本取多少合适? 
       如何分类(训练集、验证集、测试集)? 
    在明确了需要进行数据挖掘的目标后,接下来就需要从业务系统中抽取出一个与 
挖掘目标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是最 
新性。而不是动用全部企业数据。通过数据样本的精选,不仅能减少数据处理量,节 
省系统资源,而且能通过数据的筛选,使想要反映的规律性更加突显出来。 
    进行数据取样一定要严把质量关。在任何时候都不要忽视数据的质量,即使是从 
一个数据仓库 中进行数据取样,也不要忘记检查其质量如何。因 为数据挖掘是要探索 
企业运作的 内在规律性,原始数据有误 ,就很难从中探索规律性。若从有误 的数据中 
探索 出来了  “规律性 ”,再依此去指导工作,则很可能是在进行误导 。若从正在运行 
着 的系统中进行数据取样,则更要注意数据的完整性和有效性。 
    衡量取样数据质量的标准包括: 
20      第一部分     基  础   篇 
    1)资料完整无缺 ,各类指标项               全。 
    2 )数据准确无误 ,反映的都是正常  (而不是反常 )状态下的水平 。 
    对获取的数据,可再从中作抽样操作。抽样的方式是多种多样的,包括: 
       随机抽样:在采用 随机抽样方式时,数据集中的每 一组观测值都有相同的被 
       抽样的概率 。如按         10%的 比例对一个数据集进行 随机抽样,则每一组观测值 
       都有 10%的机会被取到。 
       等距抽样:如按  5% 的比例对一个有               100 组观测值的数据集进行等距抽样,则 
       有  100/5 = 20,等距抽样方式是取第 20 、40 、60 、80 和  100 五组观测值。 
       分层抽样:在这种抽样操 作时,首先将 样本 总体分成若干层 次                            (或者说分成 
       若干个子集 )。在每个层 次中的观测值都具有相同的被选用的概率 ,但对不同 
       的层 次可设 定不同的概率 。这样的抽样结果可能具有更好的代表 性,进而使 
       模型具有更好的拟合精度 。 
       从起始顺序抽样:这种抽样方式是从输入 
                您可能关注的文档
最近下载
- 第一单元+写话:注意说话的语气(教学课件)-2023-2024学年二年级语文下册单元写话能力提升(统编版).pptx VIP
 - 心理健康与心理健康观.ppt VIP
 - 关爱保护未成年人.pptx VIP
 - 实践党创新理论“三个境界”.doc VIP
 - 企业危险化学品及危险化工工艺安全管理规定.docx VIP
 - 数电模电完整版练习试题附答案.doc
 - 企业设备、建(构)筑物拆除活动污染防治技术指南.pdf VIP
 - 2020 电工装备供应商数据采集及接口规范第1部分通用部分.docx VIP
 - 《画出你的想象》教学设计4-10画出你的想象-二年级上册美术.docx VIP
 - 心理卫生 mental health.ppt VIP
 
原创力文档
                        

文档评论(0)