SAS的数据挖掘的方法论.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SAS的数据挖掘的方法论

SAS的数据挖掘的方法论 美国SAS研究所 ____进行数据特征的探索、分析,最好是能进行可视化的操作。SAS有:SAS/INSIGHT和SA S/SPECTRAVIEW两个产品给你提供了可视化数据操作的最强有力的工具、方法和图形。它们不仅能做各种不同类型统计分析显示,而且可做多维、动态、甚至旋转的显示。 ____这里的数据探索,就是我们通常所进行的深入调查的过程。你最终要达到的目的可能是要搞清多因素相互影响的,十分复杂的关系。但是,这种复杂的关系不可能一下子建立起来。一开始,可以先观察众多因素之间的相关性;再按其相关的程度,以了解它们之间相互作用的情况。这些探索、分析,并没有一成不变操作规律性;相反,是要有耐心的反复的试探,仔细的观察。在此过程中,你原来的专业技术知识是非常有用的,它会帮助你进行有效的观察。但是,你也要注意,不要让你的专业知识束缚了你对数据特征观察的敏锐性。可能实际存在着你的先验知识认为不存在的关系。假如你的数据是真实可靠的话,那末你绝对不要轻易地否定数据呈现给你的新关系。很可能这里就是发现的新知识!有了它,也许会导引你在此后的分析中,得出比你原有的认识更加符合实际的规律性知识。假如在你的操作中出现了这种情况,应当说,你的数据挖掘已挖到了有效的矿脉。 ____在这里要提醒你的是要有耐心,做几种分析,就发现重大成果是不大可能的。所幸的是SAS向你提供了强有力的工具,它可跟随你的思维,可视化、快速的作出反应。免除了数学的复杂运算过程和编制结果展现程序的烦恼和对你思维的干扰。这就使你数据分析过程集聚于你业务领域的问题,并使你的思维保持了一个集中的较高级的活动状态,从而加速了你的思维过程,提高了你的思维能力。 ____Modify──问题明确化、数据调整和技术选择 ____通过上述两个步骤的操作,你对数据的状态和趋势可能有了进一步的了解。对你原来要解决的问题可能会有了进一步的明确;这时要尽可能对问题解决的要求能进一步的量化。问题越明确,越能进一步量化,问题就向它的解决更前进了一步。这是十分重要的。因为原来的问题很可能是诸如质量不好、生产率低等模糊的问题,没有问题的进一步明确, 你简直就无法进行有效的数据挖掘操作。 ____在问题进一步明确化的基础上,你就可以按照问题的具体要求来审视你的数据集了, 看它是否适应你的问题的需要。Gartner group在评论当前一些数据挖掘产品时特别强调指出:在数据挖掘的各个阶段中,数据挖掘的产品都要使所使用的数据和所将建立模型处于十分易于调整、修改和变动的状态,这才能保证数据挖掘有效的进行。 ____针对问题的需要可能要对数据进行增删;也可能按照你对整个数据挖掘过程的新认识 ,要组合或者生成一些新的变量,以体现对状态的有效的描述。SAS对数据强有力的存取、管理和操作的能力保证了对数据的调整、修改和变动的可能性。若使用了SAS的数据仓库产品技术时就更进一步保证了有效、方便的进行这些操作。 ____在问题进一步明确;数据结构和内容进一步调整的基础上,下一步数据挖掘应采用的技术手段就更加清晰、明确了。 ____Model──模型的研发、知识的发现 ____这一步是数据挖掘工作的核心环节。虽然数据挖掘模型化工作涉及了非常广阔的技术领域,但对SAS研究所来说并不是一件新鲜事。自从SAS问世以来,就一直是统计模型市场领域的领头羊,而且年年提供新产品,并以这些产品体现业界技术的最新发展。按照SA S提出的SEMMA方法论走到这一步时,你对应采用的技术已有了较明确的方向;你的数据结构和内容也有了充分的适应性。SAS在这时也向你提供了充分的可选择的技术手段:广泛的数理统计方法;人工神经元网络;决策树等。 ____正如Gartner group评论中所指出的:数理统计方法还是数据挖掘工作中最常用的主流技术手段。在SAS的SAS/STAT软件包中就覆盖了所有的使用数理统计方法,并成为国际上统计分析领域的标准软件。SAS/STAT提供了十多个过程可进行各种不同类型模型、不同特点数据的回归分析,如正交回归、响应面回归、Logistic回归、非线性回归等,且有多种形式模型化的方法选择。可处理的数据有实型数据、有序数据和属性数据,并能产生各种有用的统计量和诊断信息。在方差分析方面,SAS/STAT为多种试验设计模型提供了方差分析工具。更一般的,它还有处理一般线性模型和广义线性模型的专用过程。在多变量统计分析方面,SAS/STAT为主成分分析、典型相关分析、判别分析和因子分析提供了许多专用过程。SAS/STAT含有多种聚类准则的聚类分析方法。利用SAS/STAT可进行生存分析 (这对客户保有程度分析等特别有用)。SAS/ETS提供了丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测

文档评论(0)

xy88118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档