40数据挖掘应用工具与实例.ppt

下载文档 降价啦

24
0
约2.27万字
约 126页
2017-12-21 发布于江西
举报
版权申诉
保障服务

40数据挖掘应用工具与实例.ppt

1、本文档共126页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

40数据挖掘应用工具与实例

SAS/EM－建立数据库在进行数据挖掘分析模型的操作之前，要建立一个数据挖掘的数据库（DMDB），其中放置此次要进行操作的数据。因为此后可能要进行许多复杂的数学运算，在这里建立一个专门的数据集可提高工作效率。在处理之前，可对所选取的各个变量预先进行诸如最大、最小、平均、标准差…等处理。对一些要按其分类的变量的等级也先放入Meta Data之中，以利后继操作。总之在这个数据库中为数据挖掘建立一个良好的工作环境。 SAS/EM－为建立决策树的数据剖分工具对数据集进行聚类、建立决策树，是近来数据处理，进行决策支持常用的方法。在SAS/EM中亦支持这一功能。在建立决策树的过程中可有多种数据聚类、剖分的方法可供选择。 SAS/EM－为建立决策树的数据剖分工具图形化界面的交互式操作，可分成六个层：（1）对数据挖掘数据库中选定数据集的操作（2）对数据集中的变量的处理（3）聚类、剖分时的基本选择项（4）聚类、剖分时的进一步操作选择项（5）模型的初步确定（6）结果的评价 SAS/EM－决策树浏览工具最后作出来满意的决策树可能是个枝繁叶茂的架构。SAS/EM提供了可视化的浏览工具。这一点很重要，一个复杂的决策树若难以观察，则会影响实施决策的效率，甚至是有效性。决策树浏览工具包括： ·????????????决策树基本内容和统计值的汇总表 ·????????????决策树的导航浏览器 ·????????????决策树的图形显示 ·????????????决策树的评价图表 SAS/EM－数据挖掘评价工具在SAS/EM的评价工具中，提供了一个通用的数据挖掘评价的架构，可以比较不同的模型效果；预报各种不同类型分析工具的结果。在进行了各种比较和预报的评价之后，将给出一系列标准的图表，供用户进行定量评价。可能用户会有自己独特的评价准则，在SAS/EM的评价工具中，还可以进行客户化的工作，对那些标准的评价图表按你的具体要求进行更改。因此，评价工作可能会更有意义。 Random info Weka… Waikato Environment for Knowledge Analysis Weka – native New Zealand bird Developed in Java – multi-platform capability Used for research, education, and applications http://www.cs.waikato.ac.nz/ml/weka/ 5.3.5 典型工具—Weka Weka Interfaces Command-line Explorer preprocessing, attribute selection, learning, visualiation Knowledge Flow visual design of KDD process capabilities ~ Explorer Experimenter testing and evaluating machine learning algorithms Preprocess Classify Cluster Associate Select attribute Visualise Weka的功能 Preprocessing Preprocessing data checking filtering, e.g. attribute-based - normalise, discretise instance-based – remove, randomise select training data select test data Preprocessing Import from files: ARFF, CSV, C4.5, binary Import from URL or an SQL database (using JDBC) Preprocessing filters Adding/removing attributes Attribute value substitution Discretization (MDL, Kononenko, etc.) Time series filters (delta, shift) Sampling, randomization Missing value management Normalization and other numeric transformations Attribute Selection Very flexible: ar