40数据挖掘应用工具与实例.ppt

  1. 1、本文档共126页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
40数据挖掘应用工具与实例

SAS/EM-建立数据库 在进行数据挖掘分析模型的操作之前,要建立一个数据挖掘的数据库(DMDB),其中放置此次要进行操作的数据。因为此后可能要进行许多复杂的数学运算,在这里建立一个专门的数据集可提高工作效率。在处理之前,可对所选取的各个变量预先进行诸如最大、最小、平均、标准差…等处理。对一些要按其分类的变量的等级也先放入Meta Data之中,以利后继操作。 总之在这个数据库中为数据挖掘建立一个良好的工作环境。 SAS/EM-为建立决策树的数据剖分工具 对数据集进行聚类、建立决策树,是近来数据处理,进行决策支持常用的方法。在SAS/EM中亦支持这一功能。在建立决策树的过程中可有多种数据聚类、剖分的方法可供选择。 SAS/EM-为建立决策树的数据剖分工具 图形化界面的交互式操作,可分成六个层: (1)对数据挖掘数据库中选定数据集的操作 (2)对数据集中的变量的处理 (3)聚类、剖分时的基本选择项 (4)聚类、剖分时的进一步操作选择项 (5)模型的初步确定 (6)结果的评价 SAS/EM-决策树浏览工具 最后作出来满意的决策树可能是个枝繁叶茂的架构。SAS/EM提供了可视化的浏览工具。这一点很重要,一个复杂的决策树若难以观察,则会影响实施决策的效率,甚至是有效性。决策树浏览工具包括: ·????????????决策树基本内容和统计值的汇总表 ·????????????决策树的导航浏览器 ·????????????决策树的图形显示 ·????????????决策树的评价图表 SAS/EM-数据挖掘评价工具 在SAS/EM的评价工具中,提供了一个通用的数据挖掘评价的架构,可以比较不同的模型效果;预报各种不同类型分析工具的结果。 在进行了各种比较和预报的评价之后,将给出一系列标准的图表,供用户进行定量评价。可能用户会有自己独特的评价准则,在SAS/EM的评价工具中,还可以进行客户化的工作,对那些标准的评价图表按你的具体要求进行更改。因此,评价工作可能会更有意义。 Random info Weka… Waikato Environment for Knowledge Analysis Weka – native New Zealand bird Developed in Java – multi-platform capability Used for research, education, and applications http://www.cs.waikato.ac.nz/ml/weka/ 5.3.5 典型工具—Weka Weka Interfaces Command-line Explorer preprocessing, attribute selection, learning, visualiation Knowledge Flow visual design of KDD process capabilities ~ Explorer Experimenter testing and evaluating machine learning algorithms Preprocess Classify Cluster Associate Select attribute Visualise Weka的功能 Preprocessing Preprocessing data checking filtering, e.g. attribute-based - normalise, discretise instance-based – remove, randomise select training data select test data Preprocessing Import from files: ARFF, CSV, C4.5, binary Import from URL or an SQL database (using JDBC) Preprocessing filters Adding/removing attributes Attribute value substitution Discretization (MDL, Kononenko, etc.) Time series filters (delta, shift) Sampling, randomization Missing value management Normalization and other numeric transformations Attribute Selection Very flexible: ar

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档