clementine的中文教程.pdf

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
clementine的中文教程

一、Clementine数据挖掘的基本思想 数据挖掘(Data Mining )是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,它是一 种深层次的数据分析方法。随着科技的发展,数据挖掘不再只依赖在线分析等传统的分析方法。 它结合了人工智能(AI )和统计分析的长处,利用人工智能技术和统计的应用程序,并把这些 高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于 自己所要解决的问题。 Clementine为我们提供了大量的人工智能、统计分析的模型(神经网络,关联分析,聚类分 析、因子分析等),并用基于图形化的界面为我们认识、了解、熟悉这个软件提供了方便。除了 这些Clementine还拥有优良的数据挖掘设计思想,正是因为有了这个工作思想,我们每一步的工 作也变得很清晰。(如图一所示) 图一 CRISP-DM process model 如图可知,CRISP-DM Model包含了六个步骤,并用箭头指示了步骤间的执行顺序。这些顺 序并不严格,用户可以根据实际的需要反向执行某个步骤,也可以跳过某些步骤不予执行。通 过对这些步骤的执行,我们也涵盖了数据挖掘的关键部分。 Business understanding :商业理解阶段应算是数据挖掘中最重要的一个部分,在这个阶段 里我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。 Data understanding :数据是我们挖掘过程的“原材料”,在数据理解过程中我们要知道都有些什么数据,这些 数据的特征是什么,可以通过对数据的描述性分析得到数据的特点。 Date preparation :在数据准备阶段我们需要对数据作出选择、清洗、重建、合并等工作。 选出要进行分析的数据,并对不符合模型输入要求的数据进行规范化操作。 Modeling :建模过程也是数据挖掘中一个比较重要的过程。我们需要根据分析目的选出适 合的模型工具,通过样本建立模型并对模型进行评估。 Evaluation :并不是每一次建模都能与我们的目的吻合,评价阶段旨在对建模结果进行评估, 对效果较差的结果我们需要分析原因,有时还需要返回前面的步骤对挖掘过程重新定义。 Deployment :这个阶段是用建立的模型去解决实际中遇到的问题,它还包括了监督、维持、 产生最终报表、重新评估模型等过程。 二、Clementine的基本操作方法 1、操作界面的介绍 图二 Clementine操作界面 1.1数据流程区 Clementine在进行数据挖掘时是基于数据流程形式,从读入数据到最后的结果显示都是由 流程图的形式显示在数据流程区内。数据的流向通过箭头表示,每一个结点都定义了对数据的 不同操作,将各种操作组合在一起便形成了一条通向目标的路径。 数据流程区是整个操作界面中最大的部分,整个建模过程以及对模型的操作都将在这个区 域内执行。我们可以通过File -new stream新建一个空白的数据流,也可以打开已有的数据流。 所有在一个运行期内打开的数据流都将保存在管理器的Stream栏下。 1.2选项面板 选项面板横跨于Clementine操作界面的下部,它被分为Favorites 、Sources、Record Ops 、Fields Ops、Graphs、Modeling 、Output七个栏,其中每个栏目包含了具有相关功能的结点。 结点是数据流的基本组成部分,每一个结点拥有不同的数据处理功能。设置不同的栏是为了将 不同功能的结点分组,下面我们介绍各个栏的作用。 Sources :该栏包含了能读入数据到Clementine的结点。例如Var. File结点读取自由格式的文 本文件到Clementine,SPSS File读取spss文件到Clementine 。 Record Ops :该栏包含的结点能对数据记录进行操作。例如筛选出满足条件的记录(select )、 将来自不同数据源的数据合并在一起(merge )、向数据文件中添加记录(append)等。 Fields Ops :该栏包含了能对字段进行操作的结点。例如过滤字段(filter )能让被过滤的字 段不作为模型的输入、derive结点能根据用户定义生成新的字段,同时我们还可以定义字段的数 据格式。 Graphs:该栏

文档评论(0)

ctuorn0371 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档