第一讲modeler绪论.pptVIP

下载本文档

1
0
约7.63千字
约 45页
2017-08-25 发布于广东
举报
版权申诉

第一讲modeler绪论.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第一讲modeler绪论

数据挖掘得到的知识形式推理规则：由前提条件和结论两部分组成。前提条件是由变量、变量值以及关系运算符组成，关系运算符包括并且（∩）和或者（∪），结论是某个决策变量的取值和类别 IF （消费频率=经常）∪（（消费频率=偶尔）∩(收入水平=高收入∪中收入)） THEN 打算购买 IF （（消费频率=从未）∪（消费频率=偶尔∩收入水平＝低收入） THEN 不打算购买数学模型：通过分析找到事物中所含变量之间的数量关系，并用某种数学形式表示这种关系。数据挖掘的算法类型从分析数据的方式划分假设检验型算法，也称自顶向下（Top-Down）型算法。该类算法通常应首先提出某个理论假说，然后利用所收集的数据去证实假说。如果数据不能充分证实假说，则应拒绝假说，反之则不能拒绝假说。知识发现型算法，也称自底向上（Bottom-Up）型算法。该类算法一般不对数据和结论提出假设，而是通过对数据的分析去发现数据中隐含的事先并不知道的规律。（尿布和啤酒）数据挖掘的算法类型从算法所得结果的类型划分直接型数据挖掘算法：是一种“黑匣子”式的数据分析方式核心任务：是根据已有数据，建立分类或预测模型，并通过模型实现对新数据对象目标变量的分类和预测等关注重点：模型预测精度数据挖掘算法数据知识数据挖掘的算法类型从算法所得结果的类型划分间接型数据挖掘算法：一种“半透明”式的数据分析方式核心任务：是根据已有数据，建立数据描述模型，并通过描述模型展现数据的内在特征和规律，揭示数据中隐藏的新模式或新关系。与直接型数据挖掘相比，间接型数据挖掘算法中一般没有特定的目标变量关注重点：对数据内在联系和结构的展现程度从算法来自的学科机器学习的算法：具有某些与统计学方法相似的特点机器学习的算法尽管在学习策略、结果表述上不尽相同，但核心都是搜索n维空间的数据集，以找出一个对数据特征的恰当的概括结果机器学习的最根本任务是归纳：用有限的系统输入输出来估计输入输出的相关性并进行分类预测；或分析的系统结构特征数据挖掘的算法类型机器学习方案的组成一个随机输入向量X发生器一个系统，对输入向量X返回输出y 一个学习机，根据观察到的X和y，估计系统中X和y之间的映射关系输入发生器学习机系统 X y’ y 从函数集合f(X,W)中找到一般化的与系统行为最相接近的函数f(X,w) 数据挖掘的算法类型机器学习的算法机器学习的主要任务是从学习机所支持的函数集中选择一个与系统行为(响应)最近似的函数目标是找到未知的且真实的f(x)。但通过数据集(xi,f(xi))，我们只能从f(x)的近似函数集合f(X,W)中找到最优的 f(X,w) ,太多的可行性和一致性使得f(X,w)有很多选择。如果有先验知识会有助于f(X,w)的选择，但通常是很困难的数据挖掘的算法类型机器学习的算法近似函数的评价通过损失函数L测度其中：y是系统输出，X是输入，f(X,w)是学习机的输出，w是近似函数的参数集，它可以是线性的，也可以是非线性的学习机就是要依据有限的训练数据，从有限的wopt中找到最优方案wopt*,即f(X, wopt*)，它使损失函数的期望最小在两分类的分类问题中，损失函数通常为：在一般的预测问题，损失函数通常为：数据挖掘的算法类型从学习过程的类型划分：有指导学习：用于从已知的输入输出样本中估计未知的相关性。如：分类和预测。无指导的学习算法：通常应用在数据内在关系和结构的剖析问题中。如：聚类和关联数据挖掘的算法类型 Clementine（PASW Modeler）：IBM麾下一款面向商业用户的高品质数据挖掘产品自1997年以来，KDnuggets公司面向全球开展“你最常用哪种数据挖掘工具”的跟踪调查，反馈结果表明，Clementine产品一直列居首位。 /polls/2009/data-mining-tools-used.htm Clementine概述数据流：建立数据流，修改和调整流中的结点及参数，执行数据流，进而完成整个数据分析任务窗口：数据流编辑区域结点工具箱窗口流管理窗口在Streams卡中新建、打开、关闭、保存数据流 Outputs卡存放执行数据流后而生成的各种数据表 Models卡存放执行数据流后而生成的各种模型计算结果 Clementine的数据流和窗口流管理窗口 Streams卡中，数据流的磁盘文件扩展名为.str； Outputs卡中，数据表结果的磁盘文件扩展名为.cou； Models卡中，模型计算结果的磁盘文件扩展名为.gm。项目管理窗口项目的磁盘文件扩展名为.cpj。.cpj文件只存储项目中相关数据流的索引，并不存储数据流本身； Clementine的窗口数据