- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一讲modeler绪论
数据挖掘得到的知识形式 推理规则:由前提条件和结论两部分组成。前提条件是由变量、变量值以及关系运算符组成,关系运算符包括并且(∩)和或者(∪),结论是某个决策变量的取值和类别 IF (消费频率=经常)∪((消费频率=偶尔)∩(收入水平=高收入∪中收入)) THEN 打算购买 IF ((消费频率=从未)∪(消费频率=偶尔∩收入水平=低收入) THEN 不打算购买 数学模型:通过分析找到事物中所含变量之间的数量关系,并用某种数学形式表示这种关系。 数据挖掘的算法类型 从分析数据的方式划分 假设检验型算法,也称自顶向下(Top-Down)型算法。该类算法通常应首先提出某个理论假说,然后利用所收集的数据去证实假说。如果数据不能充分证实假说,则应拒绝假说,反之则不能拒绝假说。 知识发现型算法,也称自底向上(Bottom-Up)型算法。该类算法一般不对数据和结论提出假设,而是通过对数据的分析去发现数据中隐含的事先并不知道的规律。(尿布和啤酒) 数据挖掘的算法类型 从算法所得结果的类型划分 直接型数据挖掘算法:是一种“黑匣子”式的数据分析方式 核心任务:是根据已有数据,建立分类或预测模型,并通过模型实现对新数据对象目标变量的分类和预测等 关注重点:模型预测精度 数据挖掘 算法 数据 知识 数据挖掘的算法类型 从算法所得结果的类型划分 间接型数据挖掘算法:一种“半透明”式的数据分析方式 核心任务:是根据已有数据,建立数据描述模型,并通过描述模型展现数据的内在特征和规律,揭示数据中隐藏的新模式或新关系。与直接型数据挖掘相比,间接型数据挖掘算法中一般没有特定的目标变量 关注重点:对数据内在联系和结构的展现程度 从算法来自的学科 机器学习的算法:具有某些与统计学方法相似的特点 机器学习的算法尽管在学习策略、结果表述上不尽相同,但核心都是搜索n维空间的数据集,以找出一个对数据特征的恰当的概括结果 机器学习的最根本任务是归纳:用有限的系统输入输出来估计输入输出的相关性并进行分类预测;或分析的系统结构特征 数据挖掘的算法类型 机器学习方案的组成 一个随机输入向量X发生器 一个系统,对输入向量X返回输出y 一个学习机,根据观察到的X和y,估计系统中X和y之间的映射关系 输入发生器 学习机 系统 X y’ y 从函数集合f(X,W)中找到一般化的与系统行为最相接近的函数f(X,w) 数据挖掘的算法类型 机器学习的算法 机器学习的主要任务是从学习机所支持的函数集中选择一个与系统行为(响应)最近似的函数 目标是找到未知的且真实的f(x)。但通过数据集(xi,f(xi)),我们只能从f(x)的近似函数集合f(X,W)中找到最优的 f(X,w) ,太多的可行性和一致性使得f(X,w)有很多选择。如果有先验知识会有助于f(X,w)的选择,但通常是很困难的 数据挖掘的算法类型 机器学习的算法 近似函数的评价通过损失函数L测度 其中:y是系统输出,X是输入,f(X,w)是学习机的输出,w是近似函数的参数集,它可以是线性的,也可以是非线性的 学习机就是要依据有限的训练数据,从有限的wopt中找到最优方案wopt*,即f(X, wopt*),它使损失函数的期望最小 在两分类的分类问题中,损失函数通常为: 在一般的预测问题,损失函数通常为: 数据挖掘的算法类型 从学习过程的类型划分: 有指导学习:用于从已知的输入输出样本中估计未知的相关性。如:分类和预测。 无指导的学习算法:通常应用在数据内在关系和结构的剖析问题中。如:聚类和关联 数据挖掘的算法类型 Clementine(PASW Modeler):IBM麾下一款面向商业用户的高品质数据挖掘产品 自1997年以来,KDnuggets公司面向全球开展“你最常用哪种数据挖掘工具”的跟踪调查,反馈结果表明,Clementine产品一直列居首位。 /polls/2009/data-mining-tools-used.htm Clementine概述 数据流:建立数据流,修改和调整流中的结点及参数,执行数据流,进而完成整个数据分析任务 窗口: 数据流编辑区域 结点工具箱窗口 流管理窗口 在Streams卡中新建、打开、关闭、保存数据流 Outputs卡存放执行数据流后而生成的各种数据表 Models卡存放执行数据流后而生成的各种模型计算结果 Clementine的数据流和窗口 流管理窗口 Streams卡中,数据流的磁盘文件扩展名为.str; Outputs卡中,数据表结果的磁盘文件扩展名为.cou; Models卡中,模型计算结果的磁盘文件扩展名为.gm。 项目管理窗口 项目的磁盘文件扩展名为.cpj。.cpj文件只存储项目中相关数据流的索引,并不存储数据流本身; Clementine的窗口 数据
您可能关注的文档
最近下载
- 20171017_宁波新世界明楼项目汇报文件.pptx VIP
- (人教PEP版2024)英语五年级上册 Unit2 大单元教学设计.docx VIP
- 劳务合同模板2025.docx VIP
- 高性能探针卡生产线项目规划设计方案.docx
- 2024年秋新沪科版物理八年级上册 第五章大单元整体设计 教学课件.pptx VIP
- 数字赋能乡村治理的实践探索与优化路径——以晋南S村为例.pdf
- 《道路运输管理实务》第2版综合测试题.docx VIP
- 《人工智能导论》课件.ppt VIP
- 第一章 大学生心理健康教育.pdf VIP
- 《铁路线路养护与维修》课件全套 模块1、2 基础知识;普速铁路线路工务作业.pptx
文档评论(0)