网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘概述.ppt

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

主概化关系相关数据集合学号性别分数1男852女903男764男965男626女887女93allA≥90B80~89C70~79D60~69E<60分数:概念分层性别分数个数男A1男B1男C1女A2女B1第61页,共80页,星期六,2024年,5月4.3.6离散化和概念分层生成1.离散化技术对于数值属性来说,由于数据的可能取值范围的多样性,导致可能包含的值太多使数据挖掘难以得到用户满意的知识。而知识本身也是基于较高层次的概念来获取的。连续属性的离散化就是在特定的连续属性的值域内设定若干个离散化的划分点,将属性的值域范围划分为一些离散化区间,最后用不同的符号或整数值(这些离散化区间的标记)表示落在每个子区间中的属性值。第62页,共80页,星期六,2024年,5月数据离散化主要方法如下。(1)分箱分箱是一种基于箱的指定个数自顶向下的分裂技术,也可以用于记录归约和概念分层产生的离散化方法。例如,通过使用等宽或等频分箱,然后用箱均值或中位数替换箱中的每个值,可以将属性值离散化,就像分别用箱的均值或箱的中位数平滑一样。它是一种非监督的离散化技术,对用户指定的箱个数很敏感。第63页,共80页,星期六,2024年,5月(2)直方图分析像分箱一样,直方图分析也是一种非监督离散化技术。直方图将一个属性的值划分成不相交的区间,称作桶。例如,在等宽直方图中,将值分成相等的划分或区间,在等深直方图中,值被划分成其中每一部分包含相同个数的样本。每个桶有一个标记,用它替代落在该桶中的属性值,从而达到属性值离散化的目的。第64页,共80页,星期六,2024年,5月(3)聚类分析聚类分析是一种流行的数据离散化方法。通过聚类算法将属性的值划分成簇或组,每个簇或组有一个标记,用它替代该簇或组中的属性值。第65页,共80页,星期六,2024年,5月2.分类数据的概念分层方法(1)离散属性概念分层的自动生成算法对于离散属性,如果概念分层的任何层次上的结点(或属性值)个数少于它低的每一层上的结点数,可以利用以下算法自动生成隐含在该属性上的概念分层。第66页,共80页,星期六,2024年,5月输入:离散属性集S={A1,A2,…,Am}和对应的数据集R。输出:概念分层B1,B2,…,Bm。方法:方法描述如下。k=1,T=S;从T中找一个属性Bk,它在R中不同值的个数是T的所有属性中最少的;while(km){T=T-{Bk}minnum=∞;for(T中每个属性Ai){计算R中属性序列B1、B2、…,Bk在属性Ai上不同元组个数mynum;if(mynumminnum){minnum=mynum;Bk+1=Ai;}}k=k+1}第67页,共80页,星期六,2024年,5月省地区国家其他省地区国家其他黑龙江东北中国天津华北中国吉林东北中国山东华北中国辽宁东北中国江苏华东中国北京华北中国江西华东中国内蒙古华北中国浙江华东中国河北华北中国上海华东中国第68页,共80页,星期六,2024年,5月(2)连续属性概念分层的生成连续属性在数据离散化过程会自动构造相应的概念分层,采用方法与前面介绍的离散化技术相似,这里不再介绍。第69页,共80页,星期六,2024年,5月4.3.7数据挖掘的算法1.数据挖掘算法的基本特征数据挖掘算法着重强调两个基本特征:有效性和可伸缩性。一个有效的数据挖掘算法是指满足挖掘任务的要求,获得用户满意的知识。一个数据挖掘算法具有良好的可伸缩性是指对小数据集和大规模数据有同样的效果,也就是说,如果给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据的规模近似线性地增加。第70页,共80页,星期六,2024年,5月2.数据挖掘算法的分类(1)基于学习方式的分类有导师学习(监督学习):输入数据中有导师信号,以概率函数、代数函数或人工神经网络为基函数模型,采用迭代计算方法,学习结果为函数。无导师学习(非监督学习):输入数据中无导师信号,采用聚类方法,学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。强化学习(增强学习):以环境反馈(奖/惩信号

文档评论(0)

xiaolan118 + 关注
实名认证
内容提供者

你好,我好,大家好!

版权声明书
用户编号:7140162041000002

1亿VIP精品文档

相关文档