4.大数据分析技术-数据挖掘原理.pptVIP

4.大数据分析技术-数据挖掘原理.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

表4.2约简后的数据库燃料排气量压缩率重量里程1’***重低2’***轻高3’*小中*高4’*中*中中5’1型小高*高6’2型*高中中利用最小属性约简(2),经过进一步处理,可以得到原数据库的等价数据库。2、元组(记录)压缩元组(记录)压缩实质上是对数据库的元组(记录)进行合并、归并和聚类等。(1)相同元组(记录)的合并(2)利用概念树进行归并(3)对元组的聚类(按距离)4.2数据挖掘方法和技术4.2.1归纳学习的信息论方法4.2.2归纳学习的集合论方法4.2.3仿生物技术的神经网络方法4.2.4仿生物技术的遗传算法4.2.5数值数据的公式发现4.2.6可视化技术4.2.1归纳学习的信息论方法利用信息论的原理建立决策树或者是决策规则树。(1)ID3方法(决策树方法)Quiulan研制的ID3方法是利用信息论中互信息建立决策树。(2)IBLE方法(决策规则树方法)IBLE方法,是利用信息论中信道容量,寻找数据库中信息量大的多个字段的取值建立决策规则树。4.2.2归纳学习的集合论方法(1)粗糙集(RoughSet)方法对数据库中的条件属性集与决策属性集建立上下近似关系,对下近似集合建立确定性规则,对上近似集合建立不确定性规则(含可信度)。(2)关联规则挖掘关联规则挖掘是在交易事务数据库中,挖掘出不同项(商品)集的关联关系,即发现哪些商品频繁地被顾客同时购买。(3)覆盖正例排斥反例方法它是利用覆盖所有正例,排斥所有反例的思想来寻找规则。比较典型的有AQ11方法,AQ15方法以及AE5方法。(4)概念树方法对数据库中属性字段建立具有层次结构的概念树,利用概念树提升的方法可以大大浓缩数据库中的记录。4.2.3仿生物技术的神经网络方法1.前馈式网络它以感知机、BP反向传播模型、函数型网络为代表。此类网络可用于预测、模式识别等方面。2.反馈式网络它以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。3.自组织网络它以ART模型、Kohonen模型为代表。它们用于聚类。4.2.4仿生物技术的遗传算法(1)繁殖(选择)从一个旧种群(父代)选择出生命力强的个体产生新种群(后代)的过程。(2)交叉(重组)选择两个不同个体(染色体)的部分(基因)进行交换,形成两个新个体。(3)变异(突变)对某些个体的某些基因进行变异(1变0,0变1),形成新个体。在工程和科学数据库中对若干数据项(变量)进行一定的数学运算,求得相应的数学公式。1.物理定律发现系统BACONBACON发现系统完成了物理学中大量定律的重新发现。2.经验公式发现系统FDDFDD发现系统,寻找由数据项的初等函数或复合函数组合成的经验公式。4.2.5数值数据的公式发现4.2.6可视化技术可视化技术是一种图形显示技术。例如,把数据库中多维数据变成多种图形,这对于揭示数据中内在本质以及分布规律起到很强的作用。对数据挖掘过程可视化,并进行人机交互可提高数据挖掘的效果。可视化数据挖掘是创建可视化的数据挖掘模型,利用这些模型发现业务数据集中存在的模式,从而辅助决策支持及预测新的商机。4.3数据挖掘的知识表示4.3.1规则知识4.3.2决策树知识4.3.3知识基(浓缩数据)4.3.4神经网络权值4.3.5公式知识4.3.6案例4.3.1规则知识规则知识由前提条件和结论两部分组成前提条件由字段项(属性)的取值的合取(与?)和析取(或?)组合而成。结论为决策字段项(属性)的取值或者类别组成。例如:上例的人群数据库,按ID3方法得到的决策树如下:4.3.2决策树知识例如上例的人群数据库,通过属性约简计算可以得出身高是不重要的字段,删除它后,再合并相同数据元组,得到浓缩数据如下表:4.3.3知识基(浓缩数据)4.3.4神经网络权值神经网络方法经过对训练样本的学习后,所得到的知识是网络连接权值和结点的阈值。一般表示为矩阵和

您可能关注的文档

文档评论(0)

AI智博信息 + 关注
实名认证
文档贡献者

Python数据挖掘

1亿VIP精品文档

相关文档