数据挖掘的常用方法.docxVIP

下载本文档

0
0
约2.37千字
约 3页
2023-10-06 发布于广东
举报
版权申诉

数据挖掘的常用方法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘的常用方法 1 ．提取数据的过程从技术的角度来看，数据采集是一个巨大的、不完整的、噪声模糊的、随机的和随机的数据集，其中包含了人们事先不知道的东西，但也是信息和知识的潜在过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。简而言之，数据挖掘其实是一类深层次的数据分析方法。 2 计算知识集的方法被采掘知识的类型在多数文献和DM软件中被称为数据挖掘任务.通常任务有：（1）总结规则采掘；（2）关联规则采掘；（3）分类规则采掘；（4）聚类规则采掘；（5）预测分析；（6）趋势分析；（7）偏差分析。为了完成上述任务，人们从统计学，人工智能和数据库等领域借用基础研究成果和工具，提出了多种方法。主要的采掘方法及其要点如下： (1）统计分析方法：主要用于完成总结知识和关联知识采掘。对关系表中各属性进行统计分析，找到它们之间存在的关系。在关系表的属性之间一般存在：(1)函数关系；(2)相关关系。对它们可采用回归分析、相关分析、主成分分析等统计分析方法。 (2）决策树：用于分类。利用信息论中信息增益寻找数据库中具有最大信息量的字段，建立决策树的一个结点，再根据字段的不同取值建立树的分支；在每个分支子集中重复建立下层结点和分支，这样便生成一棵决策树。接下来还要对决策树进行剪枝处理，然后把决策树转化为规则，利用这些规则可以对新事例进行分类。典型的决策树方法有分类回归树（CART）、ID3、C4.5等。 (3）神经网络：用于分类、聚类、特征采掘、预测和模式识别。神经网络模仿生物神经网络，本质上是一个分布式矩阵结构，它通过对训练数据的采掘逐步计算网络连接的权值。 (4）遗传算法：用于分类，关联规则采掘等。遗传算法模仿人工选择培育良种的思想，从一个初始规则集合开始，逐代地通过交换对象成员，评价并择优复制，逐代积累计算，最终得到优化的知识集。 (5）粗集：用于数据简化、数据意义评估、对象相似或差异性分析、因果关系及范式采掘等。 3 基于ap-模型的算法评价数据封装分析的方法最早由Charnes等人于1978年提出。随后，这一方法又被继续研究并应用到不同的领域。将此方法应用到数据挖掘算法评价时，可定义一个算法的效率为：这一定义同时考虑了数据挖掘算法的全部正特性和负特性，因而可对一个算法作出较为客观公正的评价。通常算法的正特性值和负特性值已经给出，所需的工作就是确定出各个正负特性的权值。假定我们是在对n个数据挖掘算法进行评价。考虑m个正特性，n个负特性。对算法k，设：pkx=正特性的值，uky=负特性的值，uky=正特性的权值，vky=负特性的权值。以Ek代表该算法的效率，则：由于每个pkx和nky均已知，所以可按照以下标准来确定权值uk y和vk y，即：使得Ek尽可能地接近100%。这样，在确定了权值以后，其它n-1个算法的效率都不应该超过100%。不难看出，这实际上是一个线性优问题，即对所有的正特性x和负特性y，确定出uk 1,uk 2，…，ukm和vk 1,vk 2，…，vk m的值，以使得Ek=100%最大。迄今，已存在着多种确定权值的方法，其中最为常用的是面向正特性的方法和面向负特性的方法。面向正特性的方法就是比例地减小正特性的值而同时保持算法仍然是有效的。与此类似，面向负特性的方法就是成比例的增加负特性的值而同时保持算法仍然是有效的。在确定出权值以后，效率为100%的算法即是有效的算法。为了对算法排名，我们可以使用AP-模型的方法。这一方法又可分为面向正特性的方法和面向负特性的方法。例如，在面向正特性的方法中，AP值为1.5就意味着可以将全部正特性的值同时减少50%而保持该算法仍然是有效的。 4 cumulate和estmerge的运行时间 Agrawal等人提出了一系列的关联规则挖掘算法，包括单层关联规则的挖掘和多层关联规则的挖掘。下面对这些算法进行评价。单层关联规则的挖掘算法Aprior,ApriorTid,AIS,SETM。多层关联规则挖掘算法Basic,Cumulate,EstMerge。 (1）最小支持度。最小支持度从2%递减至0.33%，而且随着最小支持度的不断降低，这一差距将明显增大。当最小支持度较高时，Cumulate和EstMerge的运行时间大致相同；但在最小支持度较低时，EstMerge要比Cumulate快2倍。 (2）交易量。交易量从105增加到107。Cumulate和EstMerge要比Basic快得多。随着交易量的增加，Cumulate所需的运行时间要比EstMerge长近1倍。 (3）分类的类别数。分类的类别从250个增加到1000个。发现分类类别的增加对算法性能的影响与减小最小支持度对算法的影响类似。这是因为随着分类类别的增加,一个特定类别将会出现在一项交易中的可能性也相应地减