数据挖掘分类算法综述.docxVIP

下载本文档

0
0
约9.47千字
约 9页
2023-12-04 发布于境外
举报
版权申诉

数据挖掘分类算法综述.docx

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘分类算法综述作为统计、人工智能和人工智能的交叉学科，近年来，数据处理逐渐成为研究的热点。几种数据处理技术已经提出并广泛使用，以从各种复杂数据中获取有用信息。随着信息的大量生成，需要处理的数据每天都在增加，而且没有上限。这些连续的数据流（数据集）中的有用信息已经成为我们必须面对的新考验。令t表示任一时间戳,at表示在该时间戳到达的数据,数据流可以表示成{…,at-1,at,at+1,…}.区别于传统的数据模型,数据流模型具有以下3个特点: 1) 数据高速到达,实时性要求高; 2) 数据规模宏大,不可能把所有的数据都放入内存甚至是硬盘; 3) 数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵. 传统的数据挖掘方法必须将数据全部存储到介质中,然后通过访问存储介质进行挖掘.由于数据流的快速到达和数据规模巨大等原因,传统数据挖掘技术难以满足其要求. 数据挖掘分类方法一般分为两个步骤:第1步首先根据一组已知目标类别的训练样本生成一个分类器,用以描述数据属性与目标类别的概念;第2步则根据前面生成的分类器对其他未经分类的测试数据进行分类,以评估由第1步所生成的分类器的精度. 分类方法根据训练样本获取方式的不同,分为增量式和非增量式两种.其中非增量式方法是当数据全部准备好后,再根据全部训练样本进行学习.而增量式方法则是在训练样本不能一次全部获取的情况下,先利用已获得的样本建立分类器,再用新到的样本修正之前的分类器,以使分类器能够适应最新的环境. 随着数据的快速产生,现实世界中的数据几乎已无法一次全部获得,而是以数据流的方式不断产生.每当新数据到达后,非增量式方法必须把新数据和以前所获取的全部数据综合起来进行重新训练构造新分类器.这种方法必须记录不断产生的新数据,将造成十分庞大的存储成本,并且对于一些实时性要求比较高的应用,不但效率差,而且无法提供及时的反馈,因此非增量式方法对于数据流挖掘分类不是很适用,而增量式方法越来越受到重视. 1 流变挖掘中的概念误差在数据流挖掘分类方法的应用上,如电子邮件的区分、个性化网站、电脑入侵检测等,因为无法在一个分类器建立完成前获取到所有适合用来做训练样本的数据,因此必须采用增量式方法. 增量式方法又称为在线式、连续式或序列式方法等,定义为St={(x,y)|y=f(x)},t=1,2,…,∞. 数据流挖掘的增量式方法一般都假设取得的样本是由平稳分布的数据中所获得.但现实世界中,新数据的概念可能会随着时间的延续而与历史数据产生改变,定义为St={(x,y)|y=f(x)+st},t=1,2,…,∞. 代表数据集合是由伴随着时间变化参数的函数所产生的,以致相同的条件可能会产生不同的行动.这种概念随着时间延续而改变的情形,称为概念漂移. 在研究数据流挖掘的过程中,最初都是假设数据是平稳分布的,更注重的是如何解决数据流中大数据样本的问题.后来,在传统机器学习研究领域关于概念漂移解决方法的基础上,很多研究者提出了解决数据流上概念漂移问题的分类技术. 1.1 分类数据的稳定 1.1.1 vfmd评估函数 VFDT(very fast decision tree)是一种基于Hoeffding不等式建立决策树的方法,它通过不断地将叶节点替换为决策节点而生成.其中每个叶节点都保存有关于属性值的统计信息,这些统计信息用于计算基于属性值的测试.当一个新样本到达后,在沿着决策树从上到下遍历的过程中,它在树的每个节点都进行划分测试,根据不同的属性取值进入不同的分支,最终到达树的叶节点.当数据到达叶节点后,节点上的统计信息就被更新,同时该节点基于属性值的测试值就被重新计算.如果统计信息计算显示测试满足一定的条件,则该叶节点变为决策节点.新的决策节点根据属性的可能取值的数目产生相应数目的子女叶节点.决策节点只保存该节点的划分测试所需要的信息. 假设评估函数用信息增益函数,记为H(·).对于离散值属性,每个叶节点保存的统计信息是nijk(用于表示该节点属性j的取值为i的最终分类k的样本数目).信息增益用于表达计算分类到达该节点的样本所需要的信息,其计算公式为H(Aj)=info(examples)-info(Aj),属性j的熵为info(Aj)=∑iPi(∑k?Piklog2(Pik))info(Aj)=∑iΡi(∑k-Ρiklog2(Ρik)),其中Pik=nijk∑anajkΡik=nijk∑anajk表示类别k已知的情况下属性值取i的概率. VFDT的最主要的创新是利用Hoeffding不等式确定叶节点进行划分所需要的样本数目.假设变量r范围为R,观测n个样本后,样本观测平均值为rˉrˉ,则样本真值以概率1-δ保证至少为rˉ?εrˉ-ε,其中ε=R2ln(1?δ)2n???????√ε=R2l