树模式挖掘及在树流分类中的应用的研究.pdf

下载文档 降价啦

2
0
约 46页
2015-11-01 发布于安徽
举报
保障服务

树模式挖掘及在树流分类中的应用的研究.pdf

摘要摘要在近些年，树挖掘和模式分类已经成为数据挖掘中相当活跃的研究领域。同时，由于数据多以连续流形式出现，需要考虑数据分布随时间而改变，例如感知器网络、web日志、生物学中的各种酶分子结构等。发现有识别能力的模式是树挖掘中一个重要的环节。同时，设计实时快速的分类算法是非常有必要的，分类模型要适应数据分布的动态变化。目前对结构化数据的分类方法大多是基于频繁子结构挖掘，然后通过排序剪枝等处理将频繁子结构与类关联得到结构规则进而分类。现在成熟的树流分类算法主要有：使用代价敏感分类模型的分类算法XRules，它发现大量满足用户最小支持度和置信度阈值的规则，然后从中选取高质量的规则：以及先挖掘频繁闭树，随后采用boosting分类方法的AdaTreeMiner算法等。本文首先阐述了树挖掘理论的相关知识，分析了闭和最大频繁树模式挖掘的优点，详细介绍了类相关模式挖掘中的思想和原理。与XRules相比， AdaTreeMiner算法提高分类的算法时间，并考虑到概念漂移，但是其分类正确率相对较低。本文提出的树流分类算法TSC，基于类相关模式，将SP-tree数据结构引入到树模式的发现过程中。在该过程中，使用分支界限法提高搜索效率，无需挖掘完全模式，另一方面对参考度不断更新从而避免后剪枝操作，得到的树模式可直接用于分类。其次，对统计中的卡方度量进行优化，提高发现k-best 树模式的时间和空间效率；将得到的k．best树模式用于树流分类，方法简单高效。此外，将一对多分类思想运用到树流分类上，解决多类分类问题中的效率问题。在合成数据集和真实数据集上的实验表明，本文提出的基于k．best树模式的树流分类算法在分类正确率和运行效率方面较已往的算法具有一定的优势。关键字：数据挖掘；树流：分类； k-best树模式；相关度量 Abstract Abstract hasbecomea recent tree and classification In years，theminingpaRem quite theclam same mostof indata the activeareaofresearch mining．At time，because toconsiderthedata formacontinuous need withthe of stream，we emerges of distributionover assensornetworks，webvariety time，such logs，a changes discriminativeiSan structurein the molecule biology．Finding pattem enzyme oftree iS to areal-timeand necessarydesign

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

树模式挖掘及在树流分类中的应用的研究.pdf