摘要
摘要
在近些年,树挖掘和模式分类已经成为数据挖掘中相当活跃的研究领域。
同时,由于数据多以连续流形式出现,需要考虑数据分布随时间而改变,例如
感知器网络、web日志、生物学中的各种酶分子结构等。发现有识别能力的模
式是树挖掘中一个重要的环节。同时,设计实时快速的分类算法是非常有必要
的,分类模型要适应数据分布的动态变化。目前对结构化数据的分类方法大多
是基于频繁子结构挖掘,然后通过排序剪枝等处理将频繁子结构与类关联得到
结构规则进而分类。现在成熟的树流分类算法主要有:使用代价敏感分类模型
的分类算法XRules,它发现大量满足用户最小支持度和置信度阈值的规则,然
后从中选取高质量的规则:以及先挖掘频繁闭树,随后采用boosting分类方法
的AdaTreeMiner算法等。
本文首先阐述了树挖掘理论的相关知识,分析了闭和最大频繁树模式挖掘
的优点,详细介绍了类相关模式挖掘中的思想和原理。与XRules相比,
AdaTreeMiner算法提高分类的算法时间,并考虑到概念漂移,但是其分类正确
率相对较低。本文提出的树流分类算法TSC,基于类相关模式,将SP-tree数据
结构引入到树模式的发现过程中。在该过程中,使用分支界限法提高搜索效率,
无需挖掘完全模式,另一方面对参考度不断更新从而避免后剪枝操作,得到的
树模式可直接用于分类。其次,对统计中的卡方度量进行优化,提高发现k-best
树模式的时间和空间效率;将得到的k.best树模式用于树流分类,方法简单高
效。此外,将一对多分类思想运用到树流分类上,解决多类分类问题中的效率
问题。
在合成数据集和真实数据集上的实验表明,本文提出的基于k.best树模式
的树流分类算法在分类正确率和运行效率方面较已往的算法具有一定的优势。
关键字:数据挖掘;树流: 分类; k-best树模式;相关度量
Abstract
Abstract
hasbecomea
recent tree and classification
In years,theminingpaRem quite
theclam
same mostof
indata the
activeareaofresearch mining.At time,because
toconsiderthedata
formacontinuous need
withthe of stream,we
emerges
of
distributionover assensornetworks,webvariety
time,such logs,a
changes
discriminativeiSan
structurein the
molecule biology.Finding pattem
enzyme
oftree iS to areal-timeand
necessarydesign
原创力文档

文档评论(0)