知识发现方法研.pdf

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
知识发现方法研

摘 要 储着计算机、网络和通讯等信息技术的高速发展,人类开始步入信息时代。人们在 日常生活中产生了大量的数据。面对“堆积如山”的数据集合,传统的数据分析手段已 经难以应付,人们无法理解并有效地使用这些数据,由此导致越来越严重的“数据灾难”。 in Discovery 因此,一门新兴的信息自动提取技术一一数据库知识发现(Knowledge Database,KDD)应运而生并得到迅速发展。它的出现为自动和智能地把海量的数据转 提出了若干知识发现新方法,大大提高了挖掘效率、改善了挖掘精度。本文的主要内容 如下: 对目前研究工作较少、但在知识发现过程中又非常重要的环节——数据预处理进行 了较为深入的研究。僵点讨论了数据约简的问题,并提出了两个属性特征子集的选择算 Set,RS)理论中约简和核的定义,提出了基于Rs的特征属 法。根据粗糙集(Rough 性选择算法。通过对UCI数据的测试结果表明,该算法具有较好的属性约简作用。由 于最优特征属性的选择问题是NP困难问题,因此在RS理论的基础上,与遗传算法相 结合,设计了一个启发式特征属性选择算法,解决了高维、大容量数据集合的特征属性 选择问题。r,// , 对知识发现中的规则发现方法进行深入的探讨。(针对多层次概念的归纳学习问题, 采用遗传算法的思想对问题空间进行编码,利用遗传算法的空间搜索能力进行多层次概 念空间的规则搜索,解决了传统面向属性的概念归纳学习方法中在提升属性的选择和提 升高度的确定等方面存在的一些问题,获得了较好的效果。针对知识获取方面存在的不 完整性,我们又拓宽了知识发现的空间,提出了“知识挖掘”的概念,把规则作为新的 挖掘对象做进一步的挖掘,给出了知识挖掘的有效算法。该算法巧妙地将规则表示为知 识树,用遗传算法对知识树进行进化,进而从已知规则中得到适应性更强,更有普遍意 义的新规则。y-7 针对传统知识发现领域中最活跃的研究课题——文本挖掘(Text Mining)中的一些 关键问题进行了重点研究。f采用向量空间模型(VSM)来表示文本,针对文本向量维 数较大、冗余词条太多的问题,提出了两个文本特征向量获取算法:改进型GA算法 (AGA.FVAA)和基于协同演化GA的特征向量获取算法。前者针对文本特征词条个数 不能预先确定的特点,提出动态遗传算法的思路,采用动态链表结构来表示个体,改变 了传统遗传算法中染色体长度固定不变的设计模式。后者针对同类多文本的集体特征向 量获取问题,采用协同演化的思路,提出了基于协同演化GA的多文本特征向量提取算 法。该算法对每个训练文本设计一个子种群,用不同子种群中的个体来互相评价、互相 竞争和协同演化,最终获得训练文本集的集体特征表示。实验证明,这两种方法都收到 了令人满意的效果。·一7 针对传统文本分类模型存在的不足,提出了一个基于语义模糊加权的文本分类新模 型。在该分类模型中,充分考虑了语义的模糊性问题,增加了词条的加权、语义的模糊 等处理,克服了传统词条权重计算中只考虑词频的不足。从而构造出更能表征原文的文 本向量。培后根据模糊神经网络的思路,提出了一个基于模糊推理的文本分类器,该分 ’ 类器基于模糊特征向量,提高了文本分类的正确性。5 作为知识发现技术的实际应用,我们设计并实现了一个知识发现原型系统一一 RoboMiner。主要介绍了该系统的结构框架、设计思想和实现过程中所遇问题的解决方案, 并从实际应用的角度介绍了RoboMiner的一些主要操作界面。 关键词:知识发现粗糙集遗传算法文本挖掘 约简原型系统文本分类 on Methods Studies

文档评论(0)

chuotuo0075779 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档