知识发现方法研.pdf

下载文档 降价啦

62
0
约20.41万字
发布于贵州
举报
版权申诉
保障服务
文档已下架，其它文档更精彩

知识发现方法研.pdf

1、本文档被系统程序自动判定探测到侵权嫌疑，本站暂时做下架处理。
2、如果您确认为侵权，可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理，应急电话：400-050-0827。
3、此文档由网友上传，因疑似侵权的原因，本站不提供该文档下载，只提供部分内容试读。如果您是出版社/作者，看到后可认领文档，您也可以联系本站进行批量认领。

知识发现方法研

摘要储着计算机、网络和通讯等信息技术的高速发展，人类开始步入信息时代。人们在日常生活中产生了大量的数据。面对“堆积如山”的数据集合，传统的数据分析手段已经难以应付，人们无法理解并有效地使用这些数据，由此导致越来越严重的“数据灾难”。 in Discovery 因此，一门新兴的信息自动提取技术一一数据库知识发现(Knowledge Database，KDD)应运而生并得到迅速发展。它的出现为自动和智能地把海量的数据转提出了若干知识发现新方法，大大提高了挖掘效率、改善了挖掘精度。本文的主要内容如下：对目前研究工作较少、但在知识发现过程中又非常重要的环节——数据预处理进行了较为深入的研究。僵点讨论了数据约简的问题，并提出了两个属性特征子集的选择算 Set，RS)理论中约简和核的定义，提出了基于Rs的特征属法。根据粗糙集(Rough 性选择算法。通过对UCI数据的测试结果表明，该算法具有较好的属性约简作用。由于最优特征属性的选择问题是NP困难问题，因此在RS理论的基础上，与遗传算法相结合，设计了一个启发式特征属性选择算法，解决了高维、大容量数据集合的特征属性选择问题。r，／／，对知识发现中的规则发现方法进行深入的探讨。(针对多层次概念的归纳学习问题，采用遗传算法的思想对问题空间进行编码，利用遗传算法的空间搜索能力进行多层次概念空间的规则搜索，解决了传统面向属性的概念归纳学习方法中在提升属性的选择和提升高度的确定等方面存在的一些问题，获得了较好的效果。针对知识获取方面存在的不完整性，我们又拓宽了知识发现的空间，提出了“知识挖掘”的概念，把规则作为新的挖掘对象做进一步的挖掘，给出了知识挖掘的有效算法。该算法巧妙地将规则表示为知识树，用遗传算法对知识树进行进化，进而从已知规则中得到适应性更强，更有普遍意义的新规则。y-7 针对传统知识发现领域中最活跃的研究课题——文本挖掘(Text Mining)中的一些关键问题进行了重点研究。f采用向量空间模型(VSM)来表示文本，针对文本向量维数较大、冗余词条太多的问题，提出了两个文本特征向量获取算法：改进型GA算法 (AGA．FVAA)和基于协同演化GA的特征向量获取算法。前者针对文本特征词条个数不能预先确定的特点，提出动态遗传算法的思路，采用动态链表结构来表示个体，改变了传统遗传算法中染色体长度固定不变的设计模式。后者针对同类多文本的集体特征向量获取问题，采用协同演化的思路，提出了基于协同演化GA的多文本特征向量提取算法。该算法对每个训练文本设计一个子种群，用不同子种群中的个体来互相评价、互相竞争和协同演化，最终获得训练文本集的集体特征表示。实验证明，这两种方法都收到了令人满意的效果。·一7 针对传统文本分类模型存在的不足，提出了一个基于语义模糊加权的文本分类新模型。在该分类模型中，充分考虑了语义的模糊性问题，增加了词条的加权、语义的模糊等处理，克服了传统词条权重计算中只考虑词频的不足。从而构造出更能表征原文的文本向量。培后根据模糊神经网络的思路，提出了一个基于模糊推理的文本分类器，该分 ’ 类器基于模糊特征向量，提高了文本分类的正确性。5 作为知识发现技术的实际应用，我们设计并实现了一个知识发现原型系统一一 RoboMiner。主要介绍了该系统的结构框架、设计思想和实现过程中所遇问题的解决方案，并从实际应用的角度介绍了RoboMiner的一些主要操作界面。关键词：知识发现粗糙集遗传算法文本挖掘约简原型系统文本分类 on Methods Studies

您可能关注的文档

知传链电子书

文档评论（0）

chuotuo0075779 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

知识发现方法研.pdf