- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
知识发现方法研
摘 要
储着计算机、网络和通讯等信息技术的高速发展,人类开始步入信息时代。人们在
日常生活中产生了大量的数据。面对“堆积如山”的数据集合,传统的数据分析手段已
经难以应付,人们无法理解并有效地使用这些数据,由此导致越来越严重的“数据灾难”。
in
Discovery
因此,一门新兴的信息自动提取技术一一数据库知识发现(Knowledge
Database,KDD)应运而生并得到迅速发展。它的出现为自动和智能地把海量的数据转
提出了若干知识发现新方法,大大提高了挖掘效率、改善了挖掘精度。本文的主要内容
如下:
对目前研究工作较少、但在知识发现过程中又非常重要的环节——数据预处理进行
了较为深入的研究。僵点讨论了数据约简的问题,并提出了两个属性特征子集的选择算
Set,RS)理论中约简和核的定义,提出了基于Rs的特征属
法。根据粗糙集(Rough
性选择算法。通过对UCI数据的测试结果表明,该算法具有较好的属性约简作用。由
于最优特征属性的选择问题是NP困难问题,因此在RS理论的基础上,与遗传算法相
结合,设计了一个启发式特征属性选择算法,解决了高维、大容量数据集合的特征属性
选择问题。r,//
,
对知识发现中的规则发现方法进行深入的探讨。(针对多层次概念的归纳学习问题,
采用遗传算法的思想对问题空间进行编码,利用遗传算法的空间搜索能力进行多层次概
念空间的规则搜索,解决了传统面向属性的概念归纳学习方法中在提升属性的选择和提
升高度的确定等方面存在的一些问题,获得了较好的效果。针对知识获取方面存在的不
完整性,我们又拓宽了知识发现的空间,提出了“知识挖掘”的概念,把规则作为新的
挖掘对象做进一步的挖掘,给出了知识挖掘的有效算法。该算法巧妙地将规则表示为知
识树,用遗传算法对知识树进行进化,进而从已知规则中得到适应性更强,更有普遍意
义的新规则。y-7
针对传统知识发现领域中最活跃的研究课题——文本挖掘(Text
Mining)中的一些
关键问题进行了重点研究。f采用向量空间模型(VSM)来表示文本,针对文本向量维
数较大、冗余词条太多的问题,提出了两个文本特征向量获取算法:改进型GA算法
(AGA.FVAA)和基于协同演化GA的特征向量获取算法。前者针对文本特征词条个数
不能预先确定的特点,提出动态遗传算法的思路,采用动态链表结构来表示个体,改变
了传统遗传算法中染色体长度固定不变的设计模式。后者针对同类多文本的集体特征向
量获取问题,采用协同演化的思路,提出了基于协同演化GA的多文本特征向量提取算
法。该算法对每个训练文本设计一个子种群,用不同子种群中的个体来互相评价、互相
竞争和协同演化,最终获得训练文本集的集体特征表示。实验证明,这两种方法都收到
了令人满意的效果。·一7
针对传统文本分类模型存在的不足,提出了一个基于语义模糊加权的文本分类新模
型。在该分类模型中,充分考虑了语义的模糊性问题,增加了词条的加权、语义的模糊
等处理,克服了传统词条权重计算中只考虑词频的不足。从而构造出更能表征原文的文
本向量。培后根据模糊神经网络的思路,提出了一个基于模糊推理的文本分类器,该分
’
类器基于模糊特征向量,提高了文本分类的正确性。5
作为知识发现技术的实际应用,我们设计并实现了一个知识发现原型系统一一
RoboMiner。主要介绍了该系统的结构框架、设计思想和实现过程中所遇问题的解决方案,
并从实际应用的角度介绍了RoboMiner的一些主要操作界面。
关键词:知识发现粗糙集遗传算法文本挖掘 约简原型系统文本分类
on Methods
Studies
您可能关注的文档
最近下载
- 2025年河北省政府采购评审专家考试题库(含答案).docx VIP
- 电动重卡充电站建设方案.docx VIP
- 一种白肉灵芝-魔芋胶压片糖果及其制备方法.pdf VIP
- 20J333 建筑防腐蚀构造.docx VIP
- 24J113-1 内隔墙-轻质条板(一).docx
- 保护区安全准入复习试题附答案.doc
- 工厂分伙协议合同.docx VIP
- 古韵悠长 第一课《雕梁画栋》课件 2024——2025学年人美版(2024)初中美术七年级上册.pptx VIP
- TCECS1517-2023 装配式压制玻璃钢排水检查井应用技术规程.pdf VIP
- 《企业安全生产培训需求分析与课程设计》PPT课件.pptx VIP
原创力文档


文档评论(0)