- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于人工神经网络的数据挖掘技术研究综述.doc
基于人工神经网络的数据挖掘技术研究综述
20094227083 朱旭东
摘要 探讨了数据挖掘技术的准备工作,介绍传统人工神经网络算法在数据挖掘中作用,并对改进的神经网络和模糊神经网络进行介绍。
l 引言
神经网络是模拟人脑神经的活动,在生物神经网络研究的基础上,根据生物神经元和神经网络的特点,通过简化、归纳,提炼总结出来的一类并行处理网络,利用其非线性映射的
思想和并行处理的方法,用神经网络本身的结构来表达输入和输出的关联知识。
尽管神经网络具有结构复杂、可解释性差、网络训练时间长、结果表示不容易理解等缺陷,但就预测问题而言,人工神经网络技术对噪声数据的高承受能力和低错误率的优点是其他方法所不及的。起初,神经网络在数据挖掘中的应用未被看好,但各种网络训练算法的陆续提出与优化,尤其是各种网络剪枝算法和规则提取算法的不断提出与完善,使得神经网络在数据挖掘中的应用越来越为广大使用者所青睐。该文对基于神经网络的数据挖掘进行了详细的研究,首先探讨基于神经网络的数据挖掘的过程,再对标准的BP算法进行介绍,再对各种改进的神经网络算法以及模糊神经网络在数据挖掘中的应用和发展做了归纳.
2 数据挖掘前的数据准备
2.1数据准备
数据准备就是对被开采数据进行定义、处理和表示,使它适应于特定的数据挖掘方法。数据准备是整个开采过程中的第一个重要步骤,在整个数据挖掘过程中起着举足轻重的作
用。由于神经网络方法的特殊性,数据准备更显得尤为重要。它主要包括如下四个过程:
(1)数据清洗:数据清洗就是填充数据中的空缺值,消除噪声数据,纠正数据中的不一致数据。因为数据仓库中的数据来源于异质操作数据库,这些异质操作数据库中的数据并非都是正确的,常常不可避免地存在着不完整、不一致、不精确和重复的脏数据。数据清冼可以在数据装入数据仓库之前或之后进行。目前最常用的数据清洗方法有基于规则的方法、可视化的方法和统计的方法。
(2)数据选择:数据选择就是选择用于本次挖掘的数据列和行:在绝大多数情况下,虽然人们无法精确地知道哪些参数是对决策最重要的,但神经网络可以帮助人们建立一个与参数相关的模型,进而帮助确定哪些是最重要的参数。数据选择实际上是在两个维上进行的。首先是列或参数维的选择,其次是行或记录维的选择。
(3)数据预处理:数据预处理就是对选择后的干净数据进行增强处理。这种增强处理有时意味着根据一个或多个字段产生新的数据项,有时意味着用一个信息量更大的字段去代替若干个字段: 应该说明的是,输入亨段的数目不应该是提供给数据挖掘算法信息量的量度。因为有些数据可能是冗余的,也就足说,有些属性只不过是相同事实的不同度量方式而已。
(4)数据表示:数据表示就是将数据预处理后的数据转化成基于神经网络的数据挖掘算法可以接受的形式。基于神经网络的数据挖掘只能处理数值数据,因此需要将符号数据转化为数值数据。最简单的方法就是建立一个符号数据和数值数据一一对应的对照表。另一种比较复杂的方法就是采用合适的Hash函数,根据给定的字符串产生一个唯一的数值数据。尽管关系数据库中有许多数据类型,但是它们基本上都可简单地归结为符号数据、离散数值数据和连续数值数据三种逻辑数据类型。
2.2 规则提取
规则的提取方法很多,其中最为常用的方法有如下几种。
(1)LRE的方法:用LRE(Link Rule Extraction)的方法对MLP(多层感知器)进行规则提取主要有两步:第一,对网络中的每一隐层结点和输出结点,搜索不同的输入组合使得输入加
权和大于当前结点的阈值:第二,对每个组合产生一条规则,其前提是各个输入条件的合取。Either、KT、Subset算法就是LRE方法中有代表性的三种方法。这三种方法的优点是所产生的规则较容易理解;缺点是搜索空间大、搜索效率低、前后产生的规则有可能发生重复以及不能保证所有有用的规则都被产生出来。针对这些算法的缺点,Towell等提出了MorN方法,该方法的基本思想是将所有权值分成若干个等价类,在每个等价类中的成员的作用基本相似,因而可以相互互换。Morn方法通过六个步骤,从训练好的神经网络中提取规则,它们分别是:分类(将连接权分成若干个等价类);平均(将每个等价类中的权值平均化);去除(去除对神经元作用较小的等价类);优化(在去除了部分连接权后对神经元的阈值进行优化);提取(从优化后的神经网络中提取规则);简化(简化上述规则,以便容易理解)。
(2)黑盒的方法:黑盒的方法仅考虑从前馈神经网络的输入和输出的行为来提取规则,之所以称它为黑盒方法,是因为使用该方法在提取规则时不考虑神经网络的类型和结构,只关心网络的输入与输出之间的映射关系。Saito and Nakano为了从训练好的神经网络提取医疗诊断规则而提出的改进算法就是该方法的一个典型的例子。
(3)提取
您可能关注的文档
- 寂寞高手——中国股市内在规律研究和实战操作
- 秘密规则--股市职业炒盘手自述_(完全篇)
- 投资王道 证券分析实践 txtUMD TXT BRM 格式手机书下
- 一个美国资本家的成长:世界首富沃伦·巴菲特传
- Visual C++ 程序员指南(一).pdf
- 1-semantic deep web-automatic attribute extraction from the
- 2-Automatic Generation of Ontology from the Deep Web.pdf
- A Framework of Deep Web Crawler.pdf
- A Holistic Approach on Deep Web Schema Matching .pdf
- A Machine Learning Approach Classification of Deep Web Sourc
文档评论(0)