- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
粗集和神经网络的混合数据挖掘方法
基于粗集和神经网络的混合挖掘方法
[关键词] 数据挖掘 粗集 神经网络
一、引 言
随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润,而这种从海量数据库中挖掘信息的技术,就称之为数据挖掘(Data Mining-DM) 。 [1]
粗集理论是一种刻画不完整性和不确定性信息的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律[2]。粗集理论以观察和测量所得的数据并进行分类的方法为基础,它认为知识是基于对对象分类的能力,知识直接与真实或抽象世界有关的不同分类模式联系在一起。粗集用上近似、下近似和边界来刻画信息的不确定性。
神经网络是通过网络中各连接权值的改变,实现信息的处理和存储。在神经网络中每个神经元既是信息的存储单元,又是信息的处理单元,信息的处理与存储合二为一,由这些神经元构成的网络在每个神经元的共同作用下,完成对输入模式的识别与记忆。人工神经网络以神经元间广泛的互连分布来存贮信息,以非线性神经元来协同处理信息。因此,它具有大规模并行处理、极强的鲁棒性和容错性,很强的自学习功能。
二、粗集和神经网络集成方法概述:(1)将粗集作为神经网络的前端处理器(2)强耦合方式:即先用粗集分析决策表得到初始规则,然后用神经网络精化。(3)粗神经网络:在普通BP网的输入层和隐层之间加一个粗神经元(全互连接),以抑制输入层数据的波动。(4) 用粗集优化神经网络的结构。除上述结合模式外,还存在许多新的集成方式。
在现行的各种结合方式中,粗集理论的属性约简是其中的重要组成部分之一,通过用其对神经网络的训练数据进行约简,减少网络学习所需数据量,达到进一步改善神经网络学习效率和精度的目的。然而在实际应用中,对于一些规模较大的网络,粗集的处理效率还值得深入研究。由于基于并行遗传算法的属性约简方法可有效解决数据量大、维数多时的快速约简问题,因而我们可考虑首先用其对神经网络的输入空间进行快速选取,在此基础上用神经网络进行数据挖掘,以进一步提高应用粗集和神经网络对大型实际数据库进行挖掘时的效率。
三、一种新的集成化算法
对样本数据进行分析,然后据己知的领域知识形成一个初始的信息表,采用合理的离散方法对连续属性进行离散化,用基于遗传算法的并行约简算法对数据进行快速属性约简(水平约简),以约简后的属性作为输入层神经元,然后对数据进行垂直约简,包括消除数据中的不一致对象和冗余对象,最后用神经网络对处理后的精简数据进行训练。并行约简算法的引入可以进一步提高粗集和神经网络模型的整体挖掘效率。处理过程如图1所示。
图1 数据处理流程图
(二)算法各组成部分
(1)连续属性离散化:用粗集方法对数据进行分析前,需要将连续变量离散化,离散化本质上可归结为利用选取的断点来对条件属性构成的空间进行划分的问题,把n维空间划分成有限个区域,使得每个区域中的对象的决策值相同。常用的方法有:距离划分方法、等频率划分方法、Naive Scaler方法等。
(2)决策表形成:采用量化后的条件属性和决策属性值形成一张二维表格每一行描述一个对象,每一列对应对象的一种属性。
(3)属性约简:决策表属性约简的过程,就是从决策表系统的条件属性中去掉不必要的的条件属性,从而分析所得到约简中的条件属性对于决策属性的决策规则。本文所用流程:
输入:条件属性集合C={Y11,Y12,……,Y53},决策属性集合D={d};
输出:一个属性约简集合REDU
Step1:计算条件属性C有D正域POSC(D);
Step2:对属性Yij∈C,计算去除它所得到的条件属性子集C\{Yij}的D正域POSc\{Yij}(D);
Step3:如果POSc\{Yij}(D) =POSC(D),则说明属性Yij对于决策属性d是不必要的,这时C= C\{Yij},转step2;否则,输出属性约简REDU=C。
(4)对象约简:消除数据中的不一致对象和冗余对象,不一致对象为条件属性相同而决策属性不同的对象,冗余对象为条件属性相同而决策属性也相同的对象。
(5)神经网络模型确定:神经网络按类型可分为:BP网络、ART网络、RBF网络和LVM 网络等,本文采用最常用的BP网络。
(6)网络的学习与检验:根据神经网络模型输入,从初始连续属性决策表选择相应的训练数据和属性对网络训练,并用相应的测试样本进行测试。
(三)方法实践
现将此方法应用于某超市会员购物的分析决策中,下面以会员特征分析为例进行说明:营销分析人员希望分析出某段时间内,对顾客在超市购物的变化起决定性作用的客户特征,并以此为基础对未来顾客的消费趋势进行预测。其中,顾客这一主题所涉及
文档评论(0)