用MATLAB实现大数据挖掘地一种算法.doc

下载文档 降价啦

4
0
约1.06万字
约 16页
2019-04-12 发布于安徽
举报
版权申诉
保障服务

用MATLAB实现大数据挖掘地一种算法.doc

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一、数据挖掘的目的数据挖掘(Data Mining)阶段首先要确定挖掘的任务或目的。数据挖掘的目的就是得出隐藏在数据中的有价值的信息。数据挖掘是一门涉及面很广的交叉学科，包括器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。它也常被称为“知识发现”。知识发现(KDD)被认为是从数据中发现有用知识的整个过程。数据挖掘被认为是KDD过程中的一个特定步骤，它用专门算法从数据中抽取模式(patter，如数据分类、聚类、关联规则发现或序列模式发现等。数据挖掘主要步骤是：数据准备、数据挖掘、结果的解释评估。二、数据挖掘算法说明确定了挖掘任务后，就要决定使用什么样的挖掘算法。由于条件属性在各样本的分布特性和所反映的主观特性的不同, 每一个样本对应于真实情况的局部映射。建立了粗糙集理论中样本知识与信息之间的对应表示关系, 给出了由属性约简求约简决策表的方法。基于后离散化策略处理连续属性, 实现离散效率和信息损失之间的动态折衷。提出相对值条件互信息的概念衡量单一样本中各条件属性的相关性, 可以充分利用现有数据处理不完备信息系统。本次数据挖掘的方法是两种，一是找到若干条特殊样本，而是找出若干条特殊条件属性。最后利用这些样本和属性找出关联规则。（第四部分详细讲解样本和属性的选择）三数据预处理过程数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型数据，以便于符号归纳，或是把离散型数据转换为连续)。本文使用的数据来源是名为“CardiologyCategorical”的excel文件中的“源数据”。该数据表共303行，14个属性。即共有303个样本。将该数据表的前200行设为训练样本，剩下后的103行作为测试样本，用基于粗糙集理论的属性约简的方法生成相应的规则，再利用测试样本对这些规则进行测试。首先对源数据进行预处理，主要包括字符型数据的转化和数据的归一化。数据预处理的第一步是整理源数据，为了便于matlab读取数据，把非数字数据转换为离散型数字数据。生成lisanhua.xsl文件。这一部分直接在excel工作表中直接进行。步骤如下：将属性“sex”中的“Male”用“1”表示，“Female”用“2”表示；将属性“chest pain type”中的“Asymptomatic”用“1”表示，“Abnormal Angina”用“2”表示，“Angina”用“3”表示，“NoTang”用“4”表示；将属性“Fasting blood suga120”与属性“angina”中的“FALSE”用“1”表示，“TRUE”用“2”表示；将属性“resting ecg”中的“Hyp” 用“1” 表示，“Normal”用“2”表示，“Abnormal”用“3”表示；将属性“slope”中的“Down”用“1”表示，“Flat”用“2”表示，“Up”用“3”表示,；将属性“thal”中的“Rev”用“1”表示，“Normal”用“2”表示，“Fix”用“3”表示；将属性“class”中的“Healthy”用“1”表示，“Sick”用“2”表示；数据预处理的第二步：使用 dm=xlsread(lisanhua); 导入’lisanhua’.xls文件，在MATLAB中对一些连续属性值离散化。如下： 1、[29,48]=1，[48,62]=2，[62,77]=3 4、[94,110]=1，[110,143]=2，[143,200]=3 5、[126,205]=1，[205,293]=2，[293，564]=3 8、[71,120]=1，[120,175]=2，[175,202]=3 10、[0,1.5]=1，[1.5,2.5]=2，[2.5,6.2]=3。然后对数据进行归一化处理：由于不同属性之间的属性值相同，所以利用下面语句对一共13个条件属性中的38个属性进行如下赋值，使每条属性唯一确定。从而得到38个条件属性，只不过38个里面有且只能出现13个。程序如下： m1=[0,3,2,4,3,3,2,3,3,2,3,3,4,3];k=1;w=m1(k);dm3=dm2; for i=1:3939 dm3(i)=dm2(i)+w; if rem(i,303)==0 k=k+1; w=w+m1(k); end end 从而得到dm(3)矩阵。而且决策属性分为1：healthy；2：sick。并且在38个条件属性中没有值为0。四、挖掘算法 1、特殊样本首先在前200条样本中分别找出三条对应两种决策属性的重要样本，样本必须满足在同类决策属性下其他199条的13条决策属性中和它的13条