特征选择算法的综述及基于某weka地性能比较.docx

下载文档 降价啦

3
0
约8.31千字
约 8页
2018-12-30 发布于安徽
举报
版权申诉
保障服务

特征选择算法的综述及基于某weka地性能比较.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘中的特征选择算法综述及基于WEKA的性能比较陈良龙（湖南大学信息科学与工程学院）摘要：自进入21世纪以来，随着信息技术的飞速发展，产生了海量的具有潜在应用价值的数据，将这些数据转换成有用的信息和知识的需求也越来越迫切，因此数据挖掘引起了信息产业界和整个社会的极大关注。特征选择作为一种常见的降维方法，在数据挖掘中起到不可忽视的作用。本文首先介绍了数据挖掘处理对象的趋势，然后概述了特征选择算法，最后通过数据挖掘软件WEKA比较了分别基于Filter和Wrapper方法的特征选择算法的性能。关键词：数据挖掘；特征选择；WEKA；Filter；Wrapper；性能比较 A survey of feature selection algorithm in Data Mining and the performance comparison based on WEKA Abstract: As the mass of data which have potential application and value have been created by the rapid development of information technology since the 21st century, the needs to transferring these data into useful information and knowledge are being more and more urgent, so the Data Mining caused the whole society and the information industry of great concern. Feature selection is critical to Data Mining for that it is a common method to reduce dimensions. The tendency of Data Mining’s handler object is first introduced in this paper, then introduction of the feature selection algorithm, and finally compared the performance of algorithms based on methods of Filter and Wrapper, respectively, by using WEKA (i.e. software used in Data Mining). Keywords: Data Mining; Feature selection; WEKA; Filter; Wrapper; Performance comparison 1 引言数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。还有很多和这一术语相近似的术语，如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作形成知识的源泉，就像从矿石中采矿一样。原始数据可以是结构化的，如关系数据库中的数据，也可以是半结构化的，如文本、图形、图像数据，甚至是分布在网络上的异构型数据。随着信息技术的飞速发展，越来越复杂的数据成为数据挖掘的处理对象，如文本数据、基因序列等。一般的，这些对象具有几十、几百甚至几万个属性。通过将这些对象表示成高维属性空间中的点或向量，把客观世界中的对象集用高维数据集合来表示[2]。然而，随着不相关属性的增加，训练样本的数目也将急剧增加[3]。一种解决的方法是建立高效的面向高维数据的算法，另外一种则是降低维度。并且特征选择(也叫属性约简)能够为特定的应用在不失去数据原有价值的基础上选择最小的属性子集，去除不相关的和冗余的属性；它能提高数据的质量，加快挖掘的速度并且使得挖掘出的规则更容易理解。 2 特征选择算法的4个要素一般特征选择算法必须确定以下4个要素：1)搜索起点和方向；2)搜索策略：3)特征评估函数；4)停止准则。 2.1 搜索起点和方向搜索起点是算法开始搜索的状态点，搜索方向是指评价的特征子集产生的次序。搜索的起点和方向是相关的，他们共同决定搜索策略。一般的，根据不同的搜索起点和方向，有以下4中情况：（1）前向搜索(SFG)：从空集S开始，依据某种评价标准，随着搜索的进行，从未被包含在S里的特征集中选择最佳的属性不断加入S。（2）后向搜索(SBG)：从全集S开始，依据某