特征选择技术在大数据背景下的挑战.docxVIP

  • 7
  • 0
  • 约 13页
  • 2016-08-24 发布于湖北
  • 举报

特征选择技术在大数据背景下的挑战.docx

特征选择技术在大数据背景下的挑战

特征选择技术在大数据背景下的挑战1 介绍在一个增长的时代数据复杂性和体积和大数据的出现,特征选择扮演一个关键的角色在帮助降低高维机器学习问题。我们讨论最近的起源和特征选择的重要性和轮廓的贡献在一系列应用程序中,从DNA微阵列分析人脸识别。近年来大量数据集的创建,显然,这些只会继续增长的规模和数量。这个新的大数据场景特征选择的研究人员提供了机遇和挑战,随着越来越多的需要还可伸缩的有效的特征选择方法,考虑到现有的方法可能不够充分。“大数据”现象展现在我们面前,其转型自然是毫无疑问的。黎明之间的时间总共2003人类生成5艾字节的数据,到2008年这一数字已经增加了两倍,至14.7艾字节。现在5 eb的数据产生每2相互产量持续上升的步伐。因为体积、速度数据的多样性和复杂性不断增加,机器学习技术已经成为不可或缺的为了从大量的否则无意义的数据中提取有用的信息。特征选择是一个机器学习的技巧(FS),即属性,允许一个问题是明确的选择,虽然无关紧要或冗余数据将被忽略。特征选择方法传统上被归类为过滤方法,包装方法或嵌入的方法[1],尽管新方法,结合现有的方法或基于其他机器学习技术处理不断出现的挑战今天的数据集。在过去的几年里,特征选择已成功应用在不同的场景中涉及大量的数据,如DNA微阵列分析、图像分类、人脸识别、文本分类。但是,大数据的出现为研究者提出了前所未有的挑战。本文概述了特征选择研究的热点,旨在鼓励科学界寻求和接受最近出现的新机遇和挑战。本文的其余部分组织如下。第二部分解释了为什么特征选择最重要的现在,第三节简要描述了特征选择的历史和评论最先进的方法,第四部分回顾最近的应用,第五节描述了特征选择的研究人员需要满足新兴挑战在未来几年,最后,第六节总结了纸。2 特征选择的必要性近年来,大多数企业和组织以一种系统化的方式存储大量的数据,但没有明确其潜在有用性的想法。此外,互联网的日益普及产生了许多不同的格式的数据(文本、多媒体等)和许多不同的来源(系统、传感器、移动设备等)。能够从这些数据中提取有用的信息,我们需要新的分析和处理工具。这些数据已经生成最后几来我们继续每天生成的字节结构[2]。大的大数据量和超高维度现在各种机器学习应用领域的循环特性,文本挖掘、信息检索等[3]。温伯格et al。[4],例如,协作的垃圾邮件过滤任务进行了一项研究有16万亿独特的特性,而谭et al .[3]的研究是基于广泛的合成和数以百万的真实数据集的数据点Oe1014T特性。大型的数据集提出了一个有趣的挑战为研究社区;引用Donoho等。[5]“我们的任务是找到一个海里捞针,梳理相关信息大量堆过剩”。超高维度意味着巨大的内存需求和培训的高计算成本。泛化能力也被称为“维度”的诅咒。根据Donoho et al .[5],贝尔曼在1957年创造了这个五彩缤纷的词来形容的困难优化通过详尽的列举产品空间[6]。这个术语是指时出现的各种现象分析和组织数据在高维空间中(与成百上千的维度)不发生在低维的设置。数据集通常是由一个矩阵的行记录实例(或样品)和列的属性(或特性)代表手边的问题。为了解决维数问题,找到“窄”的数据集可以概括矩阵在某种意义上接近于原始。因为这些窄矩阵有一个小数量的样品和/或特性,它们可以更有效的利用比原来的矩阵。找到这些狭窄的矩阵的过程称为降维。超高维度不仅带来难以忍受的内存需求和高计算成本的培训,而且恶化的泛化能力,因为“诅咒维度”的问题。根据[5],1957年贝尔曼[6]创造了丰富多彩的项维度的诅咒,在优化的难度通过详尽的列举产品的空间。这种现象出现在分析和组织不发生在低维的数据在高维空间的设置。任何数据集通常是由一个矩阵的行记录的实例或样本和列的属性/功能要求代表手边的问题。因此,解决维数问题的诅咒,数据集可以总结为发现“窄”矩阵,在某种意义上接近于原始。这些狭窄的矩阵只有少量的样品和/或少量的属性,因此可以更有效地比原来的大矩阵。找到这些狭窄的矩阵的过程称为降维。特征提取是一种降维技术,解决了问题,找到最紧凑和丰富的功能对于一个给定的问题,提高数据存储和处理效率。特征提取的步骤分解为建设和选择。功能施工方法补充人类专家在“原始”数据转换成一组有用的功能使用预处理变换过程如标准化、规范化,离散化,信号增强,局部特征提取。一些施工方法不改变空间维度,而其他扩大,减少或两者兼而有之。不丢失信息是至关重要的在施工阶段的特征;第二,Elisseeff[7]建议最好总是宁可过于包容而不是丢弃有用的信息的风险。增加功能看似合理但这是要付出代价的:模式的维度的增加带来损失的风险相关信息的可能无关紧要,嘈杂的或冗余的特性。特征选择方法的目标是减少数量的初始特征,选择一个子集保留足够的信息来获得令人满意的结果。在一个社会,需要处理大量的数据和特性在各种各样的学科,目

文档评论(0)

1亿VIP精品文档

相关文档