基于特征选择的多维度数据预测与分类方法研究.pdfVIP

  • 225
  • 0
  • 约11万字
  • 约 74页
  • 2021-01-07 发布于江苏
  • 举报

基于特征选择的多维度数据预测与分类方法研究.pdf

摘要 摘 要 当前,随着人们对信息时代知识的深入了解,大数据、物联网以及云计算等 新兴术发展带来了巨大的研究机遇。而复杂系统下,多维度数据的预测与分类在 数据挖掘技术领域下受到研究者们的广泛关注。并且在众多产业技术领域,例如, 在共享数据经济、生物学信息分析、能源化工分析、以及电子商务用户行为分析 等均得到普遍的应用。一方面,面对各个领域内日益增长的数据信息,其中蕴含 着极其丰富的知识和决策类信息。在多维度数据集中进行更加有效和充分地取 有价值的可支配信息是当前研究中的一个挑战。另一方面,为了能够对不同结构 的多维度数据进行归纳和整理,并从中进行知识发现,机器学习与数据挖掘技术 逐渐成为新兴信息技术。如今,所获得的数据在结构和格式上越来越精细和复杂, 其中所包含的信息也越来越冗杂。在应用实践的需求推动下,对多维度数据进行 预测和分类迅速成为数据挖掘技术中的研究热点。当前的多维度数据预测与分类 算法特征选择方式,以特征工程为基础,针对相关缺陷出一系列改进措施,经 过实验证明完成后的算法理论具有一定的显著效果。主要研究内容如下所列: 1. 出结合相关性系数的随机森林预测算法。通过改进森林的特征选择方 式,对复杂系统下的多维度数据中的特征进行相关性评估,然后根据相关性系数 数值划分区间,将具有强相关性的特征和共线性的数据噪音剔除。增加了森林中 决策树间的差异性,增强了森林的整体的泛化能力。通过共享单车需求量实验验 证升了算法预测精度并解决了产生的过拟合问题。 2. 出了基于因子分析的动态时间弯曲相似性降维法。在高时间复杂度的 序列中相似性,通常采用动态时间弯曲及下界函数进行距离度量。但是算法计算 过程效率较低,且度量质量较差。鉴于此,将因子分析与动态时间弯曲下界函数 进行结合,通过其进行降维转换协方差矩阵和距离矩阵,并推导出具有对称性的 下界函数,改进算法的特征选择方式,构建时序预测模型。最终,通过实际空气 质量和电力负荷数据完成算法的可行性和有效性验证。 3. 出了结合互信息的因子分析分类方法。因子分析在多维度数据中为常 见的降维方法,该方法仅可以处理线性数据关系,为评估特征间依赖性的强弱。 互信息则具有良好的非线性处理能力。采用互信息对特征间的相关性进行计算, 将特征相关性结果进行转换为特征值矩阵评估因子,作为输入信息。通过分类算 法构建分类模型。利用癌症基因组数据完成实验验证,该方法高了算法的分类 性能,取得一定的效果。 通过以上三个内容的数学推论和实验可知,本文在多维度数据预测与分类上 I 摘要 对特征选择进行改进和结合,高了原本算法的预测精度和分类强度。本文的改 进的算法内容具有广泛的应用价值,对其他研究者有一定的理论借鉴意义。 关 键 词:多维度数据;数据降维;数据预测与分类;互信息;特征选择;相 关性系数;动态时间弯曲;因子分析 论文类型:基础研究 选题来源:纵向课题 II 目录 目 录 第 1 章 绪论 7 1.1 研究背景和意义 7 1.1.1 研究背景 7 1.1.2 研究意义 9 1.2 研究现状分析 11 1.3 研究内容与结构安排 17 1.3.1 主要研究内容 17 1.3.2 论文结构安排 18 第 2 章 多维度数据特征选择与降维概述 21 2.1 数据预处理 21 2.2 特征选择方法 22 2.3 降维概述 27 第 3 章 基于相关性系数特征选择的随机森林预测算法 31 3.1 问题述 31 3.2 改进思路及数学推导 31 3.3 基于相关性系数的随机森林模型 33 3.4 实验设计与分析 35 3.

文档评论(0)

1亿VIP精品文档

相关文档