支持向量机算法预处理的一种新方法.pdfVIP

  • 62
  • 0
  • 约10.55万字
  • 约 70页
  • 2020-08-14 发布于江苏
  • 举报

支持向量机算法预处理的一种新方法.pdf

摘要 支持向量机算法是常用的机器学习算法之一,被广泛地应用于数据处理中的回 归问题。本文在支持向量回归机的基础上,对目前出现的一些问题进行了分析,并 提出了一种新的数据预处理的方法。随着大数据时代的到来,虽然海量的数据提高 了算法模型精确度,但同时也带来了计算量和内存需求过大的问题,这限制了支持 向量机方法的应用。同时,随着数据量的增多和模型精确度要求的提高,支持向量 机算法还产生了模型泛化能力差、拟合程度不易控制等问题。所以,对数据先进行 预处理对支持向量机算法变得非常重要。 在使用支持向量机算法解决问题时,含噪声的空间密度聚类(Density-Based Spatial Clustering ofApplicationswithNoise,简称DBSCAN)算法是常用的数据预处理 算法。本论文在 DBSCAN 算法的基础上,引入卷积,提出了一种新的预处理算法。 该算法可以构造一个样本数量和特征维数都有所减少的新样本集,新的样本集不但 基本保留原始数据的信息,而且改善了样本的分布。从而,利用我们新的预处理算 法来处理数据,可以减少支持向量回归机算法所需的内存,同时增强回归函数的泛 化性能。 本论文文详细阐述了我们新的预处理算法的合理性和可行性,并对我们的新算 法与其他常用的支持向量机预处理算法进行了对比实验。 关键词:支持向量机,聚类算法,卷积,预处理,回归分析 i ABSTRACT Supportvector machinealgorithm isoneofthecommon machine learningalgorithms, which is widely used in the regression problem of data processing. In this dissertation,, some problems are analyzed based on the support vector regression machine, and a new data preprocessing method is proposed. With the advent of the era of big data, although themassive data improvesthe accuracy ofthe algorithm model, it alsobringstheproblem oftoomuch computation andmemory requirements,which limitsthe application of SVM. At the same time, with the increase of data volume and the improvement of model accuracy requirements, support vector machine algorithm also produces problems such as poor generalization ability of the model and difficult to control the fitting degree. Therefore,it isvery importanttopreprocessthedatafirst. When using SVM algorithm in practice, the Density-Based Spatial Clustering of Applications with Noise(DBSCAN) algorithm is a commonly used data preprocessing algorithm. Based on DBSCAN algorithm and convolution , this dissertation proposes a new preprocessing algorithm.This algorithm can construct anew sample set with reduced sample number and feature dimension. The new sample set not only retains the inform

文档评论(0)

1亿VIP精品文档

相关文档