- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
空气质量分类研究
引言
城市空气质量与人类身体健康密切相关,空气中的PM2.5、PM10、SO2、NO2等对呼吸道疾病、心血管疾病都有显著影响。随着人们生活水平的不断提高。当今中国工业不断发展,环境问题成为人们关注的焦点,环境大气污染成为影响人类健康的一个主要环境风险。因此,依据大气污染指标值预测城市空气质量级别,对政府及相关部门出台相对应的环境政策及采取相应的环境保护措施有重要意义。
支持向量机(SVM,Support Vector Machine)是由Vapnik提出的一中建立在统计学习理论基础上的机器学习算法。由于它能够在很大程度上克服“维数灾难”和“过学习”
等缺点,特别适合用来解决小样本、非线性和高维模型式识别的分类预测问题。标准的支持向量机学习算法可以归结为求解一个受约束的二次型规划(Quadratic Programming,QP)问题,但是随着训练数据集规模增大,将出现训练速度慢、效率降低、算法复杂等问题。通常的解决方法是化繁为简,训练算法按照某种迭代策略(例如支持向量机结合决策树),将原有大规模QP问题分解成一系列小的QP问题,然后反复求解小的QP问题,由小的QP问题的解构造出原有大规模QP问题的近似解,并使该近似解逐渐收敛到最优解。当前各类训练算法所面临的主要困难时如何对大规模的QP问题进行分解,以及如何选择合适的工作集是当前训练算法所面临的困难,也是各个算法优劣之所在。
本文尝试使用SVM和哈夫曼树解决上述问题。通过构建一种基于支持支持向量机和决策树的多分类器,将一个大的多分类问题分解成多个小的2分类问题,然后利用2分类SVM一一解决,最终解决搜索所带来的多分类问题。决策树的每个非叶子节点是一个2分类SVM分类器,叶子节点对应所有类别,分类路径到达叶子节点,表明本次分类结束。本文提出训练模型的构造过程是自下而上的,以此构造的分类模型具有减少错误积累、避免局部最优解、平衡错误和分类速度快等优点。
原理
支持向量机
支持向量机是一种建立在统计学习理论基础上 的数据挖掘方法,能处理回归( 时间序列分析)和模 式识别( 分类问题、判别分析)等诸多问题,可推广到预测和综合评价等领域 的分类原理是寻 找一个满足分类要求的最优分类超平面,使得该超平面在保证分类精度的同时,能够使其分类间隔最大化.
1. 2 多分类支持向量机
SVM 本质上是2值分类,最初是针对2类分类问题提出的,不能直接用于多分类问题,而在实际应用中,往往需要解决多类分类问题,通常采用“ 分 治”策略,即将多分类问题分解成多个 2分类问题,然后构造一系列 SVM 2 值分类器与它们对应. 目前主要有一对多、一对一、SVM 决策树等方法,前两者 分别需要构造 N 和 N( N - 1)/2 个分类器.SVM决策树方法是将 SVM 和二叉决策树结合起来,仅需要 构造 N - 1 个 SVM 分类器,其分类性能优于一对多和一对一组合方法决策树层次结构的设计是影响 SVM决策树多类分类器性能的关键之一。
1.3 哈夫曼树
哈夫曼树又称最优二叉树,是一种带权路径长度最短的二叉树。所谓树的带权路径长度,就是树中所有的叶结点的权值乘上其到根结点的路径长度(若根结点为0层,叶结点到根结点的路径长度为叶结点的层数)。树的带权路径长度记为WPL=(W1*L1+W2*L2+W3*L3+...+ Wn*Ln),N个权值Wi(i=1,2,...n)构成一棵有N个叶结点的二叉树,相应的叶结点的路径长度为Li(i=1,2,...n)。可以证明哈夫曼树的WPL是最小的。文本将哈夫曼树作为决策树,可保证数据的比较次数总和最小,进一步增加SVM向量机的分类速度。
1.4 基于哈夫曼树和 SVM 的多类分类器
基于 SVM 和决策树的多类分类问题转换为构造分类模型与应用该模型进行分类 2 个阶段,其中构造过程是构建SVM决策树模型,分类就是利用该模型对未知类别的样本数据进行类别判断,或对已知类别的样本数据进行预测验证。本文分类器应用的数据是唐山市天气情况的原始记录,该数据是不规则的、非数值的,并且存在噪声,通过数据预处理将其转化规范的数据集,然后划分为训练集和测试集两部分,其中训练集用来构造分类模型,测试集用来实现分类应用. 分类器模型如图 1 所示。
模型建立
以哈夫曼树结构为基础的 SVM 决策树多分类的训练思路是,首先计算 N 个类之间的相异度矩阵,从决策树的叶子结点开始,选择训练集中相异度最小的 2 类,进行 SVM 2 值分类训练,对应的 SVM 为决策树的 1 个非叶子结点.然后将这2 类合并为 1个新的类簇,与剩下的 N - 2 个类组成包含 N - 1 个类( 或类簇)的训练集. 重新计算这 N - 1 个类(
文档评论(0)