- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要
时间序列分类和不平衡数据分布是实际应用中普遍存在的问题。时间序列存
在数据维度高、数据之间相关性强和噪声干扰多等特点,而不平衡数据学习则更
加强调分类器对少数类样本的识别能力。这两个问题在实际应用中容易产生交集,
成为更具有挑战性的不均衡时间序列分类(Imbalanced Time Series Classification,
ITSC) 问题。现有的针对ITSC 问题的解决方法以重采样方法的优化为主,但是由
于时间序列数据结构上的复杂性使采样过程变得更加困难。在时间序列分类方面,
2018 年提出的通用集成学习算法 HIVE-COTE 在公共时间序列数据集上取得了
最好的分类效果,但是该算法处理的对象是类分布平衡的时间序列数据集,在面
对不平衡时间序列分类和大规模时间序列分类问题时,该算法的分类效果并不令
人满意。在这一背景下,本文从以下三个方面展开研究工作。
一、不平衡时序数据子序列质量评价指标的改进
针对不平衡时间序列中子序列选择影响分类质量的问题,分析信息增益值在
不平衡数据集上的不适用性,并分别结合在不平衡数据集上应用较为广泛的
AUC 值和 AUCPR 值两个评价指标,对子序列质量的评价指标进行了改进。同
时,选取时间序列分类中采用信息增益为子序列评价指标的 shapelet 分类方法,
对指标优化前后的应用效果进行验证。实验结果表明:改进后的评价指标对不平
衡时间序列分类问题有更好的适用性,能找到对不平衡时间序列中最具辨识能力
的候选子序列集合。
二、不平衡时间序列集成分类算法研究
针对现有时间序列集成学习方法对于不平衡时间序列数据存在不适用的问
题,本文提出了基于集成的不平衡时间序列分类算法IMHIVE-COTE 。首先,提
出组件算法的改良算法SBST-HESCA ,应用了采样方法SMOM 与Boosting 相结
合的方式,通过交叉验证预测结果更新样本权重,使数据集的重采样过程更有利
于提升少数类样本的分类质量;其次, IMHIVE-COTE 通过优化组件算法的权
重,使不平衡时间序列分类算法对分类结果拥有更高的投票比重,再次提升集成
算法整体的分类质量。实验证明,和对比方法相比,IMHIVE-COTE 在整体上的
分类评价值最高之外,在3 个不平衡分类指标值上得到了最高的整体分类评价,
可以证明IMHIVE-COTE 解决不平衡时间序列分类问题的能力得到了显著提高。
三、不平衡时间序列并行集成分类算法研究
针对传统时间序列集成算法在大规模数据集上计算效率不高的问题,本文基
于通用的分布式计算框架Spark,设计并实现了针对大规模不平衡时间序列的并
行集成分类算法。首先对IMHIVE-COTE 中组件算法的运行效率进行测试,得到
最合理的并行计算架构。然后先对运算消耗最大的shapelet 类算法SBST-HESCA
I
和 ST-HESCA 进行了并行化设计,将并行化计算的重点放在两个算法共有的
shapelet 提取流程;接着对距离类算法Elastic Ensemble 的运算流程进行了并行化
改进,将并行设计的重点放在算法中的距离计算部分。改进后的算法在模型训练
过程中能更好地利用Spark 平台的并行计算机制,在不损害原分类算法精度的情
况下大幅度提高了算法运行效率,最终设计出的并行集成分类算法较原算法在运
行效率上最低有接近5 倍的计算时间缩短幅度,最高的能达到24 倍左右的时间
效率提升,而且集群环境布置较为方便,对原算法的精度影响不超过2%,可以
认为该并行架构能满足大规模不平衡数据序列分类任务的效率需求。
本论文共有图11 幅,表22 个,参考文献102 篇。
关键词:时间序列分类;不平衡数据学习;集成学习;并行计算
II
Abstract
The problems of time series classification and imbalanced data distribution are
very common in the practical application field. In general, there are
文档评论(0)