2020年MathorCup大数据竞赛赛道A优秀论文2.pdfVIP

2020年MathorCup大数据竞赛赛道A优秀论文2.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

队伍编号335

赛道(A)

基于Kmeans和Kshape、LSTM和Cornish-Fisher展式的基站流

量分类与阈值设定研究

摘要

时间序列特征提取与分类(问题一):根据题目要求需要基于相关小区的历史流量数

据提取时间序列数据特征进行“小区”分类,并描述每类的特点。但由于题目所提供的

数据过于庞大,如果直接对原始数据进行清洗并在处理后的原始数据基础上进行数学建

模,虽然得到的分类结果更加全面,但是考虑到时间效率与处理机器性能的限制可操作

性较低。因此,本文考虑随机抽取3万个小区最为训练测试样本集进行初步聚类分析。

再基于改进的KNN算法将剩余样本小区归为与其距离最近的类别。

本文的聚类流程主要由以下几步。第一步:对原始数据进行数据预处理,出于大样

本大数据的考虑,采取随机抽样获得测试用样本小区数据集;第二步:利用tsfresh工具

提取时间序列的统计特征、熵特征和分段特征等作为对应的特征向量进行聚类,得到特

征向量F。同时,基于随机森林法对构成的特征向量各个特征之间的重要性进行分析。

第三步:根据轮廓系数和肘部法则获取最优聚类数,再利用kmeans方法进行基于特征

的聚类分析并对各类数据特点进行描述;第四步:运用改进的KNN模型将非测试用样

本小区分类。最终结果表明,上述方法可以有效的提高处理效率和精确度,具有一定的

现实可行性。

基站流量阈值设置策略(问题二):针对问题二中提出的上下行流量阈值设定的问题,

本文根据处理后的流量数据及其分布特征,分别采用Kshape聚类方法和Kmeans聚类

方法将时间维度上流量预期波动差异较大的小区和截面维度上流量分布差异较大的小

区分离开来,分别得到聚类结果I和聚类结果II。根据两种聚类结果,使用LSTM模型

从聚类结果I中得到上下行流量的预期值,然后使用Cornish-Fisher展式从聚类结果II

中得到去均值后的流量分布分位数,并将上下行流量的预期值与其去均值后的流量分布

分位数相结合,得到不同分位数下的上下行流量的预期阈值。

问题二的实证研究结果表明:其一,采用LSTM模型和Cornish-Fisher展式相结合

的方法能够根据上下行流量潮汐效应的变化和随机扰动分布特征的变化来动态地设定

阈值,克服了静态阈值设定与流量潮汐效应的矛盾,实现了在对用户体验影响较小的条

件下节约能源的目的;其二,上下行流量阈值的设定受到流量预期和各时点随机扰动项

的共同影响,在应用过程中应当根据实际需要将阈值设定在不同的分位数水平;其三,

采用分位数的方法来设定阈值,有利于决策者把控在多大概率不影响用户体验的基础上

降低能源消耗。

关键词:Kmeans聚类、LSTM模型、Cornish-Fisher展式、Kshape聚类、改进的KNN

目录

一、问题重述1

1.1研究的背景1

1.2研究的问题1

二、问题分析1

2.1针对问题一的分析1

2.2针对问题二的分析3

三、模型假设4

四、符号定义与说明4

五、问题一的模型的建立与求解5

5.1数据预处理5

5.1.1样本的描述与筛选5

5.1.2样本数据清洗6

5.2基站一般分类与时间序列聚类7

5.3基于tsfresh工具的特征提取7

5.3.1特征选择7

5.3.2基于随机森林的小区流量特征重要性分析8

5.4基于特征的聚类结果分析12

5.4.1最佳聚类数的确定13

5.4.2聚类结果分析16

5.5基于近邻算法对其余样本进行划分20

5.5.1使用DTW算法计算样本距离21

5.5.2使用改进的KNN算法对剩余小区分类23

六、问题二的模型建立与求解25

6.1数据处理与聚类25

6.1.1Kmea

文档评论(0)

数学建模-赛道做 + 关注
实名认证
服务提供商

各类数学建模竞赛-文档,及优秀论文分享

1亿VIP精品文档

相关文档