算法赛top5答辩极客奖oh my god.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Oh my god 团队 机场客流量的时空分布预测 god my Oh 团队介绍 我们是西安电子科技大学的三名数据挖掘爱好者,对数据挖掘之路上一直充满激情,就像队伍的名字一样,在数据探索路上,总是可以找到让我们惊喜的发现! god 目录 赛题背景 数据分析 解决方案 赛后总结 my Oh 01 02 03 04 PART ONE PART TWO PART FOUR PART THREE 01 PART ONE god my Oh 赛题背景 god my Oh 赛题背景 机场拥有巨大的旅客吞吐量,人员流动呈现高动态,高密度可变,时间空间分布不均匀等特点,与之相对应的则是巨大的服务压力。安防、安检、突发事件应急、值机、行李追踪等机场服务都希望能够预测未来的旅客吞吐量,并据此提前调配人力物力,更好的为旅客服务。本次大赛提供了广州白云机场9月10号到11月10号近两个月的真实数据记录(WiFi连接记录,安检旅客记录,航班排班表等),要求参赛团队构建客流量预测模型预测未来两个整天机场内每个WIFI_AP点每十分钟的内的平均设备连接数量。 设P为选手提交旅客流量预测值,Q为机场WIFI_AP实测的旅客流量。 赛题介绍: 测评公式: RESEARCH BACKGROUNDS god my Oh 数据分析 02 PART TWO god my Oh 数据分析 分为五个区域 航站楼 T1 东部登机E2 东部登机E3 东部登机E1 东部走廊区域 西部登机W1 西部登机W2 西部登机W1 西部走廊区域 首先我们对不同该区域进行比较,发现不同区域的客流量的均值和波动性有很大的差别。 god my Oh 数据分析 区域 平均值 标准差 东部登机区域 6.9701 5.0951 东部走廊区域 3.6235 2.5072 航站楼 3.0932 2.1655 西部登机区域 3.8982 4.4805 西部走廊区域 4.0415 2.6421 东部登机区域客流量较大,平均连接人数最高,且波动最大; 西部登机区域客流量较大,平均连接人数较低,但波动较大; 东西部走廊区域客流量较小,平均连接人数较低,且波动较小; 航站楼区域客流量较大,平均连接人数最低,且波动最小; 数据表明 结论:对于波动较大的登机区域进行分析,单独建模 god my Oh 数据分析 对客流量较小的WIFI点,前一周(不包括当天)对应小时均值和当天的比较结果 客流量小的WIFI点,占很大的比例! god my Oh 数据分析 E2区域 EC区域 T1区域 W3区域 E1区域 E3区域 W1区域 W2区域 WC区域 对客流量较大的WIFI点,前一周(不包括当天)对应小时均值和当天的比较结果 历史统计值虽有不错的拟合效果,但是对于登机区域很难拟合波动; god my Oh 数据分析 基于航班分析的登机区域模型 最终分成两个模型建立 基于历史信息的整体区域模型 RESEARCH BACKGROUNDS god my Oh 解决方案 03 PART THREE god my Oh 整体区域建模 数据信息: wifi历史连接量统计信息; 时段的影响; 星期的影响; 工作日,节假日的影响; 楼层,区域的影响; 规则方法:把握业务的统计平均状态, 业务逻辑受到主观后验关注点影响; 回归方案:更好的预测潜在的业务波动; Diversity 整体区域建模:专家系统,机器学习 god my Oh 整体区域建模 业务逻辑: 去除存在数据缺失以及过节的日期数据; 明显高于或低于的均值水平的数据点应当予以平滑; 近期历史业务的统计均值具有较强的参考价值; wifi接入量与星期成一定的相关性; 不同楼层不同区域的wifi点对时间的敏感程度不一致; 业务为本 人工规则的设计从希望能更好的反映实际业务特点出发,并一定程度指导特征工程; 整体区域建模:规则方法 god my Oh 整体区域建模 业务逻辑: wifi接入量与星期成一定的相关性; 周五业务量较周六业务量稍大,且根据趋势判断线上预测业务量欠饱和; 3楼业务量大,业务敏感性较1,2楼稍强,1,2层楼随日期变化业务相对稳定,统计意义更强; EC,WC,T1区域业务量大,随日期变化业务相对稳定W1,W2,W3,E1,E2,E3区域业务敏感性稍强; 整体区域建模:规则方法 god my Oh 整体区域建模 wifi_id、小时分钟、所处楼层区域、时段进行one-hot编码; 前1,3,5,7,14天对应十分钟,对应小时统计信息; 对应星期的统计特征; 对应区域的统计特征; wifi接入量及方差排名特征; 交叉特征等; 整体区域建模:滑窗回归 特征工程: god my Oh 造成登机区域波动性的主要原因 靠近登机口的WIFI受到航班的直接影响;

文档评论(0)

honglajiao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档