- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据竞赛思路分享机场客流量的时空分布预测
数据竞赛思路分享:机场客流量的时空分布预测
1. 问题描述
机场拥有巨大的旅客吞吐量,与巨大的人员流动相对应的则是巨大的服务压力。安防、安检、突发事件应急、值机、行李追踪等机场服务都希望能够预测未来的旅客吞吐量,并据此提前调配人力物力,更好的为旅客服务。本次大赛以广州白云机场真实的客流数据为基础,每天数万离港旅客在机场留下百万级的数据记录。希望参赛队伍通过数据算法来构建客流量预测模型。
2. 数据概览
提供的数据:
3.1初赛数据描述
初赛提供了2016-10-09至2016-09-25的数据
3.2初赛问题描述
选手需要预测未来三小时(9月25日15:00:00到18:00)的时间窗口里,机场内每个WIFI AP点每10分钟内的平均设备连接数量
3.3初赛解决方案
简要概括:均值加趋势
数据预处理:
提供的表格中时间数据都是精确到秒,而所提交的结果要求是每10分钟的平均情况,所以我们首先需要将数据按照每十分钟的间隔汇总起来(详细代码见Github)
此处提供两种方案:
以airport_gz_wifi_ap表为例截取time_stamp的部分字符串,然后按照截取的time_stamp和wifi_ap_tag进行aggregate
t = t0[:15] # 例如将t0 = 2016-09-10-18-55-04截取为t = 2016-09-10-18-5
将数据按照时间排序,然后抽出每十分钟的数据进行处理后整合,这个方式可能会比较麻烦,但是这个方式有他的优势,我们只需调整一个参数,便能让数据按照任意的时间间隔进行统计,便于以后复用函数
此处附加Python处理时间格式的一些函数
我们可以直接使用pandas中的参数解析时间数据
# Normal
df =pd.read_csv(path, parse_dates=[column name])
# Special
dateparse = lambdax: pd.datetime.strptime(x, %Y-%m-%d %H:%M:%S)
df =pd.read_csv(path, parse_dates=[column name], date_parser=dateparse)
当然也可以自己写函数处理
import pandas as pd
def ReturnTimeElement(Date):
return [int(t) for t in Date.split(-)]
def TransToTime(TimeElement):
return pd.datetime(*(TimeElement))
def GetTime(Date):
TimeElement = ReturnTimeElement(Date)
Time = TransToTime(TimeElement)
return Time
T = 2016-10-19-9-47-00
GetTime(T)
datetime.datetime(2016, 10, 19, 9, 47)
处理后可以得到如下数据,命名为WIFITAPTag_Mean_All
问题分析:
对于这个预测问题有以下关键两点:
机场每天的排班表基本稳定,用户在机场内的行走模式也基本稳定
时间序列具有一定程度的连续性,下午三点至六点的情况会一定程度延续此前几小时的情况
基于以上两点想法,就得到了两个基本模型:均值模型和时间序列模型
比赛初期只提供了前三个表格,所以开始就注重分析了这几个表格,例如从WIFIAPTag中可以提取出大概的位置信息和楼层信息,分组统计不同区域的WIFIAP是否有接近的模式,同时也可从安检和出发表格中寻找一定的关联等等。
但是经过分析发现,airport_gz_security_check及airport_gz_departure的数据虽然和airport_gz_wifi_ap的数据有一定的关联,但是其本身存在较大的随机因素,用随机预测随机存在太大的变数,不如只使用airport_gz_wifi_ap中的数据进行更稳定的预测(当然肯定也有队伍能很好得从airport_gz_security_check及airport_gz_departure中提出很很棒的特征)。后期提供的几个表格由于数据质量问题,经分析后发现贡献不是特别大,故也没有进一步利用。
因而之后要说的均值模型和时间序列模型都基于WIFITAPTag_Mean_All表格的数据,并且是以WIFIAP为对象, 每一个分开预测。
数据探索:
接下来让我们对数据有一个大概的了解
def GetTimeSeries(WIFIAPTag):
Get WIFIAPTag s Time Series
您可能关注的文档
- 数据库原理与应用庞国莉题目+答案.doc
- 数据库原理习题含答案.doc
- 沥青稳定碎石溷合料_ATB30_温度下降规律室内试验研究.pdf
- 数据库原理及应用课程设计报告范文.doc
- HG2059220635第1号修改单.pdf
- 油船透气系统设计规则 CBT3650-94.pdf
- 数据库原理实验报告6含答案.doc
- 数据库原理实验报告实验三数据表的创建与管理实验.doc
- 泰科5A继电器OJT-SS-124LM_000.pdf
- 洗衣回用水水质要求 DB11!~471-2007.pdf
- 深度解析(2026)《ISO 22002-12025食品安全前提方案—第1部分:食品制造》.pptx
- 深度解析(2026)《ISO 22002-52025食品安全前提方案—第5部分:运输和储存》.pptx
- 深度解析(2026)《ISO 22002-42025 食品安全前提方案 — 第4部分:食品包装制造》.pptx
- 徒步活动策划方案.doc
- 深度解析(2026)《ISO 22002-62025食品安全前提方案—第6部分:饲料及动物食品生产》.pptx
- 2026年新版郯城期末真题卷.doc
- 深度解析(2026)《ISO 22476-72012岩土工程勘察与测试 — 现场测试 — 第7部分:钻孔千斤顶试验》.pptx
- 深度解析(2026)《ISO 22090-22014 船舶与海洋技术 — 航向传送装置(THD) — 第2部分:地磁原理》.pptx
- 深度解析(2026)《ISO 23584-22012 光学和光子学 — 参考字典规范 — 第 2 部分:类与特性定义》:构建智能制造数据基石的专家视角与未来展望.pptx
- 深度解析(2026)《ISO 22932-92025 Mining — Vocabulary — Part 9 Drainage》:构建未来矿山“水脉”治理与可持续发展的新语言体系.pptx
最近下载
- RBANS记录表(精分,重度抑郁,焦虑障碍,正常对照).docx VIP
- 高考语文阅读理解《虹关何处落徽墨》含答案.docx VIP
- 安装和维护手册305346-sbde_MEB-3000-027.pdf VIP
- 《义务教育英语课程标准》 2025年修订版与2022年版与详细对比总结.doc
- 食品中外源化学毒物的生殖毒性.PPT VIP
- 水电工程钻探规程 含2021和2025年修改单.docx VIP
- 高中地理 世界气候.ppt VIP
- 普通公路沥青路面典型路段使用效果评价技术规程.pdf VIP
- 中南财经政法大学2023-2024学年《会计学》期末考试试卷(A卷)附标准答案.docx
- 大米投标文档.pptx VIP
原创力文档


文档评论(0)