如何利用大数据绘制全球热门航线和客流分布图.doc

如何利用大数据绘制全球热门航线和客流分布图.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
如何利用大数据绘制全球热门航线和客流分布图 摘要:这张地图描绘了一些目前最热门的民航线路,每条线路都用不同的颜色和宽度表示出了最近一年有多少乘客往返于这两个机场之间。 数据收集 当我开始收集用于这张地图的数据时,我知道并不是所有的机场都在它的维基百科页面上公布了它和不同目的地之间往返的乘客数目。但我也不确定是否可以根据其他机场给出的乘客数目来填补这些空缺。 莫斯科的两大机场,谢列梅捷沃国际机场(Sheremetyevo)和多莫杰多沃国际机场(Domodedovo)都没有在维基百科中公布在它们和一些热门目的地之间往返的乘客数目。但是曼谷(Bangkok)的素万那普机场(Suvarnabhumi Airport)在维基上公布了2013年它与谢列梅捷沃机场以及多莫杰多沃机场之间往返的乘客数目分别是266,889和316,055人。新西伯利亚(Novosibirsk)的托尔马切沃机场(Tolmachevo)也公布2013年它与素万那普机场之间往返的乘客数目为215,408,这与素万那普机场在维基上公布的数字212,715很接近。 捷克的布拉格机场(Prague Airport)和法国巴黎的戴高乐机场(Charles de Gaulle Airport)分别公布了它们和谢列梅捷沃机场之间往返的乘客数目是637,566和790,922人。但其它有些机场,例如乌克兰基辅(Kiev)的鲍里斯波尔机场(Boryspil)则是将谢列梅捷沃机场(Sheremetyevo)和多莫杰多沃机场(Domodedovo)的数字合并在一起以城市为单位来统计乘客数目。 谢列梅捷沃机场(Sheremetyevo)埃及的沙姆沙伊赫机场(Sharm el-Sheikh),谢列梅捷沃机场(Sheremetyevo)俄罗斯的克拉斯诺达尔以及谢列梅捷沃机场(Sheremetyevo)加里宁格勒机场这三条航线都没有公布相应的乘客数目。同时,中国、印度、巴西和南美的大部分客流也没有按照出发/抵达的机场进行分类统计。 我从28,731个标题中包含“机场”的维基百科条目中提取出5,958个机场,其中343个包含了按照目的地分类的乘客数目信息。这343个机场中的绝大部分至少列出了本年度与其往返最频繁的十大机场以及相应的乘客数目,很多列出了前二十位,有些明星机场(大多在西欧和东南亚地区)列出了50个以上。 实际数字可能更高,但这是我的分析器所能找到的所有结果。 搭建环境 我在我的Ubuntu 14.04系统中装了一些用来收集并展示数据的工具。 $ sudo apt-get update $ sudo apt-get install python-mpltoolkits.basemap \ pandoc \ libxml2-dev \ libxslt1-dev \ redis-server $ sudo pip install docopt 在这个项目的数据收集阶段,我几乎完全是在虚拟环境中工作的。但是当我想通过pip安装Matplotlib中的Basemap时我碰到了一些困难,所以我还是使用Ubuntu系统。 我将绘制地图的任务转移到plot.py中来完成。为了完成我在app.py中做的所有工作,我在虚拟环境中安装了11个软件包: $ virtualenv passengers $ source passengers/bin/activate $ pip install -r requirements.txt 在完成数据收集,即将进入数据展示阶段时,你可按照以下方法退出虚拟环境: $ deactivate 下载维基百科中的内容 如果可以不用向远程服务器发送千万条网络请求,即使是通过队列的形式,我将会竭尽全力实现这个目标。因此,我下载了大约11G大小的维基百科中所有英语条目。你可以将其作为一个单独的文件进行下载,也可以分块进行。 $ wget -c /enwikienwiki-articles1.xml-p000000010p000010000.bz2 $ wget -c /enwikienwiki-articles2.xml-p000010002p000025001.bz2 $ wget -c /enwikienwiki-articles3.xml-p000025001p000055000.bz2 $ wget -c /enwikienwiki-articles4.xml-p000055002p000104998.bz2 $ wget -c /enwikienwiki-artic

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档