- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北京大学学生出访申报表-PKUVIS
大作业报告——动态火车查询系统
Final Project Report——Dynamic Train Information System
陈彦卿 王祖超
2009/1/15
引言:现实生活中的可视化任务,不仅数量繁多而且和我们的衣食住行都有着密切的联系。本次我们的大作业——动态火车查询系统就是希望通过一定的可视化手段,能够通过图像表达和互动操作的形式,帮助用户动态地查询自己想要了解的车次信息并且更方便地规划出行的线路。
第一部分:关于数据的采集和处理
我们组选择的数据是关于中国铁路客运的车次信息。这些数据的来源是铁路部门公开的票源信息,覆盖了全国29个省市、近4000个铁路客运站点和约3000条车次行驶路径和停靠形式等的信息,总共的数据量达到了十机万条,可以说数据的规模相对是非常庞大的。对于如此规模的数据,我们最先开始的想法是尝试不进行预先的处理而直接使用连接数据库的形式来作为本程序的信息源,不过效果并不乐观,除了速度上非常缓慢之外,连接的数据库本身存在的若干问题也成为了影响我们程序的一个要素——毕竟是非官方的、而且是如此大量的数据,难保了其最终的完整性和正确性。在权衡了各个方面之后,我们最终选择了对数据进行分析预处理的方式并以预处理的结果作为程序的数据来源。在编写程序对数据进行预先的挖掘和处理的工作中,我们除了舍弃了一部分并不太常用的信息以减少庞大的数据规模之外,还通过一些自动和手工的方式删除/更改了一些数据中存在的错误,并且对数据进行了压缩和编码,以方便最终程序的运行。最后我们选取的部分数据中,主要内容包括:各个省市的站点信息(站点数目、分布等),各个客运站点的独立信息(经过的车次、所属省份,流量信息等),不同的车次信息(车次号、发车时间、到达时间、经过站点、类型、各种票价等),还有详细的停靠信息的运行时间表,总共有用的部分大约占了十几个维度。
由于我们编写这个Project的初衷是为了直观有效地展现信息、并以此来指导用户并对特定的需求进行智能化的选择。毫无疑问,我们最关心的是其中的车次信息的那一大部分,并且之后将要描述的的一些智能化的算法都是通过这一部分的数据而衍生出来的,省市信息和客运站点信息则作为辅助方面的信息出现,帮助提高程序运行的效率。
第二部分:基本可视化方法的选择
对于车次信息进行可视化的有效方法也许不少,但是我们接触过的的基本可视化方法中,建立在车次的“位置/时间”图上的方法可以说是最简单明了的。尽管描述信息的方式是用的再简单不过的直线和线段,但是这种些许类似Parallel Coordinates不仅仅有高效处理高维数据的能力,同时也在很多情况通过这种最基本的图标方法,我们能够一目了然地对车次的信息又个大概而直观的理解。当然,纯粹的这种形式的可视化已经是百年前就出现的产物了,除了以此为基础进行可视化设计之外,我们也必然需要加入大量的辅助方法来增强信息的效果。
图1 列车的位置/时间图表达E.J.Marcy 1885
我们首先选择加入的Focus/context策略,在本学期的在第二次作业中,已经有若干位同学成功地运用了这种方法——通过brush部分高亮的形式突出显示人们关心的信息,而用隐藏弱化的方式讲其他的信息变成背景,从而增强信息的获取效率;我们也使用了层次信息的策略,很显然在一开始的杂乱版图上没有显示车次详细信息的可能性,当然也没有那个必要。但是车次的详细信息并没有被舍去或消除,在需要的时候完全可以通过这种详细的表达形式来加强我们所需要的信息,于是层次方法可以有效地动态提供某个车次的详细信息;我们也对图形的进行了适当的变形和标记注释的功过,在初始版图上,这种变形是为了降低复杂度(因为我们并没有收集足够的关于任意两车站之间距离的信息,同时这种操作也会大大降低算法的效率);而在详细信息部分,将图像按比例进行缩放就是为了强化信息的暗示和表达,更能直观地体现出车次的平均速度/路程分布的情况;此外,我们也加入了不少颜色暗示的手段,根据我们组Literature review所了解到的相关的知识来进行了一次小小的试验,希望能够通过隐藏在颜色中的信息加深用户对信息的理解。比如说我们用红色代表了车次的速度(从普快到特快),用绿色代表车次停靠时间的长短,用蓝色代表车次是否属于热门车次。这样,在使用时用户可以根据各自的需要对所需求的车次信息进行查询。最后,我们还进行了一些简单的比例缩放/坐标平移等的操作,虽然效果仍然比较拙劣,却也能再某些情况下强化表达平时不被注意的小信息。虽然从数据的角度看,我们的工作本质上这还只是使用数据库进行查询检索的操作,可能数据库的操作更加多一些,但是我们还是希望我们所使用的可视化方案能够起到对
文档评论(0)