基于新浪微博公交系统数据采集及分析.docVIP

基于新浪微博公交系统数据采集及分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于新浪微博公交系统数据采集及分析

基于新浪微博公交系统数据采集及分析   摘 要: 为充分利用大数据时代的海量数据,提出一种基于新浪微博的公交系统数据采集及分析方法。通过Web Crawler从新浪微博抓取所需时空范围内的公交微博,分析公交微博发布的时间与空间分布规律;随后采用KMP算法统计并剔除冗余转发及回复微博,提取并分析公交相关的热点话题;基于中科院ICTCLAS算法进行中文分词处理,删除停用词后统计词频,生成关键词的词云。最后通过南京市范围内的8 913条公交微博进行实例验证与分析,结果表明,该方法可以从海量的微博数据中提取公交相关数据并进行分析,分析数据量大且有时效性,分析结果可为公交系统管理的优化与改善、公交政策的制定提供数据支撑。   关键词: 微博; 公交系统; 数据抓取; 中文分词; 大数据   中图分类号: TN911?34; U491.14 文献标识码: A 文章编号: 1004?373X(2015)09?0159?04   Abstract: To take full advantage of huge data in big data age, the method is proposed to collect and analysis data in public transport system with Sina Weibo. In the required time and space range, public transport Weibo is captured from Sina Weibo by web crawler. Time and space distribution rule which is published by public transport Weibo is analyzed, the redundant forwards and replies in Weibo are calculated and removed by KMP algorithm, and related hot topics of public transport are pulled and analyzed. ICTCLAS algorithm proposed by Chinese Academy of Sciences is applied to process Chine word segmentation, calculate word?frequency after delete the stop words, and generate keywords cloud. Verification and analysis on 8913 tips public transport Weibo in Nanjing. The results show that the related data of public transport is captured and analyzed from huge Weibo data, with the character of large data analysis and timeliness of the proposed method. The outcomes of analysis provide data support for optimization and improvement of public transport managing, and set up public transport policy.   Keywords: Weibo; public transport system; data capture; Chinese word segmentation; big data   0 引 言   现代交通科学是一门多学科交叉与多技术融合的科学,其研究工作很大程度上是基于对交通数据的采集与分析而逐层展开的。传统的交通数据采集方法为交通调查,至今已有超过75年的历史[1],主要是通过邮件、电话、网络、入户、街访等方式展开。近年来,为了弥补传统方法不能获取乘客在交通系统变化下的出行行为的不足,SP+RP融合的调查方法开始在交通研究及工程实践领域得到广泛的运用[2]。除此之外,随着信息、通信及视频检测技术的发展,包含交通流量、交通事故、公交上下客等在内的交通数据,均可以实现数据的自动化实时采集与传输,并且数据的精度高[3]。但是,上述方法由于存在着数据时效性差、人工劳动量大、数据采集设备投资大且不可移动等缺陷,限制了调查方法的应用范围,很难应对目前巨量数据的采集存储要求。   车联网、大数据与云时代的到来,为交通研究提供巨量数

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档