实训项目11:交通大数据分析实训.pptx

实训11交通大数据分析实训

项目背景随着智能交通技术的不断发展,凭借各种交通数据采集系统,交通领域积累的数据规模膨大,飞机、列车、水陆路运输逐年累计的数据从过去TB级别达到目前PB级别,同时伴随近几年大数据分析、挖掘等技术迅速发展,对海量的交通数据进行挖掘分析是交通领域发展的重要方向,得到了各地政府和企业的高度重视。交通大数据的有效利用与人们的生活息息相关,不仅能够给人们的生活创造巨大的便利,也能为政府的规划、城市的发展提供坚实的数据支撑。交通运输部数据显示,目前全国有360余个城市投放了共享单车,在营车辆约1950万辆,注册用户数超过3亿。共享单车用户的骑行行为会留下大量的数据,如何分析和挖掘相关数据,为共享单车的治理和优化提供数据支持,具有极其重要的意义。本项目将对共享单车的骑行数据进行挖掘,探索用户骑行的规律与模式。

实训任务骑行数据缺失值、异常值的检测与处理自定义特征,统计站点每半小时的进出流量骑行数据描述性统计分析站点骑行流量探索性分析利用Apriori算法对站点流量进行关联规则挖掘利用FPGrowth算法对站点流量进行关联规则挖掘

数据准备本项目所分析的数据来自CitiBike,这是一家主要运营在美国纽约市的共享单车公司。CitiBike共享单车业务早在2013年5月就首次运营,推出当天就有1.6万名会员注册,可见大家对该项目的喜爱。经过多年的发展CitiBike先后推出了330个站点和5000辆自行车,主要分布在曼哈顿下城和布鲁克林西北区。本次分析的数据为CitiBike在2017年7月的骑行数据,该数据由公司自行公开,可从如下地址进行下载:/tripdata/201707-citibike-tripdata.csv.zip。

数据准备此数据共有1735599条骑行记录,包括15个字段,具体含义及类型如下表所示。

分析步骤

知识储备关联规则挖掘概述关联规则挖掘:一种发现大量数据中事物(特征)之间有趣的关联的技术。典型应用是购物篮分析:找出顾客购买行为模式、发现交易数据库中不同商品(项)之间的联系。例如,通过关联规则挖掘可能会发现,购买牛奶的用户往往会同时购买面包,或是购买的尿布的用户往往会同时购买啤酒等。在此基础上,商家可以考虑进行定制化的推荐或者营销,辅助进行经营方针的制定,如商品捆绑销售设计、商品促销和商品货架分布等,从而提高利润。

知识储备关联规则的基本概念1.项集:I={牛奶,面包,尿布,啤酒,鸡蛋,可乐}2.频数:一个项集X在数据库D中出现的次数为频数。例如,X={牛奶,面包},则count(X)=3.3.支持度:在一个交易数据库D中,用支持度衡量一个项集X出现频率的大小,记为support(X)。support(X)=count(X)/|??|×100%。|??|为该数据库所包含交易数据条数。例如,X={牛奶,面包},则support(X)=60%.4.置信度:项集X发生的情况下,则项集Y发生的概率为关联规则的置信度,记为confidence(X→Y)。confidence(X→Y)=support(X→Y)/support(X)。例如,X={牛奶,面包},Y={啤酒},则confidence(X→Y)=1/3=33.3%。5.频繁项集:项集X的支持度如果大于用户给定的最小支持度阈值,则X被称为频繁项集。TIDItemsT1牛奶,面包T2面包,尿布,啤酒,鸡蛋T3牛奶,尿布,啤酒,可乐T4面包,牛奶,尿布,啤酒T5面包,牛奶,尿布,可乐

知识储备关联规则挖掘关联规则挖掘的主要任务:找出满足最小支持度和最小置信度的频繁项集。例如,给定minsup=40%和minconf=60%,则{啤酒}→{尿布}为频繁项集,sup({啤酒,尿布})=60%,conf({啤酒,尿布})=100%。目前常见的关联规则算法AprioriFP-Growth

知识储备Apriori算法逐层发现算法(Apriori)的主要思想是找出存在于事务数据集中的最大的频繁项集,再利用得到的最大频繁项集与预先设定的最小置信度阈值生成强关联规则。

知识储备使用Apriori算法实现餐饮菜品关联分析结合餐饮行业的实例讲解Apriori关联规则算法挖掘的实现过程。数据库中部分点餐数据如表所示。序列时间订单号菜品id菜品名称12014/8/2110118491健康麦香包22014/8/211018693香煎葱油饼32014/8/211018705翡翠蒸香茜饺42014/8/211028842菜心粒咸骨粥52014/8/211027794养颜红枣糕62014/8/211038842金丝燕麦包72014/8/211038693三丝炒河粉……

文档评论(0)

1亿VIP精品文档

相关文档