基于决策树C4.5算法个人驾驶行为分析.docVIP

基于决策树C4.5算法个人驾驶行为分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树C4.5算法个人驾驶行为分析

基于决策树C4.5算法个人驾驶行为分析   摘要:针对我国汽车产业及运输行业的快速发展,但交通安全观念及文明意识明显滞后、不规范驾驶行为多发的问题,利用数据挖掘中的决策树方法,对个人驾驶行为数据进行预处理,分析与驾驶行为相关的主要指标,然后通过C4.5算法构建了决策树知识学习模型,并采用后剪枝法(post-punning)对其进行剪枝,最后利用建立的模型对测试数据集进行评估。研究结果表明:该决策树模型有较高的准确性,为个人驾驶行为分析提供了可行性依据。   关键词:交通安全;驾驶行为;决策树;C4.5算法;后剪枝法   引言   根据相关数据显示,我国2014年底机动车驾驶人数量突破历史性的3亿人,机动车的使用数量及驾驶人数,使得我国面临更为严峻的交通安全形势。2014年,我国交通事故死亡人数为34292.34人,比2013年的死亡31604.3人增加了2688.04人,增长率为8.5%;相比2012年的死亡30222.5人,增加了4069.84人,增长率为13.46%;美国公路运输安全管理局(National Highway Traffic Safety Admini-stration:HTSA)曾在2009年调查发现,由于酒后驾驶行为导致的死亡人数为10839,为交通事故总死亡人数的32%;澳大利亚MONASH大学事故研究中心的研究报告表明,接近25%的道路交通事故是由于驾驶员的分心。可见,不当的驾驶行为是近些年来诱发交通事故的主要原因,对驾驶行为的分析与研究变得尤为重要。   此外,随着国民经济的快速增长,运输企业和租车公司急速扩张,而如何降低车队运营成本,加强对驾驶员的行为管理成为关键问题。比如以色列的Traffilog管理系统,通过记录司机的多种不良驾驶行为,譬如超速、过程怠速、急刹车、急加速、超转行驶、停车立即熄火、低油量行驶、冷却系统异常、停车状态踩油门、长时间刹车、长时间离合、粘离合、发动机异常熄火等信息,有意识提醒并改善司机的驾驶行为情况;国内最早是苏州金龙于2011年推出GBOS智慧运营系统,后来该系统的管理理念又被复制到了卡车行业,陕汽顺势在2013年推出“天行健车联网系统”,为汽车经销商、个体车主及运输公司提供车贷管理服务、驾驶员行为分析服务、车辆常规监控服务、油耗节能服务等。   由于后天的实际车路况不同、交通监控设施不到位、违章成本低等诸多因素,大多数驾驶员会或多或少养成一些不良驾驶行为,譬如超速行为、减速行为、加速行为等,这些驾驶行为的确会影响车辆油耗、车辆使用寿命及车辆安全隐患。然而驾驶员的驾驶行为除了与路况环境相关外,与驾龄、行车时间、车速、是否工作日等信息也息息相关,本文通过分析这些影响驾驶行为的因素,判断其与不良驾驶行为之间的关系,运用决策树C4.5算法以期对驾驶行为分类,改善不良驾驶习惯,提高交通安全意识。   1决策树基本概念   决策树是一种简单但是广泛使用的分类器,由内部节点,叶子节点以及分支构成。其中,内部节点表示在一个属性上的测试,分支代表测试的输出,叶子节点表示类别分布。树中每一个非叶节点对应着一个非类别属性,分支代表这个属性的值,而根节点到叶子节点之间的路径则形成一条分类规则。决策树可以很方便地转化为分类规则,是一种直观的分类模式表现形式。   ID3以及C4.5算法是最典型的决策树算法,其中ID3是1986年由Quinlan提出的最著名的决策树算法,运用信息熵理论,选择当前样本集中最大信息增益的属性值作为测试属性,样本集的划分则依据测试属性的值进行,测试属性有多少不同取值就将样本集划分为多少子样本集。ID3算法简单、快速但要求属性离散,而C4.5算法可以处理连续的属性值,它选择具有最大增益比例的属性作为划分样本集的属性。   2数据采集与预处理   本文所使用的数据来源于某车祸预防系统,此系统现已经安装在租车公司的运营车辆上面,可以记录驾驶员的性别、年龄、工龄、数据上传时间、车速以及告警类型等信息,并通过网络传输到后台数据库,进而获取个人驾驶行为数据。   然而,随着数据库中数据的快速增长,决策树的生成速度和准确性的评估将会明显变慢,并最终可能超过硬件的承载能力,因而通常的做法是对业务数据源进行抽样,选取出一个大小适中并尽可能地包含有全部业务数据的数据集样本。本文采集共计4543条数据,并采用保持法随机将此数据的2/3作为训练数据,其余的1/3作为测试数据。数据样例见表1。   这些驾驶数据中,存在一些重复和无效的数据影响驾驶行为的分析,因此在进行预处理时利用Python语言将这些数据从表中删除,比如:重复的时间,持续的怠速为0状态等。此外,由于研究目标是针对个人的驾驶行为,性别、年龄、工龄这些与输出变量无关的固定变量,应将其删除。对连续型属性

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档