【原创】SPSS基于逻辑回归和聚类模型的交通出行分析报告论文附代码数据.docxVIP

【原创】SPSS基于逻辑回归和聚类模型的交通出行分析报告论文附代码数据.docx

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于逻辑回归和聚类模型的交通出行分析 一、绪论部分 1.1、研究背景 城市交通拥挤、交通事故、环境污染已是全世界面的共同问题,并成为制约各城市社会和经济进一步发展的瓶颈问题。但由于受到了经济条件、技术条件、环境条件、空间条件等制约,单纯依靠增加投资、进行大规模交通基础设施建设解决城市交通问题的传统方法,已不能适应城市交通的迅速发展。 相对于其他出行,通勤出行在时间和空间上具有更大的恒定性,其时间安排 是影响城市居民其他活动和出行的选择。从某种意义而言,通勤活动也是其他活动的基础。特别是随着城市居民就业范围的扩大,通勤出行的数量不仅迅速增加,而且也日益的复杂化。特别是由于通勤出行集中在一定的高峰期和一定的区域,使得早、晚高峰通勤时段的交通拥堵,成为城市交通问题最为突出的问题。 1.2、研究目的 通过运用决策树和Logistic回归方法,找出影响通勤交通方式选择的因素,建立合适的模型,对出行方式问题进行分析以及提供一些合理化的建议。 1.3、研究意义 了解不同特点人员的出行方式,并根据找到的一些影响因素,采取相应的出行需求管理措施,对缓解城市交通拥挤、提高通勤者的出行质量,更具有现实的意义。 1.4、研究方法 主要采用决策树和Logistic回归方法对数据进行分析。 二、数据挖掘的相关理论 要在DSS中成功的实施数据挖掘并不是一蹴而就的,而是一个循序渐进、不断调整的过程。一般来说,DSS中的数据挖掘主要包括以下几个步骤[17](如图3所示): (1)确定分析和预测目标。DSS在进行数据挖掘时,首先需要明确商业目标,即你想通过数据挖掘解决什么问题,达到什么目的。另外,还要将准备解决的问题转化为可以测量的目标,即数据挖掘的成功准则。另外,作为数据挖掘的第一个步骤,还必须考虑其它因素,如可用的技术、资金、人才和时间等资源。 (2)数据选择。对基础数据进行了解和选择,比如从哪里获得数据、是否建立数据仓库、是否直接使用内部数据等问题。通过数据选择可以对基础数据建立基本的可信度。 (3)数据准备。对选择的数据进行必要的预处理、转换,以消除数据噪音,提高数据的完整性、准确性和可信度。 (4)模型构造。这是数据挖掘的关键阶段,这一阶段的主要工作有:根据挖掘的商业目标,选择相应的数据挖掘技术,建立培训数据和测试数据,利用训练数据采用相应算法建立模型和模型解释。 (5)模型评估和校验。使用测试数据对建立的模型进行测试、计算误差率,如未达到预期目标,则根据误差原因,重新回到模型构造或数据选择阶段,重复相关过程,直至找到满意的模型。如果是商业目标确定的不符合实际,就需要重新审视最初的商业目标定义。 (6)部署和应用。建立满意的模型后,就可以在整个企业内部署和应用模型。另外,在应用的过程中还要不断的测试模型的成功概率,从而来完善模型。 确定分析和预订目标 确定分析和预订目标 部署应用 数据选择 数据准备 模型构造 模型评估检验 是否达到预定目标 数据不足噪音大 模型不准确 N Y N Y N Y 图1 数据挖掘步骤 三、建模前的准备过程 3.1、数据来源 本次分析的数据使用调查数据已统计到“数据.xlsx”表中。 3.2、指标选取 本次分析一共选取了12个指标3000个样本,分别是:居住地离上班地的距离、个人年收入、家庭年收入、年龄、性别、家庭拥有汽车的数量、受教育水平、工作类型、家里人口数量、家里未成年人数量、房屋拥有类型、房屋居住面积、主要通勤出行方式。 3.3、指标介绍 Distance:居住地离上班地的距离(公里) Pincome:个人年收入(万元) Hincome:家庭年收入(万元) Age:年龄 Gender:性别(0:女;1:男) Car:家庭拥有汽车的数量 Education:教育水平(1:初中及以下;2:高中;3:专科;4:本科;5:研究生) Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其他) People:家里人口数量 Children:家里未成年人数量 Housing:房屋拥有类型(0:租房;1:买房) Area:房屋居住面积(平方米) Mode:主要通勤出行方式(1:汽车;2:公共交通;3:电动自行车;4:其他) 但是小区的编号忘记记录下来。 3.4、数据审核 图2 数据审核 由上表,可得:本次分析的数据都是有效的,不存在缺失值。 3.5、描述性统计量 图3 数据描述 由上表,可得:距离、个人收入、年收入、拥有汽车数量、教育水平、工作类型、家里人口数量、未成年人数量、房屋居住面积这8个变量的均值分别为:11.8597、8.59、19.593333、1.19、41.66、.82、2.98、121.85,可以看出这8个连续性变量不存在量纲上的差异,因此在后面的分析中,不需要进行标准化处理。同时

文档评论(0)

movie + 关注
实名认证
文档贡献者

喜欢分享的作者

1亿VIP精品文档

相关文档