【原创】SPSS基于逻辑回归和聚类模型的交通出行分析报告论文附代码数据.docxVIP

下载本文档

6
0
约6.98千字
约 16页
2023-07-10 发布于北京
举报
版权申诉

【原创】SPSS基于逻辑回归和聚类模型的交通出行分析报告论文附代码数据.docx

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于逻辑回归和聚类模型的交通出行分析一、绪论部分 1.1、研究背景城市交通拥挤、交通事故、环境污染已是全世界面的共同问题，并成为制约各城市社会和经济进一步发展的瓶颈问题。但由于受到了经济条件、技术条件、环境条件、空间条件等制约，单纯依靠增加投资、进行大规模交通基础设施建设解决城市交通问题的传统方法，已不能适应城市交通的迅速发展。相对于其他出行，通勤出行在时间和空间上具有更大的恒定性，其时间安排是影响城市居民其他活动和出行的选择。从某种意义而言，通勤活动也是其他活动的基础。特别是随着城市居民就业范围的扩大，通勤出行的数量不仅迅速增加，而且也日益的复杂化。特别是由于通勤出行集中在一定的高峰期和一定的区域，使得早、晚高峰通勤时段的交通拥堵，成为城市交通问题最为突出的问题。 1.2、研究目的通过运用决策树和Logistic回归方法，找出影响通勤交通方式选择的因素，建立合适的模型,对出行方式问题进行分析以及提供一些合理化的建议。 1.3、研究意义了解不同特点人员的出行方式，并根据找到的一些影响因素，采取相应的出行需求管理措施，对缓解城市交通拥挤、提高通勤者的出行质量，更具有现实的意义。 1.4、研究方法主要采用决策树和Logistic回归方法对数据进行分析。二、数据挖掘的相关理论要在DSS中成功的实施数据挖掘并不是一蹴而就的，而是一个循序渐进、不断调整的过程。一般来说，DSS中的数据挖掘主要包括以下几个步骤[17](如图3所示)： (1)确定分析和预测目标。DSS在进行数据挖掘时，首先需要明确商业目标，即你想通过数据挖掘解决什么问题，达到什么目的。另外，还要将准备解决的问题转化为可以测量的目标，即数据挖掘的成功准则。另外，作为数据挖掘的第一个步骤，还必须考虑其它因素，如可用的技术、资金、人才和时间等资源。 (2)数据选择。对基础数据进行了解和选择，比如从哪里获得数据、是否建立数据仓库、是否直接使用内部数据等问题。通过数据选择可以对基础数据建立基本的可信度。 (3)数据准备。对选择的数据进行必要的预处理、转换，以消除数据噪音，提高数据的完整性、准确性和可信度。 (4)模型构造。这是数据挖掘的关键阶段，这一阶段的主要工作有：根据挖掘的商业目标，选择相应的数据挖掘技术，建立培训数据和测试数据，利用训练数据采用相应算法建立模型和模型解释。 (5)模型评估和校验。使用测试数据对建立的模型进行测试、计算误差率，如未达到预期目标，则根据误差原因，重新回到模型构造或数据选择阶段，重复相关过程，直至找到满意的模型。如果是商业目标确定的不符合实际，就需要重新审视最初的商业目标定义。 (6)部署和应用。建立满意的模型后，就可以在整个企业内部署和应用模型。另外，在应用的过程中还要不断的测试模型的成功概率，从而来完善模型。确定分析和预订目标确定分析和预订目标部署应用数据选择数据准备模型构造模型评估检验是否达到预定目标数据不足噪音大模型不准确 N Y N Y N Y 图1 数据挖掘步骤三、建模前的准备过程 3.1、数据来源本次分析的数据使用调查数据已统计到“数据.xlsx”表中。 3.2、指标选取本次分析一共选取了12个指标3000个样本，分别是：居住地离上班地的距离、个人年收入、家庭年收入、年龄、性别、家庭拥有汽车的数量、受教育水平、工作类型、家里人口数量、家里未成年人数量、房屋拥有类型、房屋居住面积、主要通勤出行方式。 3.3、指标介绍 Distance：居住地离上班地的距离（公里） Pincome：个人年收入（万元） Hincome：家庭年收入（万元） Age：年龄 Gender：性别（0：女；1：男） Car：家庭拥有汽车的数量 Education：教育水平（1：初中及以下；2：高中；3：专科；4：本科；5：研究生） Job：工作类型（1：公司职员；2：工厂工人；3：公务员；4：个体；5：事业单位；6：其他） People：家里人口数量 Children：家里未成年人数量 Housing：房屋拥有类型（0：租房；1：买房） Area：房屋居住面积（平方米） Mode：主要通勤出行方式（1：汽车；2：公共交通；3：电动自行车；4：其他）但是小区的编号忘记记录下来。 3.4、数据审核图2 数据审核由上表，可得：本次分析的数据都是有效的，不存在缺失值。 3.5、描述性统计量图3 数据描述由上表，可得：距离、个人收入、年收入、拥有汽车数量、教育水平、工作类型、家里人口数量、未成年人数量、房屋居住面积这8个变量的均值分别为：11.8597、8.59、19.593333、1.19、41.66、.82、2.98、121.85，可以看出这8个连续性变量不存在量纲上的差异，因此在后面的分析中，不需要进行标准化处理。同时