- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
用决策树算法分析波顿犯罪用决策树算法分析波顿犯罪率
中南民族大学
《数据挖掘》课程论文
学院: 数学与统计学学院
专业: 应用统计 年级:2013级
题目: 用决策树算法分析波士顿犯罪率
学生姓名:郑子康学号:201321103101
指导教师姓名:娄联堂 职称: 教授
成绩:
2016年 6月 1日
目 录
摘要 1
关键词 2
1 绪论 2
1.1 文献综述 2
1.2 研究背景 2
1.3 一些概念 2
2数据及数据解释 3
2.1数据介绍 3
2.2过程及结果 4
2.3结果分析 5
2.4结论和建议 8
3.缺点 8
参考文献 8
用决策树算法分析波士顿犯罪率
摘要:本文章主要是通过波士顿的房屋数据来分析一些因素对犯罪率的影响。数据包括城镇人均犯罪率、氮氧化物的浓度、住宅平均房间数目和小学教师的比例等。犯罪率[1]是指一定时空范围内犯罪中与人口总数对比计算的比率。犯罪率的高低影响着社会安全,与每个人的生活息息相关,它影响着人们的辛福感。降低犯罪率是每个国家,每个城市都必须面对、思考、解决的问题。本文使用Weka软件中的决策树算法挖掘分析房屋数据中的某些特定因素与犯罪率的关系。
关键词:房屋;数据;犯罪率;Weka;数据挖掘
1 绪论
1.1 文献综述
文献[1]给出了犯罪率的定义。文献[2]和文献[3]介绍了当前时代背景下导致犯罪的一些原因。文献[4]说明了大数据分析对预防犯罪的有效支持。文献[5]、[6]、[7]介绍了本文需要用到的软件和算法的概念。文献[8]指明了数据的来源。
1.2 研究背景
在物欲横流的时代背景下,犯罪控制成为每个国家都必须思考制定的公共政策。
“随着城市化的迅速发展,城市犯罪问题也逐渐凸显。城市的日益膨胀为犯罪提供了更加适宜的温床。高楼大厦的矗立为犯罪提供了隐蔽的场所,异质性群体间的矛盾和冲突加速了犯罪的发生,贫富差距导致的被剥夺感增强从而刺激了犯罪。”[2]在20世纪初,美国芝加哥学派曾提出过“犯罪是城市的问题”[3]的命题。在如此严峻的情势下,我们迫切需要运用科学的方法来控制犯罪。幸运的是互联网技术的突飞猛进不断突破我们的认知范围,大数据时代已然到来。在信息如此发达的时代,分析大数据为降低犯罪率提供了有力支持。“在预防方式上,大数据预防犯罪将消极的事后预防转变为积极的事前预防。即通过对某一区域犯罪数据的分析,可以确定该区域犯罪的关联因子,不必等到具体犯罪发生后才采取相应对策。例如,通过对某区域高频率词语收集、分析,可以预测在该区域即将发生的犯罪行为,从而提前在该区域部署防范应对措施,如增加巡逻警力、加大宣传力度、建立警民合作机制等,将即将发生的犯罪扼杀在摇篮中。”[4]
1.3 一些概念
数据挖掘[5](Data Mining)是发现数据中有用模式的过程。数据挖掘会话的目的是确定数据的趋势和模式。数据挖掘强调对大量观测到的数据库的处理。它是涉及数据库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用。
Weka[6](Waikato Environment for Knowledge Analysis,怀卡托智能分析环境)诞生于University of Waikato(新西兰怀卡托大学),是一个基于Java的免费开源软件。它集成了大量有关数据挖掘的机器学习算法和统计技术,具有数据预处理、分类、聚类、关联分析、属性选择和交互式可视化等功能,其操作简单、易学易用,可作为入门软件完成一些简单的数据挖掘工作。
算法[7]:
J48是基于C4.5实现的决策树算法,C4.5算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。
信息增益:实际上是ID3算法中用来进行属性选择度量的。它选择具有最高信息增益的属性来作为节点N的分裂属性。该属性使结果划分中的元组分类所需信息量最小。对D中的元组分类所需的期望信息为下式:
。
现在假定按照属性A划分D中的元组,且属性A将D划分成v个不同的类。在该划分之后,为了得到准确的分类还需要的信息由下面的式子度量:。
信息增益定义为原来的信息需求(即仅基于类比例)与新需求(即对A划分之后得到的)之间的差,即
2数据及数据解释
2.1数据介绍
本文所用数据下载自UCI[8]。
首先进行数据预处理。此数据原有506组,剔除一些缺失值和遗漏,剩余452组。预览见图一:
图一
其中翻译如下[9]:
CRIM表示城镇人均犯罪率;
ZN表示住
您可能关注的文档
- 现代教育学(扈中平)复习纲现代教育学(扈中平)复习提纲.doc
- 现代学徒制试点项目报书修稿现代学徒制试点项目报书修改稿.doc
- 现代教育技术与学科程的整研究(阶段总结)现代教育技术与学科程的整合研究(阶段总结).doc
- 现代教育技术在中学物课堂学中的应用现代教育技术在中学物课堂教学中的应用.doc
- 现代教育技术1、2网上作答案现代教育技术1、2网上作业答案.doc
- 现代威亚KH63G卧式加中心现代威亚KH63G卧式加工中心.doc
- 现代教育技术 在教改革中作用19现代教育技术 在教改革中的作用19.doc
- 现代教育媒体下教师色观的变的文献综述现代教育媒体下教师色观的转变的文献综述.doc
- 现代教育技术在高校学中的用之基于数字化环境的教学模式探索现代教育技术在高校学中的应用之基于数字化环境的教学模式探索.doc
- 现代教育技术实验(范)学、幼儿园申报表现代教育技术实验(范)学校、幼儿园申报表.doc
文档评论(0)