一种基于SparkDBSCAN算法城市公交扒窃行为分析方法.docVIP

一种基于SparkDBSCAN算法城市公交扒窃行为分析方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于SparkDBSCAN算法城市公交扒窃行为分析方法

一种基于SparkDBSCAN算法的城市公交扒窃行为分析方法   摘 要: 随着中国城镇化进程的不断加速,城市公交扒窃行为给公民的生命财产安全构成极大的威胁,对社会风气造成了持续性的影响。研究中基于“犯罪行为是行为人主观意识对客观环境的反致行为”[1]这一理论,采用NLPIR汉语分词系统,整理以往城市公交扒窃行为数据,提取犯罪行为时间、位置数据,在Spark分布式计算框架下,利用DBSCAN算法做地理位置数据的聚类分析,发现造成犯罪反致行为[1]的客观环境和规律。通过改善客观环境,进而提高预防和控制犯罪行为的水平。   关键词: 中文分词;Spark;DBSCAN;公交扒窃   Abstract:With the acceleration of Chinas urbanization process the city bus theft poses a great threat to peoples lives and property resulting in a sustained effect on social climate. Based on crime is the revoni behavior of subjective consciousness and the objective environment [1]theory using NLPIR Chinese word segmentation system organizing the past city bus theft data extracting time and position data of criminal behavior in the framework of Spark distributed computing DBSCAN algorithm is used to realize the clustering analysis of geographical location data therefore discover the objective environment caused by criminal behavior and law of renvoi. By improving the objective environment the level of preventing and controlling criminal behavior could be improved.   Key words: NLPIR;Spark;DBSCAN;bus theft   引言   随着中国城镇化进程的不断加速,城市公共交通也得到了大力发展,造成其载客量大、流动性强等特点,给人们带来便利的同时,也为违法行为创造了现实可能,同时还将给人们的生命财产安全构成一定威胁。而且因其突出的流动性所导致,侦查工作也随即增加了告破难度,这也会给现代社会的有序发展制造了潜在隐患和不和谐因素。针对这一问题,关于城市公交扒窃犯罪行为的分析研究则具有重要的现实意义。   城市公交扒窃[2]犯罪是指以非法占有为目的,在城市公共交通工具上或公交乘车、候车场所,乘被害人不备之机,通过采用手掏、划包、夹取、剪取等秘密手段窃取他人随身携带财物的犯罪行为。   1 开发技术研究解析   NLPIR[3]是由张华平博士主持研发的汉语分词系统,重点包括了中文分词、词性标注、命名实体识别、用户词典功能、关键词提取等功能。   Spark[4]是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map/reduce算法实现的分布式计算,拥有Hadoop MapReduce的全部优点;但与MapReduce不同的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark在数据挖掘与机器学习等需要map/reduce迭代的算法研发上占据了明显优势。   DBSCAN[5](Density-Based Spatial Clustering of Applications with Noise)作为基于密度算法的经典代表,在聚类分析中得到越来越多的应用。与划分和层次聚类方法不同,DBSCAN可将簇定义为密度相连的?c的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。但是DBSCAN算法在处理数据时,需要多次重复扫描。在进行海量数据聚类时,DBSCAN算法会消耗大量的内存和I/O开销[6]。另外,DBSCAN算法在计算时需要用户提供2个全局参数,即邻域半径和邻域内包含对象的个数,这些参数对聚类结果很敏感,由于用户难以

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档