- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
移动终端位置信息聚类技术在公共安全领域的应用
移动终端位置信息聚类技术在公共安全领域的应用
摘要:移动通信、互联网及空间定位技术的成熟极大地促进了LBS(Location Based Services)的发展,也产生了越来越多的位置大数据。合理地使用时空数据挖掘技术可有效进行知识发现及价值提取,在追踪目标用户,维护公共安全等方面具有重要意义。本文以移动终端位置信息为研究对象,从推断目标用户敏感信息的角度出发,研究了基于时空数据挖掘的空间位置聚类方法,并总结了当前各类技术的不足,并指出了今后发展方向。
中国论文网 /8/view-7181393.htm
关键词:移动终端;位置信息;聚类技术;公共安全
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)29-0034-02
1 概述
随着移动互联网的普及,网络虚拟世界中人们通过网络ID以匿名方式进行社交活动,使得对违法活动的溯源追踪更加困难。而位置信息是连接现实世界和虚拟世界的桥梁,通过收集手机入网所在基站号,采集手机APP提交地理坐标,网络爬虫采集LBSN上用户签到的语义化地点,甚至直接通过服务提供商获取等途径都可以获取手机位置信息的大数据。近年来,随着大数据时代的兴起,通过机器学习和数据挖掘的手段可以从海量位置数据中获取有价值的信息。在维护公共安全方面,这种方法可以实现对目标人的追踪。
这种跟踪手段可以有很多应用,如网警可以通过分析移动终端社交APP(微信、微博、QQ、人人、陌陌)上传的历史位置信息,可有效追捕在此类社交网站散步不良信息者或网络诈骗者。同样,警察可以通过分析手机基站定位信息,推断犯罪嫌疑人住址,为实施抓捕提供有效情报。
2014年11月20日,在首届世界互联网大会分论坛“网络空间安全和国际合作”上,以色列网络安全专家Shai Schiller发表题为《从大数据当中发现情报》的演讲。他使用Deep Analytics系统检索在Facebook、Twitter等社交平台上与“占中”相关的活跃用户及其消息记录。Deep Analytics系统可以获取这些用户的资料、相互关系、地理位置等,并通过数据挖掘技术进行分析和过滤,查出活动的“重要成员的主要信息、参加活动的地方和参加活动的具体情况”等,并根据历史位置信息,对某个区域“建立一个围墙”,监管区域内所有人的Twitter数据。这一应用充分说明了利用手机位置大数据信息在追踪目标人,维护公共安全中的重要意义。
2 时空数据挖掘实现位置信息聚类
20世纪90年代中后期,数据挖掘领域的一些较成熟的技术,如关联规则挖掘、分类、预测与聚类等被逐渐用于时间序列数据挖掘和空间数据挖掘,以发现与时间或空间相关的有价值的模式。时空数据挖掘是综合利用各种数据挖掘技术从具有海量、高维、高噪声和非线性等特性的时空数据中提取出隐含的、人们事先不知道的、但又潜在有用的信息及知识的过程。对于移动终端位置大数据的分析,在获得时间、空间、用户ID三种属性的条件下,借助时空挖掘技术对位置信息进行聚类分析,可实现对用户敏感信息,如用户居住地位置、用户之间是否存在社会关系、用户即将到达的位置等的推断。
但在现实中,由于人们使用移动设备的习惯不同,很难获得等间隔、规律性的定位信息。更重要的是,由于隐私法规等约束,这种位置信息也并非实时的,而是历史位置信息。这一类数据在位置信息中占较大比重,使得追踪目标人变得更加困难。
然而,研究人员证明,大多数人平时往返于固定的地点,而且活动带有很强的规律性。这就意味着通过对历史位置数据进行有效挖掘,可以推断得知目标住所、工作地点等重要信息。正所谓“跑得了和尚跑不了庙”,通过这种手段,结合目标作息规律,可以预知目标所在位置。
在处理位置信息时,由于用户所在建筑物形状不同、定位误差、采集数据的误差、人为干扰等因素,首先需要抛开时间尺度,对位置进行聚类。所谓聚类(分析)即根据数据中发现的描述对象及其关系的信息,将数据对象分组[24]。算法的种类主要分为基于划分的聚类、基于层次的聚类、基于密度的聚类、基于网格的聚类、基于模型的聚类等5大方法。
1)基于划分的聚类方法
其基本思想是简单地将数据对象集划分为不重叠的子集,从而使每个数据对象恰在一个子集中。假设给定一个包含n个对象或数据的集合,将数据集划分为k个子集,其中每个子集均代表一个聚类(k 5)基于模型的聚类方法
基于模型的取类方法为每个簇假定一个模型,并在数据中寻找对给定模型的最佳拟合。目前主要研究的是利用概率统计模型进行概念取类和利用神经网络技术进行自组织聚类等方面。它们面对的主要问题仍然是如何适用于大数据源的聚类应用。基于模型的空间聚类方法包括基于统计的空间聚类方法和基于神经网络的空间聚类方法等。如E
文档评论(0)