基于手机经纬度数据的重要位置识别应用研究.docx

基于手机经纬度数据的重要位置识别应用研究.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于手机经纬度数据的重要位置识别应用研究

?

?

王兴旺

摘要:在大数据背景下,为挖掘手机与基站交互而产生的经纬度数据的社会价值,在聚类算法的基础上,提出一种基于局部异常因子LOF的k-means空间聚类算法。试验结果表明,该算法在去除离群点后,提高了分类识别准确度,对大数据集和高维数据重要位置识别上有较理想的效果。

关键词:聚类;局部异常因子;经纬度数据;重要位置

:TP311:A:1007-9416(2019)08-0053-02

0引言

随着移动通讯、无线定位、移动互联网技术的高速发展,在智能手机及各类APP应用日益普及的当下,手机用户日常生活轨迹网络化的程度越来越高,当人们使用手机浏览新闻资讯、接打电话、收发信息、聊天、游戏时,手机与基站之间时刻发生即时通讯,由此产生了大量的空间位置数据。

目前,对手机用户轨迹进行聚类的研究中,文献[1]提出对轨迹点进行空间密度聚类,该方法没有对轨迹的离群点进行预处理,只通过KNN算法对数据进行聚类,聚类的区分度不够高。文献[2]将轨迹点转化为线段序列,通过对线段序列进行聚类来挖掘热点路径,该方法适用于GPS数据,对手机采集的信令数据并不适用。文献[3]通过将数据序列化网格序列,基于网格进行聚类发现热点区域,但基于手机信息的数据量巨大,传统的聚类方法已经不能满足热区挖掘要求。文献[4]提出了基于DBSCAN的空间聚类算法,处理带有噪声的空间位置数据,多个区域间相差较大,导致聚类质量较差。基于此,本文结合LOF离群点检测算法,提出了基于LOF的k-means空间聚类算法。LOF算法适用于基于不同密度的数据集群,通过利用LOF算法去掉部分异常位置数据,再利用聚类算法,找到手机用户的几个常用的聚集地。经过实验论证,该算法在处理海量数据时有较好效果。

1基于LOF+K-means的重要位置识别算法

1.1LOF算法

LOF算法作为一种基于密度方法的异常检测算法,通过将数据样本点的可达密度与其邻居的平均可达密度之比作为离群因子,用以识别离群点。

1.1.1定义

(1)可达距离。点o到p的第k可达距离定义为:

rdk(p,o)=max{k-distance(o),d(p,o)

(2)局部可达密度。点p的局部可达密度表示为:

lrdk(p)=1/

该值代表一个密度,密度越高,认为越可能属于同一簇,密度越低,越可能是离群点。

(3)局部离群因子。点p的局部离群因子表示为:

LOFk(p)==/lrdk(p)

表示点p的邻域点Nk(p)的局部可达密度与点p的局部可达密度之比的平均数。

1.1.2异常点判断

如果局部离群因子越接近1,说明p的邻域点密度差不多,p可能和邻域同属一簇;如果这个比值越小于1,说明p的密度高于邻域点密度,p为密集点;如果这个比值越大于1,说明p的密度小于其邻域点密度,p越可能是异常点。

1.1.3算法1LOF算法

输入:数据样本空间及局部邻居数和异常比;(1)设定局部邻居数和异常比,使用LOF算法对数据样本空间进行异常点检测;(2)根据1中得到正常点和异常点;(3)从数据样本空间中删除异常点。

1.2K-means算法

k-means算法是基于划分的聚类算法,将样本空间在特征空间下相似的样本进行分类组织的过程,形成若干个不相交的簇,使得组内距离尽可能小,而组间距离尽可能大。

k-means算法的实现准则是选取适当的准则函数,是一种发现这种内在结构的技术,由于不需要标注样本而被称为无监督学习。由于简洁和效率而成为所有聚类算法中最广泛使用的一种算法。给定一个样本空间和需要划分的聚类数目k,k由用户指定,k均值算法根据某个距离函数反复把样本归入到k个聚类中。

1.3基于LOF+K-means的重要位置识别算法

在识别重要位置时,由于个体日常生活、工作中在空间位置移动时,多数情况下会在几个主要区域切换,有部分位置因为偶尔出现,而在数据上表现出一定的随机性,在识别特定手机用户重要位置时可以先将这些数据剔除,因此,本文考虑将局部异常因子算法结合k-means算法,达到识别出特定手机用户的重要位置。

根据模型输入数据的特征及业务特点,可以利用k-means聚类算法,挖掘出每个手机用户的三个簇(工作地、居住地、其他),再根据聚类中心与数据样本中距离最近的样本,标注为该手机用户的工作地、居住地、其他。

1.4算法2基于LOF的K-means算法

输入:数据样本空间、局部邻居数和异常比、聚类数k;

(1)根据LOF算法过滤异常点;(2)预先给定k=3,随机从样本中选取3个初始聚类中心;(3)计算所有样本到每个聚类中心的距离,并将所有样本划归到距离最近的距离中心;(4)在每个聚类中,根据所有样本的平均值,将其作为新的聚类中心;(5)循环2、3,直到迭代步达到预先

文档评论(0)

158****7198 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档