基于空间密度聚类的移动用户热点区域识别方法.docVIP

基于空间密度聚类的移动用户热点区域识别方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于空间密度聚类的移动用户热点区域识别方法.doc

基于空间密度聚类的移动用户热点区域识别方法 识别移动用户热点区域是为了解决用户在不同地理位置对业务的不同需求,以此作为移动运营商规划设计的重要依据。为此,将基于大量用户的移动信令数据,通过空间密度聚类的方法(DBSCAN)来识别用户的热点区域。实验证明,通过DBSCAN方法来识别热点区域比传统方法更准确高效。 DBSCAN 移动用户 热点区域识别 Mobile User Hotspot Recognition Method Based on Space Density Clustering DU Cui-feng, YU Yi, JIANG Chao Mobile user hot spot identification can solve different demands of users in different geographic locations and provide an important reference to telecom operators’planning and designing. The method based on mobile user space density clustering (DBSCAN) was used to identify hotspot area according to large amounts of mobile signaling data. Experiments demonstrate that, compared with traditional algorithms, DBSCAN algorithm is more accurate and efficient to identify hotspot area. DBSCAN mobile user hot spot identification 1 引言 当前针对用户轨迹进行聚类的研究主要有:文献[2]提出对轨迹点进行空间密度的聚类,但是该方法由于没有对轨迹的噪音进行预处理,而且只通过K近邻的算法对数据进行聚类,因此聚类结果的区分度不够高,在现实中无法有效应用;文献[3]将轨迹点转化为线段序列,通过对线段序列进行聚类来挖掘热点路径,但是该方法由于只适用于GPS数据,因此对手机采集的信令数据并不适用;文献[4]通过将序列转换成网格序列,然后基于网格进行聚类发现热点区域。由于基于手机信令的用户轨迹点数量庞大,且分布的区域分散,传统的轨迹聚类方法已经不能满足热点挖掘的要求,因此研究基于密度的空间聚类轨迹挖掘算法必然成为当今的需求。基于此,本文提出了DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法),通过先找出用户停留的聚类热点,然后再找出聚类热点的边界来确定热点区域的边界。实践证明,基于该算法在处理海量数据的时间效率和热点区域识别的准确率上都有很好的效果。 2 基于用户信令数据进行定位 2.1 手机信令数据“噪音”预处理 由于现实生活中用户发生业务时受到外界因素的干扰,因此信令数据中夹杂了大量的“噪音”,包括:重复定位、虚假切换信息、兵乓效应、记忆效应、孤岛效应等。这些“噪音”会对热点区域识别产生较大的干扰和误差,因此本文通过大数据相关工具对手机信令的“噪音”进行剔除。 2.2 基于3D射线模型与KNN模型的用户定位 定位方法的主要思想是:第一,把整个地市划分为100×100m的网格;第二,通过3D射线追踪模型得到建立每个网格的定位指纹库,包括覆盖范围内手机接收到的服务基站信息(含基站和信号平均值);第三,根据实时采集的小区信号强度与定位指纹库进行相似度计算,求出最大相似度所在网格,以该网格作为用户的位置。 3 基于DBSCAN算法的热点识别方法 3.1 DBSCAN算法 DBSCAN是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。 该算法利用基于密度的聚类的概念,即要求聚类空间中的一定区域内所包含对象(点或其他空间对象)的数目不小于某一给定阈值。DBSCAN算法的显著优点是聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。 3.2 基于DBSCAN算法的热点提取过程 (1)网格的局部密度 按照上述方式进行用户定位,该定位精度是100×100m的网格。假设待聚类网格的数据集为S xi (i 1,…,N),Is 1,2,…,N 为指标集,dij dist(xi,xj)表示网格xi和xj之间的距离(网格的距离表示两个网格中心点之间的距离)。对于网格数据集中任何网

文档评论(0)

ganpeid + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档