基于主题的轨迹模式挖掘.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于主题的轨迹模式挖掘 摘要:随着社交网络中的地理标记信息的增多,传统的轨迹模式挖掘方法不能处理这些数据中丰富的信息。传统的轨迹模式挖掘算法能根据GPS数据挖掘出人们的移动模式,但是无法利用文本信息中上下文相关的潜在主题来实现轨迹模式挖掘。本文主要介绍一种基于潜在主题的聚类算法,它能发现地理标记文本信息中的轨迹模式。 关键词:主题;轨迹模式挖掘;聚类;概率模型 Abstract:Withtheincreasingofgeo-taggingmessagesinsocialnetwork,traditionaltrajectorypatternminingmethodscannotdealwiththeserichdata.Traditionaltrajectorypatternminingalgorithmscanfindthepatterofpeople’smovementsusingGPSdata,butlatenttopicsintextmessagespostedwithlocalcontextshavenotbeenutilized.Inthispaper,alatenttopic-basedclusteringalgorithmisintroduced.Itcanfindtrajectorypatterningeo-taggedtextmessages. Keywords:Topic;TrajectoryPatternMining;Cluster;ProbabilisticModel 1引言 随着网络技术的发展,社交网络在人类生活中的位置越来越重,微博等社交网络工具已经成为人们交流的一个重要方式。人们通过移动设备随时随地的对自己的状态进行更新,随时刷新自己的位置,自己在做的事,以及自己的心情。伴随着用户生成的媒体中,越来越多的关于位置信息的文本和照片出现在微博等网络媒体中,对于用户的轨迹模式的挖掘,不仅可以使用用户的位置信息,还可以使用在这些位置上用户的行为信息。 对于GPS传感器收集到的轨迹数据进行研究,挖掘用户的轨迹模式一直是很多应用的研究重点,这些应用需要分析用户的位置信息,如移动导航系统,城市交通分析以及飓风追踪等等。但是这种传统的轨迹模式挖掘技术主要是根据GPS传感器的数据来分析移动物体的轨迹模式,这些数据非常频繁,足以支撑对应的模式分析对数据量的需求。而且,这种轨迹模式的挖掘也不考虑位置信息的语义含义。 在社交网络中,对用户的轨迹模式的分析能为其他用户提供路线推荐或发现有趣的轨迹模式,这种轨迹模式挖掘已经成为一个新的研究热点。但是,在社交网络中,由于用户提供的带有位置信息的文本和照片是稀疏的,在该信息中,对于语义的理解和表示也存在着差异,因此,对这些具有主题的轨迹模式进行分析可以得到很多有用的信息[1]。 本文主要探讨在社交网络中,对于用户提供的带有语义的位置信息进行基于主题的轨迹模式挖掘问题。首先介绍轨迹模式挖掘的相关工作成果,然后分析基于主题的轨迹模式挖掘问题面对的难题,最后介绍一种基于概率模型的主题轨迹模式挖掘方法,并分析其性能。 2基础知识 对移动对象的GPS数据进行轨迹模式挖掘已经有了广泛的研究,最初的挖掘算法只使用GPS位置数据,这些挖掘算法通常把相似的位置信息进行聚类,找到共同的、普通的轨迹模式。有的聚类算法不仅能找出相似轨迹模式的类,还能找出具有相似子轨迹的类。有的算法基于HIT算法发现共同的轨迹模式,还有算法能找出给定的两个位置之间最流行的路径。然而,这些轨迹模式挖掘算法都仅仅关注从GPS传感器得到的数据,这些数据记录的位置信息非常频繁,数据量也很大。 随着网络的发展,在微博等服务上出现了大量的具有位置标记的信息,这些数据是稀疏的,并且具有语义信息。为了挖掘这些数据中的轨迹模式,轨迹模式挖掘算法不仅需要使用位置数据,还要能使用位置的语义信息。最近出现的轨迹模式算法中,有的算法能通过图片中的GPS位置信息找到语义模式,发现用户生成标签的顺序模式;有的算法能发现社交媒体中的多样性的短轨迹模式;有的算法能基于用户生成的位置类别,对用户的轨迹模式进行很好的聚类[2]。 使用社交媒体红的位置标记信息挖掘轨迹模式,主要有三个问题:如何找到主题一致的区域;如何处理噪音信息;如何解决轨迹模式的稀疏问题[3]。 由于位置标记是一对分别表示经度和纬度的实数,所以首先对相近位置主题相近的位置标记信息进行聚类,并把这些具有一致主题的区域称为语义区域。由于在微博等服务上的大部分信息是关于个人的,很难把这些信息按同一个主题来聚类,另外,在带有噪音的语句信息中挖掘出轨迹模式也使问题的?y度加大。 为了从位置标记信息中挖掘与主题相关的轨迹模式,文[4]给出了一个称为LGTA的基于概率模型的聚类算法,该算法能把具有相同主

文档评论(0)

行业资料 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档