一种基于条件随机场CRF)运动轨迹填补方法.docVIP

一种基于条件随机场CRF)运动轨迹填补方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于条件随机场CRF)运动轨迹填补方法

一种基于条件随机场CRF)的运动轨迹填补方法   摘要摘要:关于运动轨迹填补方法,以前的研究只考虑了数据之间的局部关联性而忽视了全局关联性,条件随机场方法可以有效解决这个问题。首先利用基于用户的协同过滤算法寻找候选集,再利用基于距离的聚类算法对候选集预处理,达到筛选的目的;最后利用条件随机场理论对运动轨迹的缺失值进行填补。实验表明:该方法准确度较高。   关键词关键词:协同过滤;聚类;条件随机场;运动轨迹   DOIDOI:10.11907/rjdk.1511549   中图分类号:TP301   文献标识码:A文章编号文章编号2016)002001202   0引言   随着无线通讯技术水平的提高,手机用户的数量急剧增加,移动服务得到蓬勃发展,与此同时,产生的数据也以一种惊人的速度增加着。运动轨迹是由手机中的GPS定位的,由于受到网络不稳定性和设备故障等因素的影响,使得原始数据缺失,而原始数据的缺失对分析结果影响很大,因而对缺失数据进行处理尤其重要。常见的处理方法有:EM算法[1] 和决策树[2],这两种方法分别存在着填补准确率低和对噪声较为敏感的缺陷,因此张婵[3]提出了一种支持向量机的方法,可以有效克服上述不足,但是却存在着忽略数据弥补后整个运动轨迹的一致性缺陷。于力超[4]等人提出一种最相邻填补和关联规则结合的缺失值填补方法,缺点是只考虑了相邻数据的关联性而忽视了整体的关联性;条件随机场[5]可以较好地从全局上考虑数据之间的关联性,目前还没有利用条件随机场进行缺失值填补的研究,因此本文方法较具价值。   1条件随机场运动轨迹填充方法   1.1移动用户运动轨迹缺失值填补模型   模型如图1所示。   1.2寻找候选集   运动轨迹中的主体是人,目标用户的行为和其具有相似爱好的用户行为具有较高的相似度,所以采用协同过滤算法进行候选集选择。   协同过滤算法,也可以叫作社会过滤算法,它充分利用了“人”这个元素的社会属性。社会中的每个人都有一些和自己兴趣相似的个体。因此,可以这样假设:一个人可能更喜欢和他兴趣相投的人做感兴趣的项目。   协同过滤算法分类[6]如图2所示。   基于用户的协同过滤算法核心是相似性计算,方法有3种:余弦相似性、Pearson 相关相似性、修正的余弦相似性[7],本文采用的是最常用的余弦相似性,其公式为:   sim(,) = cos(,) = ×‖u→‖×‖v→‖ = ∑j∈Juv Ruj .Rvj ∑j∈Juv R2uj .∑j∈Juv R2vj (1)   1.3候选集筛选   由于协同过滤算法的候选集数目较多,为了提高整个模型的性能和效率,我们采用聚类[8]进行筛选。聚类就是数据对象分组为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。协同过滤算法产生的备选预测集数目较多,利用聚类进行预筛选,可以降低后续算法的复杂度。筛选的原理是:用户对于一个项目的兴趣度会随着项目离用户的距离增大而显著降低。因此,本文利用对象之间的距离表示对象之间的相异度。最常用的距离度量方法是欧几里得距离 ,其公式为:   d(i,j)=(xi-xj)2+(yi-yj)2(2)   (xi,yi)――目标用户二维平面直角坐标;   (xj,yj)――待推荐用户坐标。   1.4缺失值填补   在移动环境下,用户运动轨迹中点与点之间会有一定的关联性,比如用户喜欢吃完饭后喝咖啡,用户的下一点选择很大程度上取决于前一点,即后一点依赖于前一点。与此同时,当数据缺失时,我们可能会对数据进行简单的预测和填充,而忽视了将这些缺失的数据填补上。条件随机场(CRF)不仅利用数据间的相关性,而且它计算的就是联合概率――将一个完整运动轨迹中所有的点都考虑进去后,计算可能性概率;利用线性链CRF模型对测试集进行训练,从而找出其中最佳的点的集合。其工作原理如下:从每个缺失节点的候选集中,依次取出一个填充值,将这个由填充值构成的运动轨迹放入CRF中,计算出它的概率,然后再取出新的填充带入CRF中,最后比较所有填充集概率,选出其中最大的那个作为填充值。计算过程如下:   (1)特征函数fk的选择:特征函数一般情况下是一个布尔函数,即满足条件时其值为1,否则为0。其公式如下:   f(yi-1,yi,x,i)=b(x,i)if(yi-1=a,yi=b)0(3)   当前一个节点和后一个节点满足条件时,特征函数取值为1,否则为0。   (2)参数估计:建立条件随机场模型的主要任务是从训练数据中估计特征的权重λ。在观察值{x1,x2,...xn}和标记值{y1,y2,...,yn}下,对参数λ采用极大似然估计法。对数函数形式为:   L(λ)=∑x

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档