云环境中基于海量签到数据的并行地点推荐算法研究.docVIP

下载本文档

1
0
约3.41千字
约 6页
2018-08-12 发布于湖北
举报
版权申诉

云环境中基于海量签到数据的并行地点推荐算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

云环境中基于海量签到数据的并行地点推荐算法研究　　摘要：目的：提出一种基于MapReduce架构的并行推荐算法，提高在超大规模且结构复杂的数据集中的推荐效率。方法：在MapReduce并行计算模型中分析用户访问真实地理位置的行为轨迹，将用户的签到行为量化为用户对签到地点的喜好程度，综合分析用户间的相同签到记录及不同用户对签到地点的偏好程度，计算用户间的相似性，实现个性化地点推荐。利用Gowalla和Foutsquare社交网站真实的签到数据集进行实验验证。结果：推荐结果在召回率及精度上均优于传统的协同过滤推荐算法且具有较高的加速比。结论：该推荐算法具有良好的可扩展性及高效的执行性能，能够适用于云计算环境中针对海量数据的推荐。　　关键词：推荐系统；云计算；基于位置服务　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2016）36-0012-02 　　1 基于海量签到数据的推荐算法　　在基于位置的社交网络中，如果两个用户是好友，那么他们在相同地点签到次数是两个陌生用户的三倍，说明了用户间的地理位置特征与其社会关系互相补充. 用户的每次签到行为都具有一定意义，用户的每个签到记录能够反映其偏好，在同一地点进行签到的用户之间具有某种共性。　　2 基于MapReduce架构的并行推荐系统模型　　2.1 并行推荐框架　　MapReduce是Google 公司首先提出的一种能在大型计算机集群上并发处理海量数据的分布式计算框架模型。它是一种简化的分布式编程模式，以充分发挥廉价计算机集群的计算能力，以解决单一普通计算机由于处理器以及存储资源的限制而无法有效处理海量数据计算的问题。该模型会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器失效问题，并且管理机器之间的通讯请求。对大规模数据的计算过程可以简化为Map 和Reduce两大基本操作，Map就是将一个任务分解成为多个任务，Reduce就是将分解后多任务处理的结果汇总起来，得出最终的分析结果。初始状态下，数据集进行划分并存储在分布式文件系统中。用户通过重写自己的Map函数处理初始的数据key/value 对，产生一系列的中间key/value 对，并且使用重写的Reduce 函数将具有相同key 值的中间键值对聚集起来进行处理，最后将结果输出。　　Map （k1，v1） → list（k2，v2）　　Reduce （k2，list（v2）） → list（k3，v3）　　Hadoop是Apache 开源社区开发的一个MapReduce的Java 实现，提供了在由通用计算设备组成的大型集群上执行分布式应用的框架。图1 展示了在Hadoop计算中的数据流向，Hadoop将输入数据分为N个Split，启动相应的N个Map 函数应用到输入数据的不同分块上，输出key/value值对；然后通过merge 过程对中间键值对进行分配，将相同key 值的所有键值对发送到同一Reduce 节点上；最后Reduce 计算过程被触发，对相同key 的键值对列表进行处理，将最终的结果输出到分布式文件系统HDFS（hadoop distributed file system）中。　　2.2 海量签到数据存储　　Gowalla和Foutsquare提供的?到数据格式为，将海量签到数据以分块的形式存储到HDFS分布式文件存储系统中，导入的数据格式为txt文本格式。HDFS具有高容错性，为了保证数据的安全和高效，存入的签到数据均备份副本，保证了数据的鲁棒性。　　2.3 相似度计算与推荐算法　　签到地点对用户偏好的贡献度计算构建过程如下：其中CheckinDate为用户的签到数据信息，包括用户编号user_id，签到地点point_id，用户的签到数checkin_num等。　　Map阶段。将签到数据作为输入，Map函数根据CheckinDate数据格式特点，按照偏移量提取键值对作为输出。　　Reduce阶段。Reduce的输入为记录列表，将point_id作为key值，将相同key值的签到数据分配给同一个Reduce任务.Reduce函数分别累加两个变量pn、un，对每个新出现的point_id同时对pn、un加1，对每个已现的point_id仅对pn加1，对每个user_id的pn除以对应的checkin_num求得签到频率，将用户总数N除以un并取对数，然后将两结果相乘计算得出签到地点对其偏好的贡献度pw.Reduce阶段输出格式为。　　用户相似性计算阶段的MapReduce构建过程中，首先计算在一个地点的相似性，然后汇总在各地的相似值，计算出用户间相似度，具体构建过程为：　　Map阶段。输入键值对为， Map