- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HadoopWeb用户识别与新闻智能算法研究
基于HadoopWeb用户识别与新闻智能算法研究
摘要:为了解决大数据时代用户阅读时遇到的“信息过载”与“信息迷失”问题,提出了基于Hadoop平台的用户准确识别与新闻推荐算法。首先基于MAC地址识别用户,通过对用户浏览轨迹的离线和在线挖掘,建立用户兴趣模型。然后对新闻关键词进行聚类,结合协同过滤和启发式方法,基于关键词对用户进行新闻的智能推荐。实验结果表明,基于MAC地址的算法比基于IP地址的算法用户识别率提高了30%。
关键词:云计算;新闻推荐;Web日志挖掘;Hadoop;MAC地址
DOIDOI:10.11907/rjdk.161378
中图分类号:TP312
文献标识码:A 文章编号:1672-7800(2016)005-0027-03
0 引言
根据ZDNET《数据中心2013:硬件重构与软件定义》[1]年度技术报告显示,2013年中国产生的数据总量超过0.8ZB,预计到2020年,产生的数据总量将是2013年的10倍。海量的Web信息让人们感觉到信息过载和信息迷失,如何快速精准地识别用户并为其推荐感兴趣的内容成为了当今的研究热点[2]。根据新闻阅读与设备使用情况的调查问卷[3]数据显示,95%的人都是在电脑、手机、平板等电子设备上获取新闻资讯,而且80%的人在阅读新闻时并未处于登录状态,即无法通过用户的登录信息给用户推荐相应内容。面对海量的新闻资讯,文献[4]针对用户识别存在的问题提出了IASR(IP,Agent,Session and Referrer)算法,通过引入会话(Session)来识别用户;文献[5]提出了基于用户浏览行为的建模,提高了同一个IP下用户的识别率;文献[6-8]提出了基于URL相似度的会话识别方法。但这些方法并不能改变IP对于识别用户的限制,所以不能从本质上提高用户识别率。因此,利用Hadoop大数据平台,对无登录信息的用户进行快速身份识别和新闻信息的个性化推荐,相关研究具有重要的现实意义和潜在的经济价值。
1 海量Web日志与用户识别
MAC地址是网卡物理地址,由网络设备制造商生产时写在硬件内部,因此世界上任意一个拥有48位MAC地址的网卡都有唯一标识[9],且MAC地址与网络无关。通过在Web日志中加入MAC地址,可以实现用户的唯一性识别,增加用户识别的准确性。
用户识别是个性化新闻推荐的基础和关键,详细有用的用户数据将决定新闻推荐的效果。由于Web日志中包含了访问主机IP、访问时间、访问页面、请求方式等信息,详细记录了用户的访问轨迹,生成巨大的数据量及数据类型,因此将通过Web日志作为用户识别的数据源。本文将记录分为长期记录和短期记录,一般将10天以前的访问日志作为长期记录,最近10天的访问日志作为短期记录。针对长期记录,通过Hadoop平台进行离线处理。短期记录则在用户使用过程当中,以信息增量的形式补充到推荐算法中来。
2 基于MAC地址的用户识别算法
2.1 算法基本思想
Hadoop的核心是Map/Reduce。Map/Reduce是一个可用于大数据处理的离线计算模型,它将一个任务分成多个细粒度的子任务,并将这些子任务分配到计算节点上进行并行处理,以缩短任务完成时间。将Web日志等份划分后,利用Map/Reduce对Web日志作长期记录处理。
利用Hadoop平台得到用户长期记录下的每个MAC地址对应用户的集合文件,这是一个庞杂的文件,将通过基于URL相似性的用户识别算法对集合文件进行处理,得到此MAC对应用户的100条最感兴趣页面的排序文件。
定义长期记录的日志文件为集合L={l1,l2,……,lm},通过map过程得到每个MAC对应的集合文件K={k1,k2,……,kn},再通过reduce过程,得到对应生成的用户长期访问文件为MAC={MAC1,MAC2,……,MACr},每个文件里包含了此MAC地址对应用户的所有长期访问记录。在K的每个文件中包含有访问时间、IP、URL、访问时长、访问次数字段。针对短期日志文件,根据最近10天该MAC地址用户的所有访问记录,同样生成一个短期的访问记录文件。在用户进入站点后,根据用户的长期和短期记录生成一个综合的用户访问记录文件,与用户未读新闻对比后进行推荐。
2.2 特征标签选择
由于一篇文章中经常存在多个分页形式,且每个分页的访问次数和浏览时间基本相同,所以要将同属一篇文章多个分页的URL记录合并。对ki中URL具有相似性的记录进行合并,cos(URLi,URLj)为两条URL的余弦相似性,Smaxi为合并的记录中访问次数最多的,i为合并的记录中访问时间的平均值,numi为合并的记录条数。
3 基于关键词的协同过滤智能推荐算
原创力文档


文档评论(0)