- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
运营商数据管理平台中的独立用户识别研究 摘 要 随着互联网特别是移动互联网的飞速发展,越来越多的用户使用 互联网来获取信息、网上购物等,形成了规模庞大的网络用户群体。 这些用户在上网的过程中,一方面使用运营商提供的ADSL (一种互 联网接入方式)访问互联网,另一方面也给运营商提供了海量的Web 日志。一家拥有四百多万ADSL 用户的大型运营商,每日采集的Web 日志记录就高达4 亿多条。这些日志数据中蕴含着丰富的用户兴趣信 息,例如用户的消费倾向、购物习惯等,具有潜在的价值。为此,运 营商通过构建数据管理平台 Data Management Platform, DMP ,对用 户的 Web 日志进行采集、存储、处理与分析,获取用户的兴趣,为 实现精准的广告投放提供数据依据。 众所周知,一个ADSL 设备通常由一个家庭、或一个办公室、或 一个实验室的多个成员共用。换言之,一个ADSL 的后端可能会有多 个用户使用各自的终端,如电脑、智能手机、iPad 等,进行互联网访 问。对于运营商而言,一个ADSL 背后可能隐藏了多个用户。分析用 户兴趣的前提是要准确地识别出各个独立用户。由此可见,独立用户 识别是运营商数据管理平台中最基本的功能。 由于现有的 Web 日志用户识别技术大多是针对单个网站的,只 能识别出与该站点交互的用户。而运营商提供的 Web 日志包括了不 I
万方数据 同网站不同用户的信息,这些信息数据量巨大、来源广泛,造成独立 用户识别的难度很大。为解决此难题,本文以某运营商提供的ADSL 网络用户的Web 日志数据为基础,在数据管理平台建设的背景下, 结合流行的大数据技术Hadoop ,设计并实现基于MapReduce 并行计 算框架的独立用户识别系统。 首先,本文介绍了独立用户识别系统的需求,说明了数据管理平 台与独立用户识别系统之间的联系。考虑到运营商 Web 日志数据量 巨大、来源广泛和 Cookie 数据格式不统一等特点,本文设计了一种 新的独立用户识别处理流程。 其次,考虑到运营商 Web 日志的存储规模和计算复杂度,本文 详细地分析了独立用户识别流程中三个主要阶段的具体任务,给出了 各阶段的MapReduce 算法描述及实现代码。针对第一阶段即会话识 别阶段,提出了一种基于时间和引用的启发式规则的会话提取算法, 实现对运营商 Web 日志进行会话识别;针对第二阶段即会话合并阶 段,在对ADSL 进行分组的基础上,分别采用了不同规则:1)Cookie 近似规则;2 )UUID 相同规则;3 )账号近似规则等对识别的会话进 行合并;针对第三阶段即用户识别阶段,取消了ADSL 分组限制,数 据按照用户进行分组,将同一用户的不同会话合并在一起,得到各用 户对应的完整数据集。 最后,本文采用开源的分布式大数据平台Hadoop 开发并实现了 独立用户识别系统。系统测试数据选自运营商大数据中网站流量排名 top-100 的Web 日志,数据覆盖了总体数据的约百分之七十,包括了 II
万方数据 淘宝、天猫、QQ 、百度等有代表性的大型互联网站点。通过真实数 据的测试,结果表明独立用户识别系统取得了预期的研究效果。 关键词:数据预处理;用户识别;Cookie ;MapReduce ;Hadoop III
万方数据 IDEPENDENT USER IDENTIFICATION RESEARCH IN THE DATA MANAGEMENT PLATFORM OF INTERNET SERVICE PROVIDER ABSTRACT With the rapid development of the Internet, especially mobile Internet, more and more users get information, do online shopping and etc. through the Internet, which leads to a large-scale network user groups. And the users produce a massive Internet web log data when they use the ADSL devices provided by the Internet Services ISPs to surf the Internet. In this paper, a large Internet Service Provider company with more than four million ADSL users
文档评论(0)