手机上网用户行为分析系统结题汇报.pptVIP

手机上网用户行为分析系统结题汇报.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中国移动集团级重点研发项目 结题汇报报告 11/11/2019 项目名称:手机上网用户行为分析系统 一 . 课题目标实现情况 目 录 二、主要研究成果(整合后) 研究背景 “十一五”期间,我国网民规模跃居全球第一,宽带普及率接近 100% , 手机网民规模迅速发展,互联网应用更加深入,推动着社会进步和人们 生活方式的变革。随着移动互联网近几年快速的发展,作为移动互联网 关键环节的中国移动正在感受这个浪潮带来的冲击。 约合 485..5 亿兆 2009 年 约合 1030.9 亿兆 2010 年 上网流量 同比上升 112.3% 204.4 亿元 2009 年 305.3 亿元 2010 年 流量收入 同比上升 49.4% 高速发展的流量并没有带来相关收入的同步增长 研究背景 ? 在以用户为中心的发展时代下,了解用户需求成为我们面对课题的第 一步工作,这就需要我们对我们网络中的流量有深入的了解,掌握我 们用户的行为情况,便于我们针对性的调整运营战略,在正在到来的 移动互联网大潮中未雨绸缪,迎接即将到来的挑战。 ? 针对用户的需求分析作为中国移动具有先天的优势,海量的 CMWAP 、 CMNET 的日志信息蕴含着巨大的财富,通过用户移动互联网行为分析 ,一方面让我们更了解我们的用户,实现个性化需求的识别。同时在 有限的资源情况下及时的为用户提供个性化的产品生产、个性化的匹 配 / 分发。 ? 通过针对用户上网行为的分析实现个性化需求的识别,成为数据部迫 不及待需要解决的问题;同时在流量经营和精细化的营销方面具有非 常重要的战略意义。 研究目标 ? 建立一套完善的手机上网用户行为分析系统 , 通过对用户手机上网访 问行为进行分析,获取用户的访问轨迹、浏览页面内容、网站信息、 浏览客户端信息、移动终端信息等,进行各类分析,形成各类用户模 型。 网 络 爬 虫 GPRS 网 站 内 容 分 析 用 户 行 为 分 析 数据分析 爬虫数据 网站树 内容树 数据清洗 WAP 黄页库 数据分析 网关数据 数据清洗 用户行为模型 数据索引 用户属性 内容属性 结 果 呈 现 5 个 应 用 细分营销活动 精确发展用户 引导自有业务 分析竞争业务 个性化内容 日 志 采 集 研究目标 ? 研究一种 适应分类体系变化的海量网页快速分类系统 ,要求如下: – 实现一个快速爬取手机用户访问日志的方法,需要深入到用户访 问页面的标题、正文信息以及相关网页链接。 – 针对手机互联网,提出一种正文提取的方法。基于分块的基础上 ,提取每个信息块的信息量,并计算各个分块和网页 title 的相似 度,最终确定正文块。 – 基于主题的多分类方法。文本不被看作仅仅是由一些特征词所组 成的,而是被看作是由一些主题构成的,主题是由一些特征词构 成的。通过样本中不同类别的主题分布,实现预测出一个新的文 本到底属于什么类别。 研究总体框架 ? 手机上网用户行为分析项目研 究的总体架构如下: – 多数据海量数据预处理 – 海量数据存储和计算 – “客户 - 内容”特征类标签分 层可扩充体系 – “客户 - 内容 - 业务”三维匹 配矩阵 – 前台应用管理模块 多数据源海量数据预处理平台 数据接入 采集器 多数据源海量数据预处理管理器 数据清洗器 系 统 监 控 及 运 行 管 理 平 台 运 行 状 态 监 控 器 系 统 管 理 器 系 统 日 志 管 理 器 海量数据存储及计算平台 客 户 - 内 容 海 量 信 息 处 理 平 台 网页内容可扩展逻辑分类体系构建器 前台应用管理平台 “客户 - 内容”特征标签 可视化筛选界面 热点关注活跃客户 明细导出器 客户特征快速聚焦及 分析管理器 客户标签管理平台 “客户 - 内容”特征标签 分层可扩充体系 “客户 - 内容 - 业务” 三维匹配矩阵 网页文本关键字搜索技术的动态归类器 内容分类 更新器 客户偏好与内容分类的行为挖掘模型构建器 Hadoop 分布式 计算系统 Hive 分布式 数据仓库 海量数据存储及计算管理器 海 量 信 息 处 理 管 理 器 客户标签信息管理器 研究总体框架 ? 系统海量数据存储和计算功能是整个系统的核心功能实现模块,根据 功能的层次结构可以进一步细分为以下层次: – 数据采集和接口层:它负责从不同类型的网络中的接入和采集数据。针对网络自 身的特性以及系统建设的实际情况,数据的采集可以是从硬件设备(如网关、 Gn 口

文档评论(0)

yusuyuan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档