客户端和网页内容偏好模型设计说明书.docx

下载文档 降价啦

9
0
约1.16万字
约 24页
2018-06-16 发布于福建
举报
版权申诉
保障服务

客户端和网页内容偏好模型设计说明书.docx

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

福建移动移动数据流量运营咨询项目用户与客户端及网页内容偏好模型设计说明书Teradata（中国）有限公司版本号 1.0本文档及其所含信息为机密材料并且由福建移动和TERADATA（中国）有限公司共同拥有。本文档中的任何部分未经福建移动、TERADATA（中国）有限公司书面授权，不得将材料泄露给第三方,也不得以任何手段、任何形式进行复制与传播Copyright ? 2013TERADATA版权保留所有的权利文档信息项目名称移动数据流量运营咨询项目文档名称用户与客户端及网页内容偏好模型设计说明书版本号1.0发布日期2013-4-8批准人Date:文档变更记录版本修改章节修改类型日期修改人备注1.0全部新增2013-4-8曾志伟创建目录1文档概述11.1编写目的11.2适用对象12业务问题理解与分析12.1需求概述12.2目标定义23分析思路24建模流程34.1建模流程34.2选择熵值法模型的原因35模型建设45.1数据处理45.1.1数据归并45.1.2极大极小值处理55.1.3标准化z-score55.1.4归一化处理65.1.5计算熵值和权重75.1.6计算一级指标得分95.1.7计算一级指标权重95.1.8计算总得分106模型部署116.1基础表说明116.1.1基础源表（新大陆开发）116.1.2维表（模型建表）116.1.3结果表（模型建表）116.2表结构说明126.2.1表1：客户端使用基础源表126.2.2表2：WEB上网基础源表126.2.3表3：客户端偏好类型维表136.2.4表4：WEB偏好类型维表136.2.5表5：客户端二级指标权重表146.2.6表6：客户端用户一级指标得分表146.2.7表7：客户端一级指标权重表146.2.8表8：客户端用户各项偏好总得分156.2.9表9：WEB二级指标权重表156.2.10表10：WEB用户一级指标得分表166.2.11表11：WEB一级指标权重表166.2.12表12：WEB用户各项偏好总得分166.3建模脚本(存储过程)176.4源代码17文档概述编写目的本文档是福建移动数据流量运营咨询项目中用户与客户端及网页内容偏好设计说明书，描述了偏好模型的完整建模过程，包括数据处理流程、模型构建、模型评估、模型部署等设计要素。本文档用于指导数据挖掘相关人员搭建模型分析与部署环境，包括:数据准备过程的脚本编写模型的变量设计模型的解释和评估适用对象本文档的适用对象包括：数据挖掘模型开发人员数据挖掘模型维护人员业务问题理解与分析需求概述移动互联网应用以内容为王，尽管目前网络的快速发展离不开眼球经济的模式，但是大众日益个性化的需求，使得互联网的内容迅速爆炸，长尾效应显现。如何将五花八门的内容提供给客户，成为移动互联网制胜的武器之一。中国移动的掌握着海量的客户资源，同时拥有众多内容厂商支持，如何管理与匹配客户需求，打造智能化的移动互联网管道成为引领市场发展的新课题；传统的电信行为分析多数基于客户通话行为以及数据业务订购使用为主，数据本身无法体现内容需求的信息。随着手机上网的普及，以及客户上网习惯的形成，分析挖掘客户上网去向与体验内容成为挖掘客户内容需求的关键。中国移动提供大量内容型数据业务，如手机阅读、移动梦网等，需要建立分类内容浏览行为信息的分析体系，全面识别和剖析用户的互联网内容偏好。目标定义通过收集用户上网行为、客户端使用行为信息，评估用户对客户端或内容的粘性、频率，对每项内容或客户端使用进行评分，最终为用户打上客户端和内容偏好标签，支撑营销活动开展。分析思路采用二级指标综合评价法，权值采用熵值法确定，评分步骤如下：统计每个用户对每个内容分类的行为信息，建立评分基础宽表，变量粒度与评分体系最底层一致，且每个变量都进行归一化的标准处理。利用最底层指标的权值和变量值，分别计算频度/粘度/费用这3个二级指标的分数，如：费用评分=0.85*GPRS流量费用+0.15*流量费用占比。利用频度/粘度/费用这3个二级指标的分数，计算内容偏好的总分，公式如下：偏好程度（内容分类） = 0.63*频度得分+0.21*粘度得分+0.16费用得分建模流程建模流程建模流程如下图所示：选择熵值法模型的原因“熵”原本是物理中热力学概念，反映了分子运动的无序性(混乱程度)。后来信息论创始人香农(shannon)发展为信息熵理论，反映了信息的不确定性。目前应用方面，在指标赋权上的使用比较广泛。“熵”是信息不确定性的度量(就好比人的身高、体重，可以用来衡量人的体格)：熵越小，不确定性就越小，信息量越大；熵越大，不确定性越大，信息量越小。根据熵的特性，我们可以用熵值来判断某个指标的离散程度：指标熵值越小，离散程度越大，该指标对综合评价的影响（即权重）也就越大。通过收集用户使用客户端行为和WEB上网行