数据挖掘与知识管理.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与知识管理 宋华 数据挖掘与知识管理 内 容: 电信企业数据仓库的设计 电信企业数据仓库的实现 数据挖掘的具体应用 一、电信领域数据仓库的设计 (1)确定数据仓库的主题(目标) 根据电信业务和电信运营的需求,电信公司涉及的最主要的三个主题是: 客户(发展) 收益 呼叫特性分析(行为) 一、电信领域数据仓库的设计 客户发展 主要是对客户群体进行分类后,从不同的角度展现电信公司提供服务的客户数量情况。划分的角度可以按照客户本身的自然属性,例如客户本身的自然属性,例如客户性别、年龄、客户入网的时间、客户的类型(公费、私人等)、客户受教育的程度等。 一、电信领域数据仓库的设计 收益分析 收益分析主要是通过不同的角度对电信企业的收益情况进行分析。收益分析的角度可以按照客户的自然属性和扩展属性划分;也可以按照电信公司的业务运(品牌、交费方式)进行划分;还可以按照机构设置、地理角度对收益进行划分。 一、电信领域数据仓库的设计 呼叫特性分析 呼叫特性分析即分析不同类型客户在呼叫上所具有的特性,特性可能包括下列衡量指标: 一、电信领域数据仓库的设计 按照呼叫时间划分为:长呼叫、中呼叫和短呼叫 按照呼叫类型可划分为:本地通话、长途通话、漫游通话。(其中长途又可以划分成国际长途、国内长途;漫游通话可划分成省内、省际、国内漫游等等) 按照呼叫金额可以划分为:高额呼叫和非高额呼叫 按照呼叫所在地区域考察呼叫的热点区域 一、电信领域数据仓库的设计 (2)数据仓库模型的设计——可用的数据(信息来源) 例如,要完成客户发展、收益分析、呼叫特性分析三个主题,下列三部分信息是必要的,即: 客户的基本信息表 客户的账单信息表 客户的呼叫信息表 客户基本信息表的常见字段 客户帐单信息表的常见字段 呼叫信息表的常见字段 一、电信领域数据仓库的设计 (2)数据仓库模型的设计——粒度的确定(逻辑结构) 在数据仓库设计中,最重要的步骤是确定数据的粒度。 单一粒度 对于客户基本信息表,由于它属于增长较为缓慢的信息(随着客户数量的增长,客户业务信息的变更表会增长),可以使用单一的数据粒度。 (2)数据仓库模型的设计——粒度的确定 如果客户数量很大,每个月生成一张客户信息表将浪费大量的空间,因为只有客户信息变化了或者新增加了客户,才需要修改原先的客户信息表。增加一个“当前标志”字段,用于表示客户的当前信息,并选择“数据变更日期”作为时间字段。 数据仓库模型的设计——粒度的确定 对于客户的账务信息表,每个月一个客户号码只在账务信息中对应一条记录,因此数据本身就带有一定的综合性,可以采用单一的数据粒度。 数据仓库模型的设计——粒度的确定 双重粒度 呼叫/计费数据是电信公司中数据量最大的部分,对于一个客户的一次通话(无论是主叫还是被叫,因为一次通话实际上将生成主叫、被叫两条记录),在呼叫表中都将出现一个通话记录,因此对于一个大型电信公司,其呼叫/计费数据的数据量非常大,所以采用双重粒度来记载呼叫/计费数据。 对于近3-4个月的细节呼叫/计费数据,保留在数据仓库中,并定期聚合成按月综合的数据,然后将细节数据导出,另外保存,为新的细节数据腾出足够的空间。 一、电信领域数据仓库的设计 (2)数据仓库模型的设计—— OLAP模型的设计(逻辑结构) 针对每一个主题确定其需要的维度和度量变量 然后为每一个主题定义关系模式,从而形成一个星型结构,在这个星型结构的基础上,可以生成多维数据表,建立多维数据库。 以客户信息主题为例,客户信息主题的维度设计书如下: 一、电信领域数据仓库的设计 (2)数据仓库模型的设计—— ETL过程(实施) 数据提取-转换-加载随着应用和系统环境的不同而具有不同的特点。一般而言,总包括下面的处理过程: a.预处理 准备工作:包括清空工作区、检查过渡/准备区。如果需要直接访问操作型数据源系统时,要检查远程数据库服务器状态,并核对目标区数据加载状态,以核算出加载作业的参数,如加载数据的时间间隔和范围(24小时的数据,还是前3天的数据)。 一、电信领域数据仓库的设计 (2)数据仓库模型的设计—— ETL过程 b.启动数据加载的批作业 c.因为维度表有事实表所参照的主键,所以要先完成对维表的加载,生成维表主键,并作为以后加载事实表所需要的外键。在加载维表中,有时要处理好缓慢变化的维的问题

文档评论(0)

136****3783 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档