通话时长分析-广东工业大学.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
通话时长分析-广东工业大学.ppt

协同计算与知识工程 协同计算与知识工程 数据挖掘 滕少华 广东工业大学 协同计算与知识工程 案例一: 客户通话模式分析 概述 针对客户通话详细数据进行几个方面的业务分析: 第一,话模式有地区性的不同。对定价部门而言,了解这一点非常重要,因为它能显示不同地区应该以不同的方式来衡量收费规则。 第二,通话模式有时间性的不同。一天中的不同时段,通话的频率有所不同,了解这一点可以知道通话的闲时和忙时,这样也可以帮助业务人员制定合理的收费方式。 第三分析高利润的通话模式。国际电话仅占所有通话量的少部分,但利润贡献与其通话量并不对称。数据能告诉我们哪些是与国际通话模式有关的信息。 数据准备-1 通话明细数据 本案例使用的客户通话数据源自某电信运营商交换机直接记录11天的通话明细记录,共2千多万条记录。每一个通话明细记录(表7-1)都是由电话网络对每一次通话进行的详细记录。 字段顺序 字段名 字段名称 说明 1 from_number 主叫 拨打方电话号码(也称发话号码)。在中国,截止2007年8月,共有61个城市的固定电话号码为8位,剩下大多数的电话号码为7位。 2 to_number 被叫 3 start_date 开始日期 4 start_time 开始时间 5 end_date 结束日期 6 end_time 结束时间 7 duration_of_call 通话时间 通话时间(通常以秒计) 。 8 type 话单类型 话单类型。例如市内通话,国际长途等 表7-1 通话明细数据表 数据准备-2 客户基本信息 除了通话明细记录外,本案例需要客户基本信息(如表7-2)。由于客户可能使用多条电话线,因此客户数据需要与客户的电话号码相关资料做匹配。 字段顺序 字段名 字段名称 数据类型 1 region_id 区县标识 Char(10) 2 cust_type_id 客户类型码 Char(13) 3 cust_type 客户类型 Char(8) 4 compute_0013 行业类别 Char(30) 5 compute_0014 行业子类 Char(26) 6 billing_no 电话号码 Char(15) 7 serv_id 服务编码 Char(8) 8 product_name 产品名称 Char(30) 9 user_type 用户性质 Char(8) 10 State 状态 Char(8) 表7-2 客户基本信息表 数据准备-3 辅助文件 通话明细分析,通常需要格外的参考表,如中国各地级市区号列表(如表7-3)、国家代码以及对应国家的列表(如表7-4)、中国电话号码归属及收费说明表(如表7-5)。 字段顺序 字段名 字段名称 1 Province 省份 2 City 城市 3 Code 区号 4 Weishu 电话号码位数 表7-3 中国个地级市区号列表 字段顺序 字段名 字段名称 1 country_eng 国家英文名 2 country_chn 国家中文名 3 Short 国家名称缩写 4 cnt_code 国家代码 5 time_diff 时差 表7-4 国家代码及对于国家列表 字段顺序 字段名 字段名称 1 num_start 号码开头字段 2 Compay 归属运营商 3 Description 收费说明 4 Attach 备注 表7-5 中国电话号码归属及收费说明表 数据预处理-1 本案例使用SAS 软件的编程工具进行通话数据预处理工作。采用的数据预处理技术包括:数据清洗、数据集成和数据变换。本案例的数据预处理流程如图7-1所示: 原始数据 无效数据 号码为空值、错误值 IP通话数据 根据IP接入号 号码=6位 普通长途 政企呼叫 市内通话 根据主、被叫区号等 公共服务 号码已‘9’开头 国际长途 国内长途 网内通话 手机通话 图7-1 数据预处理流程 数据预处理-2 数据清洗 在通话记录数据中,可能会出现空缺值、不完整数据或者噪声数据,如类似被叫为空值、‘0’、‘00’、‘000’,通话时长为0的电话号码。这些数据会降低数据挖掘的效率,影响数据挖掘的效率和结果,所以将这类数据输出到误单数在通话数据中。 本实验数据集中有一个表示通话时长的变量,在分析之前先通过时长验证公式(通话时长=通话结束时间-通话开始时间),以验证通话数据的正确性。 数据预处理-3 数据集成 由于以下因素,将会导致同一号码的形式多种多样: 不同导致IP通话中被叫号码的形式多样,如电信IP电话接入号为179**,移动IP接入号为为17950,17951。 通话所在的区域不同,如长途电话相对本市电话,固定电话前加区号。 国际长途电话,固定电话前加00+国家代码。 与移动电话之间的长途通话,移动电话号码前加0。 政企客户打外线号码,被叫号

文档评论(0)

sunyangbill + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档