数据挖掘与宽带网络的运营.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘与宽带网络的运营.pdf

数据挖掘在宽带网络运营中的应用 许杨,胡建华,周海河,杨忠 昆明理工大学信息工程与自动化学院,昆明 (650051) E-mail :xuykevin@ 摘 要:通过对海量历史数据的有效挖掘,可以发现隐藏规律,进而在业务人员的识别下成 为知识,为决策提供支持。本文来自作者在XX 电信的项目工作实践;分析了宽带网络运营 在电信业务中日益重要的作用;介绍了数据挖掘的常用聚类、分类和时序算法;并利用 Microsoft提供的数据挖掘相关算法,对XX 电信的宽带客户进行了聚类和细分;将细分结果 有效的运用到宽带客户的流失预警中;对收入的走势进行了预测和验证,有很高的实用价值。 关键词:数据仓库;数据挖掘;聚类算法;时序算法;商业智能;决策支持 0 引言 数据挖掘技术融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。 它能够辅助决策者对困难业务问题做出明智决策,从而确定问题出现的原因,预测将要出现 [1] 同时,市场竞争日益激烈,产品的同质化趋势越来 的问题,指导企业经营和决策的实施。 越强,企业正在从“ 以产品为中心” 的模式向“ 以客户为中心” 的模式转移。客户聚类和细分作 为CRM 中进行客户分析的第一步,其效果的优劣必定直接影响着企业以后的每一步运营政 策。客户流失对企业的利益有多方面的损害,在争取新客户的同时必然要求决策者越来越重 [2]基本上各个电信运营商到第四季度都会编制下年度的主要经营指标计 视对老客户的挽留。 划,即年度预算[3] 。本文作者运用时序算法对历史收入情况进行分析,预测出未来收入,给 出年度预算编制的一种有效方法。 1 宽带网络的强势 以下是宽带网络客户数和收入在XX 电信业务中的占比。 图1 宽带网络客户数和收入占比 可以很容易的看出数量刚到12%的宽带客户贡献了20%左右的收入,而且自2000年以 来,宽带客户数和收入一直保持着较高的增长势头。而与此相对应的是同期固定电话业务的 严重流失,以及精心包装的小灵通业务的徘徊不前。宽带网络俨然成为了电信最后也是最重 要的战场。 2 算法介绍 (1) 聚类分析算法(K-Means ):使用迭代技术将数据集中的事例分组为包含类似特征 的分类。 - 1 - 步骤1:选择K 个种子(对象)作为类的初始中心; 步骤2 :将每一个对象分配到离初始类中心最近的类; 步骤3 :计算新的类中心(将类中的每一个对象的坐标位置加以平均计算得到); 步骤4 :得到新的类中心后,转到步骤2 ,重复该过程; 结束条件:每一个类的类中心位置几乎不发生变化为止(收敛)。 (2) 时序算法(最小平方法):是一种回归算法,用于创建数据挖掘模型以预测连续列。 时序模型的预测主要依据的是算法在创建模型时从原始数据集获得的派生趋势。将时间数列 拟合成一直线或曲线,通过最小化误差的平方和找到该组数据的最佳函数匹配,得到时间数 列随时间而变动的趋势。 (3) 决策树方法:主要用于数据分类。利用信息增益寻找数据中具有最大信息量的字段, 建立决策树的根节点,再根据该字段的不同取值建立树的分支;在每个分支子集中重复建立 树的下层节点和分支,即可建立决策树。接着进行适当的剪枝处理,把决策树转化为规则, 并利用这些规则对新事物进行分析。 3 数据的选取和规整 选取XX 电信某年5~11 月的宽带客户收入、上网时长和上网次数的明细数据,5~11 月的宽带客户套餐变更数据,11 月的客户资料明细数据。由于原始数据量极其庞大,在不 失全局特征的情况下,作者对数据先进行了随机抽样;然后对缺失数据进行了补全;把异常 值数据进行转换;根据需要做了进一步汇总。建立数据仓库的立方体,可以使用的挖掘纬度 和相关属性如下表所示:[4]

文档评论(0)

xx88606 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档