- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树基站战略资产健康度评估模型
基于决策树基站战略资产健康度评估模型
摘要: 将数据挖掘中分类器的思想引入到基站战略资产健康度评估的新问题中,针对基站的特点和通信运营商的实际需求,进行深入的讨论分析,引入基站健康度这一新的概念评估基站的各种指标,提出基站健康度评估决策树模型,并用提出的决策树算法分析基站的健康状态。
关键词: 数据挖掘;决策树;基站;健康度
中图分类号:TP3文献标识码:A文章编号:1671-7597(2011)0110004-03
0 引言
电信重组和全业务运营背景使得各运营商加紧了对战略资源的扩大化竞争,基站战略资产选址难度大、选址成功率低、投诉率高和逼迁率高的特征日渐凸显,如何综合评估基站战略资产的稳定性,对全网的基站战略资产形成评估体系,并建立综合呈现模型,以提高基站战略资产的运营效率,降低基站战略资产的运营成本,同时为骨干业务支撑的战略资产提供稳定性保障成为当务之急。当前,基站战略资产的稳定性因素主要受以下几个方面的影响:
1)站点属性;
2)合同信息;
3)费用信息;
4)风险信息。
健康度是在选址、建设、运营等各生命周期中,对基站的避免投诉、抵御自然灾害、控制成本、保证电力供应的能力,顺利完成施工及合同续签的可能性,业主关系和谐程度等各项稳定性指标的综合度量。经验表明,基站具有良好的健康度,不但能够产生更佳的运营效果而且能够提高运营商可持续发展的竞争优势。
如何综合评估以上因素对基站稳定性的影响程度,为基站战略资产的健康度提供量化模型,实现全网基站战略资产的稳定性状态评估就成为了本研究课题的目标,本文首次引入数据挖掘的思想,对基站健康度进行分类并实现一个基于决策树的基站战略资产健康度评估系统。
1 数据挖掘技术及其相关内容
1.1 数据挖掘概念
数据挖掘就是从大量数据中抽取出潜在的、先前未知的、有价值的知识及有潜在应用价值的信息或模式。它主要基于人工智能,机器学习,统计学等技术,高度自动化的分析所获得的数据,从中挖掘出潜在的需求知识,并以此进行预测。数据挖掘的一般流程分为数据清洗或准备、提取训练集、进行数据挖掘工作、将挖掘出的成果反馈到原始数据中加以验证并应用于实践等几个步骤。数据挖掘技术已应用于许多领域,如在学校、银行、电信、股市、保险、交通、零售等领域已得到广泛的应用。数据挖掘常用的方法主要有关联规则,分类和预测,聚类分析,时间序列模式,意外规则,基于WEB的数据挖掘等[1]。
1.2 将数据挖掘技术应用于基站健康度评估问题的优势
目前国内尚没有开展对基站战略资产健康度评估方面的研究,而在类似问题如企业敬业度研究中,多使用国际上通用的心理测试量表,如MMPI、SCL-90、EPQ等。其中SCL-90量表应用尤其广泛。但绝大部分的量表调查,往往是简单地停留在传统的分析和统计阶段,并未对数据潜在价值进行深度挖掘,对问题的说明也仅停留在表象阶段。本文率先提出健康度这一指标,将数据挖掘技术应用于基站健康度评估的研究,通过设计一个完整的数据挖掘系统,结合大量已有的数据,为网络规划提供数据参考,为领导层和决策层提供形象决策依据,进一步探索对于亚健康和不健康基站的原因反馈方法,使运营商对基站的管理工作更有针对性和目的性。
2 决策树算法
决策树(Decision Tree)分类算法采用自上而下、分而治之的递归方式将测试的数据分为若干子集,从而构建一棵树型结构的分类模型[2]。决策树算法可以在使用者不了解相关学科背景知识的情况下,得到分类规则;其中树的内部结点代表对一个属性的测试,分支代表测试的结果;而叶结点代表分类的类别;由根结点到叶结点的一条路径对应产生一个规则[3]。C4.5算法是在ID3的基础上改进而成,它继承了ID3全部优点,且克服了ID3在应用中的不足,主要体现在以下几方面[2]:
1)用信息增益率来选择属性,克服了ID3用信息增益选择属性时偏向于选择取值多的属性的不足;
2)在树构造过程中或者构造完成之后,使用不同的修剪技术以避免树的不平衡;
3)能够完成对连续属性的离散化处理;
4)能够对不完整数据进行处理;
5)C4.5采用的知识表示形式为决策树,并能最终可以形成产生规则。
此外,C4.5算法可通过使用不同的修剪技术以避免树的不平衡。即通过剪枝操作删除部分节点和子树以避免“过度拟合”,以此消除训练集中的异常和噪声。算法原理如下:
设D为数据样本集,类别集合为 ,选择一个属性V把T分为多个子集。设V有互不重合的n个取值,则D被分为n个子集 ,这里 中的所有样本的取值均为 。令T为数据样本集D的样本数,为 的样本数,为 类的样本数,
是 样本中,具有 类别的样本
原创力文档


文档评论(0)