- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多分类器移动通信客户信息挖掘
基于多分类器移动通信客户信息挖掘
[摘 要]移动通信领域中的客户信息挖掘是数据挖掘和商务智能领域中典型应用之一,具有较高研究意义和商业应用价值。在基于决策树的数据分类算法基础上,采用相异度计算原理进行分类,重点对移动通信客户是否可能成长为高价值客户的分类进行了研究。测试结果表明,本文所提出的组合分类方法是完全可行的。
[关键词]数据挖掘 多分类器 决策树 聚类算法
引言
数据挖掘作为一门新兴的交叉学科,其对大规模数据的强大处理能力在许多领域都有着广泛的应用。本文主要介绍数据挖掘技术在移动通信领域中的一个应用,主要任务是如何根据一个刚刚入网3个月的用户属性特征,预测其是否有可能发展成为移动通信公司的高价值客户,以便有针对性地利用较小的客户维护成本对客户提前进行高效的维护。
本文首先采用了决策树分类方法来对数据进行分类,以利用不同训练集生成的决策树共同对已知分类的测试集进行分类,并结合样本数据本身的特征采用相异度算法对不确定的样本进行再次分类。测试结果表明,本文所提出的方法是完全可行的。
一、决策分类及相异度算法
1. 决策树分类算法基本原理。数据分类是数据挖掘中的一个基本问题,它通常可分为两个阶段:建模阶段和评测阶段。建模阶段的主要任务是通过分析训练集中样本的特征,构建一个预测模型。这是整个分类过程中最为关键核心的部分,建模方法的好坏对分类效果起到了决定性的影响,在数据挖掘的几个主要分类技术通常有:决策树、Bayesian 模型、神经网络模型等。
决策树(Decision tree,也称判定树)是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点代表类或类分布。决策树容易转换成分类规则,路径由根节点到存放该样本预测的叶节点。
在树的每个节点上使用信息增益度量选择测试属性。设S是s个数据样本的集合。假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,…,m)。设si是类Ci中的样本数。对一个给定的样本分类所需的期望信息由下式给出:
其中,pi是任意样本属于Ci的概率,并用si/s估计。
设属性A具有v个不同值{ a1, a2,…, av },可以用属性A将S划分为v个子集{ S1, S2,…, Sv };其中,Sj包含S中这样一些样本,它们在A上具有值aj。如果A选作测试属性(即最好的分裂属性),则这些子集对应于由包含集合S的节点生长出来的分枝。
2.聚类算法中相异度计算原理。聚类算法的基本思想是:所研究的对象中每个个体之间存在着程度不同的相似性(亲疏关系),于是,根据众多单位的多个观测指标,找出能够度量各单位之间相似程度的统计量,以此作为划分类型的根据,把一些相似程度较大的单位聚合为一类,把另外一些彼此相似程度较大的单位又聚合在另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有单位都聚合完毕。然后把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张图,用它把所有单位间的亲疏关系表示出来。该方法是聚类中最常用、最基本的方法,称为系统聚类法。
二、测试模型中的分类算法
本文测试中的分类算法可分为数据预处理、模型构建及模型测试分析这三个阶段。
1.数据预处理。数据预处理阶段的主要任务是:首先对数据进行抽取,然后对从数据库中提取得到的原始数据进行整理,使其满足数据挖掘的具体要求。其主要工作包括:对数据的转换和整合、抽样、随机化、缺失值的处理、离散化处理等。通过对样本的分析可以发现在近百个属性中有许多属性无论对于Y 或N 都是0(或基本上全是1),换句话说,某些属性变量对于结果的预测是无用的,因此在测试时通过数据预处理可以去掉这些无用的属性,可以明显提高决策树的构建效率。测试中通过这样的预处理,候选属性只剩下20个左右。
2. 模型构建。构建决策树阶段采用了第二节所介绍的决策树构建算法,另外,在本文测试中,最终的分类算法并不是依据一棵决策树,而是有多棵(10棵)不同的决策树同时对同一已知的测试集进行分类。具体做法如下:(1)将11万个号码分成10组,每组为10万个号码,例如,第k组由第(k+0,k+1,k+2, k+3,…, k+99999)个号码组成。(2)根据这10个组分别构建了10棵决策树预测模型,再将这10棵决策树分别对待测样本进行分类预测。(3)只有当这多棵决策树对某个号码的测试得到同样的结果时,才把其作为分类结果的最终判断,由此分离出相对准确的预测类型,否则需要对该样本进行再次分类。
3.模型测试分析。本文测试的环境是基于Win2000操作系统的PC机,CPU:Petiumn
您可能关注的文档
最近下载
- 2024-2025学年人教版数学五年级上册月考试卷(1-2单元)含答案.pdf VIP
- 历史八年级上册《第六单元 中华民族的抗日战争》大单元整体教学设计2025.docx VIP
- 危险废物应急预案演练记录.docx VIP
- 注安2024【其他】核心母题600题.docx
- 2025至2030年中国数据标注服务市场全面调研及行业投资潜力预测报告.docx
- 竞赛专题5不等式竞赛真题强化训练.docx
- 注安2024【技术】核心母题600题.docx
- 浙江大学《DeepSeek行业应用案例集》解锁智能变革密码.pdf.docx
- 心脏移植术后并发症的防治.pptx VIP
- 心脏移植与术后管理.pptx VIP
文档评论(0)