- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
企业CRM系统中决策树算法的应用
河北金融学院 郭佳 许明
保定市科技局《基于数据挖掘的客户关系管理系统应用研究》09ZG009
摘要:客户资源决定企业的核心竞争力,更多的关心自己的销售群体,并与之建立良好的、长期的客户关系,提升客户价值,对全面提升企业竞争能力和盈利能力具有重要作用。本文以某企业销售业绩为对象,利用决策树分类算法,得到支持决策,从而挖掘出理想客户。
关键字:客户关系管理;数据挖掘;分类算法
决策树分类是一种从无规则、无序的训练样本集合中推理出决策树表示形式的分类规则的方法。该方法采用自顶向下的比较方式,在决策树的内部结点进行属性值的比较,然后根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。
本文主要研究决策树分类算法中ID3算法在企业CRM系统中的应用情况。
1.ID3算法原理
ID3 算法是一种自顶向下的决策树生成算法,是一种根据熵减理论选择最优的描述属性的方法。该算法从树的根节点处的训练样本开始,选择一个属性来区分样本。对属性的每一个值产生一个分支。分支属性的样本子集被移到新生成的子节点上。这个算法递归地应用于每个子节点,直到一个节点上的所有样本都分区到某个类中。
2.用于分类的训练数据源组
数据挖掘的成功在很大程度上取决于数据的数量和质量。我们应从大量的企业客户数据中找到与分析问题有关的,具有代表性的样本数据子集。然后,进行数据预处理、分析,按问题要求对数据进行组合或增删生成新的变量,从而对问题状态进行有效描述。
在本文研究的企业数据中,是将客户的年龄概化为“小于等于30”、“30到50之间”和“大于50”三个年龄段,分别代表青年、中年和老年客户,将产品价格分为高、中、低三档等,详见表1,将企业CRM系统数据库中销售及客户信息汇总为4个属性2个类别。4个属性是客户年龄段、文化程度、销售地区、产品档次,类别是销售业绩,分为好和差两类。
表1训练样本集合
attribute
age
education
area
level
class
1
=30
H
Ⅰ
low
bad
2
=30
H
Ⅰ
high
good
3
=30
H
Ⅱ
medium
bad
4
=30
H
Ⅱ
high
good
5
=30
L
Ⅰ
high
good
6
=30
L
Ⅰ
low
good
7
=30
L
Ⅱ
low
good
8
=30
M
Ⅰ
high
good
9
=30
M
Ⅰ
medium
good
10
=30
M
Ⅱ
medium
good
11
=30
M
Ⅰ
low
good
12
31-51
M
Ⅰ
medium
good
13
31-51
M
Ⅱ
medium
good
14
31-51
M
Ⅰ
low
bad
15
31-51
H
Ⅰ
high
good
16
31-51
H
Ⅰ
medium
good
17
31-51
H
Ⅰ
low
good
18
31-51
H
Ⅱ
high
bad
19
31-51
H
Ⅱ
low
bad
20
31-51
L
Ⅰ
high
good
21
31-51
L
Ⅰ
low
good
22
31-51
M
Ⅱ
high
bad
23
31-51
M
Ⅰ
high
good
24
50
M
Ⅰ
high
bad
25
50
M
Ⅱ
high
bad
26
50
M
Ⅰ
medium
good
表2 训练数据中各属性的说明
属性
说明
age
客户的年龄段
education
文化程度
area
业务销售地区(Ⅰ本地区,Ⅱ外地)
level
产品档次
class
销售状况
3. ID3算法分类模型的建立
由表1可知:类标号属性有两个不同的值,因此有两个不同的类(即m=2)设类C1对应于good,类C2对应于bad。类good有18个样本,类bad有8个样本。
为了计算每个属性的信息增益,先使用,所以初始信息熵为:
I(s1,s2) = I(18,8)=
0.8905
然后计算客户年龄、文化程度、产品档次和销售区域4个属性的熵。首先观察age属性的每个样本值的good、bad分布,分别计算每个分布的信息熵:
当age=30:s11=9 s21=2时, I(s11,s21)= -
当age在 31-50间:s12=8 s22=4时,I(s12,s22)= -
当age=50:s13=1 s23=2时,I(s13,s23)= -
若按age划分样本,所需的信息熵为:
E(age)==0.8192 类似的,可以得到:
E(education)=
=0.7669
E(production)=
=0.853
E(area)=
通过以上属性,对当前分支节点进行相应样本集合划分,从而获得的信息增益分别为:
Gain(age) = I(s1,s2)- E(
您可能关注的文档
最近下载
- 教科版科学五年级下册第三单元 环境与我们 大单元整体教学设计学历案教案附作业设计(基于新课标教学评一体化).docx VIP
- 2024年南京信息职业技术学院单招数学考试试题及答案解析.docx VIP
- 音韵学讲义教案第二章音韵学的基本知识.doc
- 教科版科学五年级下册第二单元 船的研究 大单元整体教学设计学历案教案附作业设计(基于新课标教学评一体化).docx VIP
- 石油化工3503电缆安装质量验收记录.docx VIP
- 2025年商铺租赁合同范本全新修订.docx VIP
- 《中医病证分类与代码》(2020修订版).docx VIP
- 中医食疗 糖尿病痛风类风湿的中医食疗 课件.ppt VIP
- 安徽中汇发新材料有限公司35万吨年轻烃裂解制苯乙烯项目(一期).pdf VIP
- 2025年南京信息职业技术学院单招语文考试题库及答案解析.docx VIP
原创力文档


文档评论(0)