企业crm系统中决策树算法的运用.docVIP

下载本文档

15
0
约6.65千字
约 8页
2019-03-26 发布于湖北
举报
版权申诉

企业crm系统中决策树算法的运用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

企业CRM系统中决策树算法的应用河北金融学院郭佳许明保定市科技局《基于数据挖掘的客户关系管理系统应用研究》09ZG009 摘要：客户资源决定企业的核心竞争力，更多的关心自己的销售群体，并与之建立良好的、长期的客户关系，提升客户价值，对全面提升企业竞争能力和盈利能力具有重要作用。本文以某企业销售业绩为对象，利用决策树分类算法，得到支持决策，从而挖掘出理想客户。关键字：客户关系管理；数据挖掘；分类算法决策树分类是一种从无规则、无序的训练样本集合中推理出决策树表示形式的分类规则的方法。该方法采用自顶向下的比较方式，在决策树的内部结点进行属性值的比较，然后根据不同的属性值判断从该结点向下的分支，在决策树的叶结点得到结论。本文主要研究决策树分类算法中ID3算法在企业CRM系统中的应用情况。 1.ID3算法原理 ID3 算法是一种自顶向下的决策树生成算法，是一种根据熵减理论选择最优的描述属性的方法。该算法从树的根节点处的训练样本开始，选择一个属性来区分样本。对属性的每一个值产生一个分支。分支属性的样本子集被移到新生成的子节点上。这个算法递归地应用于每个子节点，直到一个节点上的所有样本都分区到某个类中。 2.用于分类的训练数据源组数据挖掘的成功在很大程度上取决于数据的数量和质量。我们应从大量的企业客户数据中找到与分析问题有关的，具有代表性的样本数据子集。然后，进行数据预处理、分析，按问题要求对数据进行组合或增删生成新的变量，从而对问题状态进行有效描述。在本文研究的企业数据中，是将客户的年龄概化为“小于等于30”、“30到50之间”和“大于50”三个年龄段，分别代表青年、中年和老年客户，将产品价格分为高、中、低三档等，详见表1，将企业CRM系统数据库中销售及客户信息汇总为4个属性2个类别。4个属性是客户年龄段、文化程度、销售地区、产品档次，类别是销售业绩，分为好和差两类。表1训练样本集合 attribute age education area level class 1 =30 H Ⅰ low bad 2 =30 H Ⅰ high good 3 =30 H Ⅱ medium bad 4 =30 H Ⅱ high good 5 =30 L Ⅰ high good 6 =30 L Ⅰ low good 7 =30 L Ⅱ low good 8 =30 M Ⅰ high good 9 =30 M Ⅰ medium good 10 =30 M Ⅱ medium good 11 =30 M Ⅰ low good 12 31-51 M Ⅰ medium good 13 31-51 M Ⅱ medium good 14 31-51 M Ⅰ low bad 15 31-51 H Ⅰ high good 16 31-51 H Ⅰ medium good 17 31-51 H Ⅰ low good 18 31-51 H Ⅱ high bad 19 31-51 H Ⅱ low bad 20 31-51 L Ⅰ high good 21 31-51 L Ⅰ low good 22 31-51 M Ⅱ high bad 23 31-51 M Ⅰ high good 24 50 M Ⅰ high bad 25 50 M Ⅱ high bad 26 50 M Ⅰ medium good 表2 训练数据中各属性的说明属性说明 age 客户的年龄段 education 文化程度 area 业务销售地区（Ⅰ本地区，Ⅱ外地） level 产品档次 class 销售状况 3. ID3算法分类模型的建立由表1可知：类标号属性有两个不同的值，因此有两个不同的类（即m=2）设类C1对应于good，类C2对应于bad。类good有18个样本，类bad有8个样本。为了计算每个属性的信息增益，先使用，所以初始信息熵为： I(s1,s2) = I(18,8)= 0.8905 然后计算客户年龄、文化程度、产品档次和销售区域4个属性的熵。首先观察age属性的每个样本值的good、bad分布，分别计算每个分布的信息熵：当age=30：s11=9 s21=2时， I(s11,s21)= - 当age在 31-50间：s12=8 s22=4时，I(s12,s22)= - 当age=50：s13=1 s23=2时，I(s13,s23)= - 若按age划分样本，所需的信息熵为： E(age)==0.8192 类似的，可以得到： E(education)= =0.7669 E(production)= =0.853 E(area)= 通过以上属性，对当前分支节点进行相应样本集合划分，从而获得的信息增益分别为： Gain(age) = I(s1,s2)- E(