- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
C4.5算法在软件评测满意度分析中应用
C4.5算法在软件评测满意度分析中应用
摘 要:大数据时代已经到来,对数据的处理越来越受到关注,人们迫切需要海量数据背后的重要信息和知识,发现数据中潜在的联系并且发现可以有效运用的方式,取得对获取知识有用的信息,然后根据当前的信息对今后的发展趋势进行预测。目前最常用的评价方式就是运用C4.5算法,将日常的数据有效汇总,然后对客户的相关数据分析比对,根据客户之间不同的特征进行不同的改善方式,达到了提升满意度的效果。
关键词:数据挖掘;决策树算法;C4.5算法;信息增益
中图分类号:TP311.13
随着信息技术的快速发展,同时软件评测项目也逐渐走进了大众的视野,并获得了广泛的认可,针对当前市场环境变化风云莫测,竞争越来越激烈的情况,如何提升软件评测满意度是软件企业生存发展的根本动力。本文就从当前客户对评测不满意的情况进行挖掘,对信息进行分析,找出相似点,采取有针对性的措施提高客户对评测过程的满意度。
1 数据准备阶段
对于准备阶段的工作就是将长期积累下来的大量的数据进行测量,看是否适合进行深入的挖掘,这是对于数据挖掘的关键性的一点,由于很多数据在长时间的积累下,产生了冗长的、繁琐的信息,这时就要对数据进行筛选,然后净化,最后还要检查对于数据挖掘的工作是否已经做充分。
我单位的评测信息库中,许多信息是有必要采集的,但有些数据不必要采集,在如单位名称、评测价格、评测分类、软件功能、联系人等信息属性中,对于这些信息就要在其中剔除一些我们不需要的干扰因素,只留下需要的数据。(1)属性删除。对于单位的评测信息库中我们不需要的数据属性就要进行合理的删除,因为如果不删除,就会有一些无用的信息取代合理需要的属性从而使软件无法对我们需要提取数据的领域进行操作,这些属性通常概念层面较低,比如用户的电话、传真等等,就要将其删除。(2)属性泛化。属性泛化的意思就是要对阈值控制的层面进行上下的分层。从软件测试形式看有功能测试、单元测试、性能测试等20多种类型,以测试目的来划分主要为产品登记测试、鉴定测试、符合性测试、验收测试等这几种情况。如果将工作区域理解为工作的地区进行搜集,工作地区分为本地区和与外地,这对于搜寻的准确性有较大的影响;将工作区域缩小为市级单位,会因为取值的数目太多超过了规定的阈值,所以要将工作地区删除。(3)连续型属性概化为离散值:表中评测费用和企业规模人数是具有连续性的,而且在对决策树进行构建时,运用分散的数据处理起来更加方便,所以对于连续性的属性将其概化为离散值,这样能更方便的运用,将评测费用分为以下六组。FY13000,3000≤FY25000,5000≤FY310000,10000≤FY450000,50000≤FY5200000,200000≤FY6。人数分为5组:RS1≤100,100RS2≤500,500RS3≤1000,1000RS4≤10000,100000RS5。(4)报告满意度类别:对于是否满意,我单位按以下分类:满意(满足客户需求,客户理解测试过程中遇到的问题,并顺利拿到了报告),基本满意(客户因费用,周期,质量等各种原因导致的前台抱怨,报告没造成客户的实际影响),不满意(对客户造成了实际损失,并有相关投诉现象)。对客户表进行优化后如下表1所示:
表1
企业规模 评测费用 合同情况 评测类别 软件复杂度 报告内容 报告满意度
①不满意
②满意
③基本满意
②满意
……………….
2 用C4.5算法构建满意度树
2.1 决策树生成。(1)计算满意度分类所需的总信息熵。设S为训练集样本总数,共有m类样本Ci,(i=1,2,3,……m),Si为类Ci中的样本数,计算公式为:I(s1,s2,……sm)=-,其中pi是任意样本属于Ci的概率,可用Si/S来估计。在这个例子中,将满意度分为三个类别,满意,基本满意和不满意,且m=3。(2)计算每个属性的信息熵。设属性X具有u个值?X1,X2,……,Xu?,它将S分成u个集?S1,S2,……Su?,其中Sj包含S中这样的一些样本,它们在属性X上具有值Xj(j=1,2,…u)。以属性X为分类所需的期望熵(条件熵)是:,其中Sij是子集Sj中属于类Ci的样本数,,是Sj中的样本属于Ci类的概率。(3)计算该属性的信息增益和信息增益率。属性X的信息增益函数为:Gain(X)=I(S1,K,Sm)-E(X)。信息增益函数对于那些产生多分枝的测试倾向于生产大的函数值,但是输出分枝多,并不表示该测试对未知的对象具有更好的预测效果。使用“信息增益率函数”,它同时考虑了每一次划分所产生的子结点的个数和每个子结点的大小(包含的数据实例的个数),考虑的对象主要是一个个地划分,而不再考虑分类所蕴涵的信息
文档评论(0)