用c50模型归纳药物的对症患者-数说工作室.docVIP

下载本文档

10
0
约2.26千字
约 7页
2017-09-11 发布于天津
举报
版权申诉

用c50模型归纳药物的对症患者-数说工作室.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用c50模型归纳药物的对症患者-数说工作室

用C5.0模型归纳药物的对症患者一、C5.0介绍 1. C5.0简介 C5.0是决策树算法的一种，决策树就是根据对样本的学习，依据样本的一些属性建立分类规则。按照分类规则对样本进行分类。C5.0模型根据能够带来最大信息增益（information gain）的变量拆分样本。第一次拆分确定的样本子集随后再次拆分，通常是根据另一个变量进行拆分，这一过程重复进行直到样本子集不能再被拆分为止。最后，重新检验最低层次的拆分，那些对模型值没有显著贡献的样本子集被剔除或者修剪。 2. 信息增益 C5.0算法选择分类变量的依据是能够带来最大信息增益的变量，也即以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。信息增益：即信息熵的有效减少量。信息熵：信息量的数学期望，是信源发出信息前的平均不确定性，也称先验熵。信息熵的下降意味着不确定性的下降。信息源、信息量、信息熵的数学表达式为： ①信息ui(i=1,2,…r)的发生概率P(ui)组成信源数学模型，( P(ui)＝1； ②信息量(单位是bit，对的底数取2)： ③信息熵 (先验不确定性)：信息熵（H(U)）的性质有： H(U)=0时，表示只存在唯一的可能性，不存在不确定性如果信源的k个信号有相同的发出概率，即所有的ui有P(ui)=1/k， H(U)达到最大，不确定性最大 P(ui)差别越小， H(U)就越大； P(ui) 差别大， H(U)就越小。 3. C5.0决策树构建构建决策树要利用是信息增益最大的分类变量来构建，那么信息增益如何计算？设有样本集合S，|S|表示其样本数。在样本集合S中，目标变量C有k个分类，则freq(Ci,S)表示S中属于Ci类的样本数。则集合S的信息熵定义为：如果某属性变量T，有n个分类，则属性变量T引入后的条件熵定义为：那么属性变量T带来的信息增益为： Gain(T)=Info(S)-Info(T) 找到使信息增益最大的变量，即可用来构建决策树。下面看一个简单示例： 4.简单示例在这个数据集S中，目标变量共两类，即k=2；|S|=14；其中属于类1的有9个，故，属于类2的有4个，故。那么数据集S的信息熵为：如果引入T1，共3个分类，即n=3，关于T1的条件熵为：则T1带来的信息增益为Gain（T1）=0.940-0.694=0.246 二、案例分析 1. 数据说明本案例改编自SPSS Clementine 应用程序示例。有一份对患某疾病病人的跟踪记录：DRUG1n。记录的200名病人中，每个人对A、B、C、X、Y五种药品中的一种有明显反应，并予以记录，此外，文件DRUG1n还记录了每位病人的年龄、性别、血压、血液中的胆固醇含量、Na和K的含量。文件的变量说明如下表：数据字段说明年龄（数字）性别 M 或 F BP 血压：高、正常或低胆固醇血液中的胆固醇含量：正常或高 Na 血液中钠的浓度 K 血液中钾的浓度药品对患者有效的处方药现在要生成一个决策树，看ABCXY五种药品分别适合哪种病人，以便在日后的治疗中对症下药。使用SPSS Clementine软件实现。 2. 数据描述添加“可变文件”节点，读取文件DRUG1n，附加一个“分布”节点。“分布”节点是为了对五种药品的治疗情况做一个总体的认识，看哪种药品的对症患者最多，结果如下：可以看出，药品Y的对症患者最多，药品BC的对症患者最少。现在想知道血液中的Na和K的浓度是否对患者选择药物有所影响，故查看散点图，使用散点图节点，X字段选择Na；Y字段选择K；颜色选择Drug，点击执行：在散点图中可以划一个斜线，该线以上的患者对症药品都不是Y，该线以下的患者对症药品都是Y，而这条线可以用Na与K的比值来表示。这说明患者血液中Na与K的浓度比将影响患者对药品的选择。现在用网络图来考察血压对患者的药物选择是否有影响，附加网络图，字段选择BP和Drug，点击执行。可以看出，药品Y对高、中、低血压的患者都可能有效果；药品X只对血压低和中的患者有效果；而药品A、B都只对高血压有效果；药品C只对低血压有效果。这说明血压情况也影响患者对药物的选择。 3. 模型构建现在准备用模型给出一个明确的决策树，看到底哪些情况的患者对应哪种药品。构建模型之前，需要处理两个变量——K、Na。既然Na与K之比对药物选择有影响，那么就用NA/K这个新变量，原来的K、Na变量不用，处理如下：附加一个“导出”节点，命令为Na_to_K，公式为Na/K。再附加一个过滤节点，过滤掉Na和K变量。现在可以建模，用C5.0节点构建决策树，处理如下：附加一个类型节点到过滤节点上，设置变量Drug为输出，其余均为输入，再附加一个C5.0节点，点击执行。模型