用c50模型归纳药物的对症患者-数说工作室.docVIP

用c50模型归纳药物的对症患者-数说工作室.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用c50模型归纳药物的对症患者-数说工作室

用C5.0模型归纳药物的对症患者 一、C5.0介绍 1. C5.0简介 C5.0是决策树算法的一种,决策树就是根据对样本的学习,依据样本的一些属性建立分类规则。按照分类规则对样本进行分类。C5.0模型根据能够带来最大信息增益(information gain)的变量拆分样本。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个变量进行拆分,这一过程重复进行直到样本子集不能再被拆分为止。最后,重新检验最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者修剪。 2. 信息增益 C5.0算法选择分类变量的依据是能够带来最大信息增益的变量,也即以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。 信息增益:即信息熵的有效减少量。 信息熵:信息量的数学期望,是信源发出信息前的平均不确定性,也称先验熵。信息熵的下降意味着不确定性的下降。信息源、信息量、信息熵的数学表达式为: ①信息ui(i=1,2,…r)的发生概率P(ui)组成信源数学模型,( P(ui)=1; ②信息量(单位是bit,对的底数取2): ③信息熵 (先验不确定性): 信息熵(H(U))的性质有: H(U)=0时,表示只存在唯一的可能性,不存在不确定性 如果信源的k个信号有相同的发出概率,即所有的ui有P(ui)=1/k, H(U)达到最大,不确定性最大 P(ui)差别越小, H(U)就越大; P(ui) 差别大, H(U)就越小。 3. C5.0决策树构建 构建决策树要利用是信息增益最大的分类变量来构建,那么信息增益如何计算? 设有样本集合S,|S|表示其样本数。在样本集合S中,目标变量C有k个分类,则freq(Ci,S)表示S中属于Ci类的样本数。则集合S的信息熵定义为: 如果某属性变量T,有n个分类,则属性变量T引入后的条件熵定义为: 那么属性变量T带来的信息增益为: Gain(T)=Info(S)-Info(T) 找到使信息增益最大的变量,即可用来构建决策树。下面看一个简单示例: 4.简单示例 在这个数据集S中,目标变量共两类,即k=2;|S|=14;其中属于类1的有9个,故,属于类2的有4个,故。那么数据集S的信息熵为: 如果引入T1,共3个分类,即n=3,关于T1的条件熵为: 则T1带来的信息增益为Gain(T1)=0.940-0.694=0.246 二、案例分析 1. 数据说明 本案例改编自SPSS Clementine 应用程序示例。 有一份对患某疾病病人的跟踪记录:DRUG1n。记录的200名病人中,每个人对A、B、C、X、Y五种药品中的一种有明显反应,并予以记录,此外,文件DRUG1n还记录了每位病人的年龄、性别、血压、血液中的胆固醇含量、Na和K的含量。文件的变量说明如下表: 数据字段 说明 年龄 (数字) 性别 M 或 F BP 血压:高、正常或低 胆固醇 血液中的胆固醇含量:正常或高 Na 血液中钠的浓度 K 血液中钾的浓度 药品 对患者有效的处方药 现在要生成一个决策树,看ABCXY五种药品分别适合哪种病人,以便在日后的治疗中对症下药。使用SPSS Clementine软件实现。 2. 数据描述 添加“可变文件”节点,读取文件DRUG1n,附加一个“分布”节点。“分布”节点是为了对五种药品的治疗情况做一个总体的认识,看哪种药品的对症患者最多,结果如下: 可以看出,药品Y的对症患者最多,药品BC的对症患者最少。 现在想知道血液中的Na和K的浓度是否对患者选择药物有所影响,故查看散点图,使用散点图节点,X字段选择Na;Y字段选择K;颜色选择Drug,点击执行: 在散点图中可以划一个斜线,该线以上的患者对症药品都不是Y,该线以下的患者对症药品都是Y,而这条线可以用Na与K的比值来表示。这说明患者血液中Na与K的浓度比将影响患者对药品的选择。 现在用网络图来考察血压对患者的药物选择是否有影响,附加网络图,字段选择BP和Drug,点击执行。可以看出,药品Y对高、中、低血压的患者都可能有效果;药品X只对血压低和中的患者有效果;而药品A、B都只对高血压有效果;药品C只对低血压有效果。 这说明血压情况也影响患者对药物的选择。 3. 模型构建 现在准备用模型给出一个明确的决策树,看到底哪些情况的患者对应哪种药品。构建模型之前,需要处理两个变量——K、Na。既然Na与K之比对药物选择有影响,那么就用NA/K这个新变量,原来的K、Na变量不用,处理如下:附加一个“导出”节点,命令为Na_to_K,公式为Na/K。再附加一个过滤节点,过滤掉Na和K变量。 现在可以建模,用C5.0节点构建决策树,处理如下: 附加一个类型节点到过滤节点上,设置变量Drug为输出,其余均为输入,再附加一个C5.0节点,点击执行。模型

文档评论(0)

ailuojue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档