数据挖掘在 中医药中应用知识内容.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
*;数据挖掘的相关概念;产生;什么激发了数据挖掘? ——“数据爆炸”但“知识贫乏” ;大型数据库 涌现;*;2010年国家自然基金资助数据挖掘研究;*;;; 关联分析;*;*;每逢周末与尿布一起购买最多的商品是;举例: 沃尔玛:通过关联分析这一数据挖掘方法,发现“啤酒”及“尿布”两件物品总是一起被购买。 此结果蕴含着巨大的商业价值: ;如何完成?;沃尔玛超市为范例;收据1:啤酒、面包、方便面、盐、 收据2:陈皮、可乐、米、面包、盐 收据3:面包 、被子、枕头、 收据4: 椅子、笔记本 收据5:可乐 、椅子、枕头、面包 收据6:面包、笔记本 ;收据1:啤酒、面包、方便面、盐、 收据2:陈皮、可乐、米、面包、盐 收据3:面包 、被子、枕头、 收据4: 椅子、笔记本 收据5:可乐、椅子、枕头、面包 收据6:面包、笔记本 ;*;频繁子集筛选-------获得挖掘结果;关联分析特点;聚类分析;聚类如何实现:从复杂数据中提取简单的分组结构;自动聚成若干类;相似度;欧式距离计算;欧式距离计算----完成相似度度量;计算相似度后如何聚类?;计算相似度后如何聚类? (自下而上的层次聚类法);两个合并在一起的簇怎么和其他对象比较?3*3的矩阵;;;聚类分析特点;分类;主要介绍关于分类的两种方法;贝叶斯模型;;计算过程转换14天打网球情况为概率表;天气;贝叶斯模型特点;决策树;如何解读决策树信息;产生疑问如何计算;介绍其中一个ID3算法计算决策树;14天具体打网球情况:;每一个因素形成一个决策树分支;其他因素也形成了一个树的分支;如何把多个因素合并成一个大的决策树?;如何把小的分支合并成一棵大的决策树?;利用熵的计算方法计算决策树;信息熵的计算公式;Info[C1,C2]=ENTROPY(P1,P2) =-P1*LOG2P1—P2*LOG2P2 C1,代表发生yes的次数,P1,代表发生YES的概率 C2,代表发生NO的次数,P2,代表发生NO的概率 ;以天气为例进行信息熵计算;计算天气下面建立分支后不确定性;同理计算出其他三个因素下面建立分支后,信息不确定性消除了多少;天气已经作为第一个主干了,那么下面该接着谁作为下一级主干?;14天具体打网球情况:;以天气晴下面建立分支为例:以信息完全确定作为分支的结束;以天气晴下面建立分支为例:以信息完全确定作为分支的结束;;以天气晴下面建立分支为例:以信息完全确定作为分支的结束;*;结果人性化;决策树的特点;第一步骤 选择;第一步骤:选择;第二步骤:处理;第三步骤:挖掘;第四步骤 分析;概念;;近3年的学位论文;;;;;参考94中医药行业标准:    确定妇科常见疾病共有14个 通过检索中医药信息研究所的中国中医药期刊文献数据库检出这些疾病的期刊文章发表情况 ; 病 种 选 择;;;采集医案情况;数据采集内容;确定一些纳入排出标准;采集医案样例;预处理内容 ;;医案中原文;;;;;复合证型,涉及两个脏器的尽量拆分,例如肝肾阴虚,可以拆分成肝阴虚+肾阴虚,如果难以拆分的,如肝脾不和,则保留原状。;;;;症状描述详细程度不同;;;591个医案涉及食欲差,但不同表达方式有84种;;;;;;;单味药频次;设定 最小支持度50% 最小置信度50%;;;本 课 题 数 据 挖 掘 结 果 ;;;;;;;;;;;;数据挖掘体会; 谢谢大家!

文档评论(0)

youngyu0318 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档