- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析数据挖掘技术在中医药领域内应用
浅析数据挖掘技术在中医药领域内应用
摘要:该文介绍了数据挖掘的概念,中医药数据挖掘的特点,数据挖掘技术中的主要方法及其在中医药领域内的应用现状。关键词:数据挖掘;中医药
中图分类号:TP391文献标识码:A文章编号:1009-3044(2012)10-2175-02
1数据挖掘概述
随着数据库和人工智能技术的不断应用和发展,数据挖掘(Data Mining, DM)随之应运而生,作为一门新兴的、多科学交叉的学科技术,它在各个行业中发挥的作用越来越巨大,引起了人们广泛关注。数据挖掘是从大量数据中提取出可信的、新颖的、有效的并最终能被人理解的信息模式处理过程。它具有分类、聚类、关联、回归、预测、序列分析、偏差分析及预测等功能。数据挖掘技术应用非常广泛,在医疗、教育、金融等各行业都有着卓越的表现。中医药学是我国硕果仅存的古代自然科学之一,是拥有几千年文化积淀的传统医药学,积累??丰富的经验,拥有大量的文献。采用数据挖掘技术,对于中医药学中的相关数据进行整理、提取和挖掘,可以更好地获取其中隐藏的知识精华,加速中医药学的前进步伐,提高中医药学术水平。
2中医药数据挖掘特点
与其他行业的应用数据不同,中医药数据有其自身的独特特点,主要包括:数据的不完整性,表达形式的多样性,以及数据规范性较差。中医药数据的来源渠道较多,如来自保存的书籍、临床处方、方剂记录等,这些数据主要是以纸制品作为保存媒介,由于时间年代较久远,保存介质受到腐蚀、丢失、人为损坏等原因而导致在提取数据时信息不完整,当数据丢失过多时会严重影响结果的准确性;数据的形式也不尽相同,有文字、图像、数据符号等,这些数据在做数据挖掘之前必须先统一转换为计算机可识别的数据格式;由于地域、年代和文字的差别,同类药物可能有多种名称,度量衡单位也不一致,因此要在数据挖掘之前对数据进行规范化处理,以保证数据的规范性。由于中医药领域问题的多样性,如方剂有效性的研究、辩证规范性研究、症候信息分类、关键药味及药味组合的研究,所采用的数据挖掘方法也不尽相同。
3中医药数据挖掘的主要方法及应用
数据挖掘技术主要包括关联规则、聚类分析、决策树方法、回归分析、人工神经网络,在实际应用过程中应根据问题的不同特点,选取不同的方法进行分析研究,现介绍如下:
3.1关联规则
关联规则用于发现在同一事件中出现的不同项的相关性,即找出事务中频繁发生的项或属性的所有子集,以及项目之间的相互关联性。关联规则在中医药领域中得到了广泛的应用,李振岳等[1]对治疗伤寒病的中药复方药对配伍的规律进行了分析研究,以文献中收录的200个治疗伤寒病的中药复方为分析对象,建立复方特征数据库;以SAS系统中的Enterprise Miner为平台,应用关联规则分析技术,按伤寒六经分类进行伤寒病复方药对配伍规律的关联模式研究。研究结果显示,所得的六经药对与文献记录的六经主要药对组成基本一致,并且发现了一些治疗伤寒病的中药复方的未知药对。
3.2聚类分析
聚类分析是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析算法可以用于中医药的辩证研究,方剂研究以及中医舌诊方面的研究。董顺福等[2]运用模糊分类方法研究药物金属元素与药物疗效的相关性,结果显示药物中金属元素含量丰富,相关系数较大的药物,其药物疗效相似性越大,揭示了中药中微量元素与药物疗效密切相关。余兴龙等[3]考虑到中医舌诊对各种舌象的划分界限比较模糊,对舌象的自动识别运用模糊数学原理进行聚类分析,效果明显。
3.3决策树方法
决策树算法是一个类似于流程图的树状结构,是一种用来表示人们为了做出某一个决策而进行的一系列判断过程的树形图,这种方法用于表现“在什么条件下会得到什么值”之类的规则。本质上决策树是通过一系列规则对数据进行分类的过程。决策树不同的算法(如ID3、C4.5、CART、PUBLIC)会产生不同的决策树,效果也不尽相同。贺宪民等[4]使用基于熵的决策树理论对中医证 型数据进行了研究,指出此方法对自变量和应变量都是定性指针的数据,能够得到自变量对鉴别诊断的重要性,并且建立的决策树的判别效果较为理想。徐蕾等[5]采用信息熵决策树C4.5算法建立了中医辨证模型,筛选出对慢性胃炎中医辨证分型有意义的26个因素,并按其重要程度进行排序,该模型可区分各类证型,并且拥有较高灵敏度和特异度,可运用在慢性胃炎中医证型的鉴别诊断中。
3.4回归分析
回归分析过程其实就是对具有相关关系的两个或两个以上变量之间数据变化的一般关系进行测定的过程。主要包含从一组样本数据出发,从而确定变量间的定量关系式(即相应的数字表达式),以使从一组已知量来推测另一组未知量。回归分析和时间序列分析在
原创力文档


文档评论(0)