- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
作者:丁维蒋永光宋姚屏吴孟旭李昆
【摘要】介绍了数据挖掘的意义和任务,综述了近几年来数据挖掘在中医各领域中的应用,分析了目前存在的问题,并探讨了今后的发展趋势。
【关键词】数据挖掘中医
随着计算机技术和网络技术的快速发展,在中医药的现代化过程中建立了很多的数据库。堆积在数据库中的信息呈超指数爆炸式增长。例如中医药科技信息数据库就有50个子数据库、110个表单及数百个自动生成的中间表、800余个著录项目,涵盖所有中医药有关医、药及学术的内容。而数据挖掘技术的发展使我们有可能从这些海量数据中发现新的知识,发现数据背后隐藏的关系和规则,还可以对未知的情况进行预测。多学科交叉目前正成为增强科技创新的重要途径,数据挖掘正是从统计学、数据库、机器学习等多门学科中发展起来的。
1数据挖掘介绍
数据挖掘的定义
数据挖掘(datamining)也称为数据库知识发现,为解决上述矛盾提供了强有力的工具[1]。数据挖掘这一术语出现于1989年,其定义几经变动,本研究中引用frayyadum等提出的对数据挖掘的定义[2]。数据挖掘是从数据库中识别出有效的、新颖的、潜在有用的并且最终可理解的模式的非平凡过程。其中:
①有效性要求挖掘前要对被挖掘的数据进行仔细检查,具备该特性,才能保证挖掘出来信息的可靠性。
②新颖性要求发现的模式应该是从前未知的,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
③潜在有用性是指发现的知识将来有实际效用,即这些信息或知识对于所讨论的业务或研究领域是有效的、是有实用价值和可实现的,常识性的结论或已被人们掌握的事实或无法实现的推测都是没有意义的。
④最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。发现的知识要可接受、可理解、可运用,最好能用自然语言表达所发现的结果。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的。
⑤非平凡是一个数学概念,即数据挖掘既不是把数据全部抽取,也不是一点儿也不抽取,而是抽取出隐含的、未知的、可能的有用的信息。要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作是一个发现过程)。
数据挖掘的结果通常表示为概念(concepts)、规则(rules)、规律(regularities)、模式(pattern)、约束(constraint)、可视化(visualization)等形式。这些知识可以直接提供给决策者,用于辅助决策过程;或者提供给领域专家,修正专家的已有的知识体系;也可以作为新的知识转存到应用系统中,作为实际事务处理中决策的依据[3]。
2数据挖掘的任务
数据挖掘的任务主要是预测和描述。预测是指用一些变量或数据库的若干已知字段预测其他感兴趣的变量或字段的未知的或未来的值。描述是指找到描述数据的可理解模式。预测方法有统计分析、关联规则和决策树预测、回归树预测等。其中关联规则反映了一个事务与其他事务之间存在关联,那么就能根据其他已知事务预测到另一个事务。描述性方法主要有数据分类、回归分析、聚类、变化和偏差分析、模式发现等。
3数据挖掘在中医药中的应用
中医药的发展也需要多门学科的交叉应用。数据挖掘最初在生物医学中的应用是在对基因组测序数据的分析,因为人类基因组计划研究中产生了数十亿的核苷酸和上百万的氨基酸,传统的统计方法无能为力。中医学具有系统性、整体性、复杂性、不确定性等特点,不适宜运用传统的还原论的方法研究,而适宜与数据挖掘类似的从整体观上入手的研究方法。数据挖掘可以从海量数据中挖掘出潜在的规律,数据挖掘的结果一部分可能与传统的诊疗规律相符,不符合的部分可能是潜在的新知,也可能是没有意义的,这都需要在相应目标领域专家的指导下进行解释和评价。将数据挖掘(dm)和知识发现(dmkd)应用于中医药领域的研究,是中医药现代化研究的重要组成部分[1],必将促进中医药的发展。而数据挖掘在中药药谱研究和新药开发中取得了一定进展,本研究主要对其在中医以下领域的研究作一介绍。
证实质的研究
中医的“证”又称“证候”,是疾病在某一阶段病变的本质反映,是由一组能反映疾病本质的症状组成的,能揭示病因、病位、病性、病势,为论治提供依据。证候是中医诊断的核心概念和理论精髓,具有整体性、抽象性、时间性和相对稳定性的特点。现在对证实质的研究多从西医的生理理化指标来揭示证的实质,但实践中却发现缺少证的特异性指标。如果从分子生物学的角度,利用数据挖掘技术对中医证与相关基因的对应关系,可能取得更好的结果。通过研究“证”和基因多态性之间的内在联系,从基因多态性所带来的该基因功能上的变化,由此探寻“证”的相关基因表达谱。
文档评论(0)