基于双向聚类方法中医治疗中风病方剂配伍规律知识发现.docxVIP

基于双向聚类方法中医治疗中风病方剂配伍规律知识发现.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于双向聚类方法中医治疗中风病方剂配 伍规律知识发现 摘要:目的深入探索方剂的制方要素,总结方药 证治规律,找到对其中药理起关键作用的核心药/药组,为 方剂配伍理论研究、药性理论研究、中医临床用药研究提供 新方法和现代技术手段。方法 从《中国方剂数据库》和《方 剂现代应用数据库》中获取治疗中风病的方药文本数据源, 经预处理、信息抽取后构建方药矩阵,引入双向聚类方法对 方-药两方面数据同时聚类。结果 预处理后得到有效记录 648首,共计6913味药,生成了 100X648 方-药”矩阵, 最后得到4组聚类指标,高描述度代表方共8首,总结出针 对不同证型配伍用药特点及各证型辨证论治的治则治法及 各型常用药对药组。结论 本方法适用于中医方剂数据库中 方-药知识发现,可有效抽取所需方药信息,梳理出方药证 治规律。 关键词:中风;方剂;配伍;数据挖掘;双向聚类;聚 类分析;知识发现 D0I: 10. 3969/j. issn. 1005-5304. 2013. 11.007 中图分类号:R2-05; R277. 733文献标识码:A文章编 号:1005-5304 (2013) 11-0016-04 医学信息量的不断增长催生了一项目前在医学信息学 领域的活跃分支一一医学数据挖掘/知识发现。在该领域中, 聚类方法是一项核心技术,是探索性数据分析和模式发现的 一种重要手段[1]。聚类分析是一个将数据集划分为若干类 的过程,其结果是使得同一类内的对象具有较高的相似度, 而不同类中的对象是不相似的[2]。在统计分析和模式识别 领域,聚类已被广泛研究,提出了大量的理论和方法,并取 得了丰硕的研究成果[3]。 基金项目:辽宁省教育厅科研课题(L2012345) 双向聚类(biclustering)源于Hartigan[4]提出的同 时聚类算法,是一种对数据矩阵中的实例和变量同时进行聚 类的新型数据分析方法,可同时使用对象及其属性来提取它 们的联合信息,对稀疏和高维矩阵尤其有效,在应用上具有 很多优势[5]。该方法在生物医学领域的首次应用见于基因 表达谱的分析,随后在微阵列和生物信息学中得到广泛应用 [6-8] o而将双向聚类方法应用于中医信息分析则刚刚起步, 相关研究较少,笔者以中风病中医治疗组方配伍规律知识发 现为例,对该领域内方-药两方面数据进行双向聚类,在对 复方聚类的同时反映其配伍信息,以揭示其组方配伍规律。 1资料与方法 1数据来源 源数据采自中国中医科学院中医药信息研究所开发的 《中国方剂数据库》和《方剂现代应用数据库》。预处理采 用 BICOMB ( http : //ww. sciencenet. cn/m/user_content, aspx ? id=300020),双向聚类分析采用 gCluto(http: //glaros. dtc. umn. edu/gkhome/cluto/gcluto/overview)。 1.2数据采集 登录中医药在线()多库融合平台,检 索策略为“主治二中风”,年代不限,命中记录情况为《中 国方剂数据库》中1758条、《方剂现代应用数据库》中91 条。套录后转换为文本格式的待处理源数据。 1.3数据预处理 纳入资料标准:主治病证中明确出现针对中风、半身不 遂、偏枯、神识昏蒙、言语蹇涩、口眼歪斜及其同义词或近 义词等主症,或与已知的中风病因病机符合的方剂。排除资 料标准:所治症状可明确为其他因素所引起偏枯、偏瘫等, 无主症或主症不符合,以及属于治疗外感表证和类中风的中 风方剂。 经标准过滤及整理后,共得到有效记录648条。首先对 文本进行处理得到方名和药物组成两项信息,再对部分药名 后不相关信息进行清洗,最后对药名进行规范和统一。本文 涉及的中药异名,主要参考《中药学》[9]及《中药大辞典》 [10]进行规范处理。 1.4信息抽取 使用BICOMB的提取功能[11]进行方名和药名的识别和 抽取。通过频次分析,初步归纳出不同药物在诊疗中使用情 况。为确定核心药频次阈值,使用Donohue[12]根据齐普夫 定律推导出的高频低频词界分公式进行计算。 其中,II为词频为1的词个数,T为高频词中的最低频 次数。再使用BICOMB系统的进行药方和药名统计,构建‘方 -药”向量矩阵,矩阵的行为高频药名,列为相关方号。 1.5双向聚类 采用gCluto对上述矩阵的行和列同时聚类。将之前导 出的高频矩阵导入gCluto中,聚类算法采用重复二分法 (repeated bisection),类数量设置先后测试了从10 (默 认)到2,本着ISim (表示类间的紧密程度)尽量高而Esim (表示类间的离散程度)尽量低的原则,经对比发现4类效 能最佳。相似性函数(similarity function)采用相关系 数。判别

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档