- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中医研究-世界科学技术—中医药现代化
世界科学技术—中医药现代化★中医研究:专题讨论基于研究型门诊的真实世界中医肝病临床研究体系构建与应用
面向文摘的中药方剂与疾病关系抽取*
1 1 1** 2
杨晓欢 ,单娅辉 ,解 丹 ,李晓东
(1.湖北中医药大学信息工程学院 武汉 430065;2.湖北省中医院 武汉 430061)
摘 要:目的:利用机器学习的方法,从文献摘要数据入手,研究中药方剂与疾病的相关性。方法:在中国
知网的“文献分类目录”中选取“医药卫生科技”—“中医学”类别,使用网络爬虫技术获取摘要数据,经过数据清
洗、构建词典、分词等预处理步骤,使用自然语言处理技术对处理后的文本数据进行特征提取,并构建支持向量
机(SupportVectorMachine,SVM)分类模型,对中药方剂与疾病进行关系抽取。结果:共爬取1073581篇摘要,
根据中药方剂与疾病词典筛选出同时包含中药方剂与疾病的语句共204780句,利用句法解析抽取的特征构建
SVM分类模型,准确率达87%,将该SVM模型应用于筛选后的句子,最终得到中药方剂与疾病之间的关系三元
组。结论:利用机器学习方法对中国知网中医学摘要文本数据进行关系抽取,得到的中药方剂与疾病的关系三
元组,将对中药方剂治疗疾病研究起积极推动作用。
关键词:中药方剂与疾病关系抽取 抽取数据 中医药数据抽取 网络爬虫技术
doi:10.11842/wst.2017.07.012 中图分类号:R-33 文献标识码:A
1 引言 本文选取中医药文献摘要数据作为中医药知识的
文本来源,尝试对其中蕴含的中医方剂与疾病之间的
中医领域包含丰富的临床和文献数据资源,这些
关系进行提取。本文在第2节中介绍了中医药文本挖
数据资源具有重要的理论研究和临床应用价值,对其
掘的相关研究;在第3节中详细介绍了数据处理与分
分析利用是重要的研究问题,但目前中医临床数据和
析方法,包括文本数据获取、数据清洗,构建词典以及
文献数据等仍以自然语言为主要记录方式,其数字信
分词;在第4节中分别使用句法解析、依存解析对文摘
息载体主要是文本数据。如何从非结构化文本中提取
数据进行特征提取,然后使用SVM算法模型对数据进
出有用的医学信息或者知识,已逐渐成为人们关注的
行分类;在第5节中进行了实验,得到中药方剂与疾病
研究课题,如抽取基因与疾病之间关系的DTMiner框
的关系三元组。结果表明本文提出的中药方剂与疾病
架,从网络论坛、社交媒体数据中发掘药物与副作用之
关系抽取的方法方便可行,分类准确度高,为后续数据
[1-3]
间的关联等 。中医药是我国的国粹,有着几千年的
挖掘工作奠定了重要基础。
发展历史,近代时期西医后来居上,如何让传统中医在
[4] 2 相关研究
数据时代重获新生是中医药现代化的重要内容 。利
用计算机程序自动从文本数据中提取有用信息,能够
关系抽取是从一句包含两个或多个实体的文本中
将人们从繁重的科研工作中解放出来,提高科研工作 [5]
文档评论(0)