- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中医药学语言系统中的语义关系挖掘
目前,中医药领域实用的知识库系统显现出大型化的趋势,往往包含百万条语义关系。例如,中医药学语言系统 ( Traditional Chinese MedicineLanguage System, TCMLS)已收录概念 12 万余条,术语 30 万余条,语义关系 127 万多条。由人工编辑如此大量的语义关系,是一个耗时费力的大工程。
若能实现从文献中自动抽取语义关系,则可大幅提升知识获取效率。因此,语义关系发现方法对领域知识库的构建具有很大意义。本文介绍了一项基于 TCMLS从文本中发现语义关系的初步尝试。该研究试图将文本中蕴含的语义关系挖掘出来,与 TCMLS 现有的语义关系结合,得到更为全面、准确的语义关系,并明确系统中语义关系的文献来源,从而扩充 TCMLS 的数据规模,提升 TCMLS 中语义关系的准确性和可靠性。
1 研究背景和相关工作
中医药学是经过几千年的发展而形成的,文献记载是其重要的知识流传的方式之一。近年来,中医团体开展了大量的知识工程工作,采用各种文献中的知识来构建中医药领域知识库,提供知识检索服务。以 TCMLS 为例,因缺乏实用的中医药文本挖掘方法,在语义关系抽取方面,主要依赖于加工人员的个人知识和手工操作。这种方法与加工人员个人的知识、素养和责任心有很大关系,造成数据准确性良莠不齐,难以对数据质量进行有效管理。随着系统规模的不断扩大,人工编辑的复杂性也不断增大,制约着 TCMLS 的进一步发展。鉴于此,拟对中医药文献内容进行语义关系提取,得到具体概念之间的语义关系,与 TCMLS 的语义关系进行比较,并对 TCMLS 进行进一步扩充。
从自由文本中挖掘语义关系是一个非常困难的问题,因为同一种关系在文本中会有多种表达方式。
常见的语义关系发现方法,主要包括如下 2 大类。
1.1 基于语法分析的语义关系发现
此类方法的主要思路是:基于自然语言处理(NLP)技术,通过对文本进行语法分析,构建出语法树,再通过语法和词性的分析得到其中的语义关系。这类方法的优点是对语义关系定位比较准确,并可以通过语法特征得到文本中的隐含信息。但其缺点在于:此类方法的效果严重依赖于语法分析的结果,对于一些特殊的领域,现有的语法分析方法往往无法取得令人满意的结果。因此,基于语法分析的语义关系抽取算法其应用范围受到了很大的限制,特别是在一些有着独特语法规则的领域中更是如此,本文中提到的中医药领域就是一个例子。
1.2 基于模式匹配的语义关系发现
这种方法是用某种模式对文本进行匹配,根据匹配的情况得到相应的语义关系。根据匹配模式的不同来源,可以分为两类:基于领域知识的模式匹配和基于学习的模式匹配。基于领域知识的模式是由领域专家将其领域知识总结、升华得到的通用知识模式,然后再使用这些模式作为模板,从文献中找到相应的关系。基于学习的模式匹配方法,是指使用机器学习方法,通过对文献特征的分析得到有用的模式。这类方法的目标一般限定为仅挖掘某些特定类别的实体的几种特定关系,无法胜任中医药领域中语义关系种类很多的情况。
综上所述,这两类方法都不适合中医药领域的需求。本研究提出基于 TCMLS 的文本语义关系发现方法,该方法以 TCMLS 中的词汇为基础,发现语义关系中的主体和客体;以 TCMLS 中已有的语义关系为根据,推测从文本中挖出的语义关系的类型。本研究的基本策略,是基于 TCMLS 从文本中发现更多的关系,经用户验证后加入 TCMLS 之中,从而丰富 TCMLS 的语义关系;再用丰富后的 TCMLS 进行新一轮的文本挖掘,进一步丰富 TCMLS;以此类推,从而形成一套基于文本语义关系发现来驱动 TCMLS 加工的技术方案。
下面具体介绍基于 TCMLS 的语义关系发现方法。
2 文本语义关系发现方法
如图 1 所示,文本语义关系发现,是指从“……人参有补五脏、安精神、定魂魄、止惊悸、除邪气、明目开心益智的功效……”的文本中,发现“人参 补 五脏”、“人参 安 精神”、“人参 止 惊悸”、“人参 除 邪气”这样的关系。该方法会统计每条关系出现的频数:如果在文档 D1,D2……Dn 中都出现了某条关系 R,则 R 出现的频数即为 n。该方法的基本策略是:以 TCMLS 作为领域词库,从文献库中找出在同一文档中出现的两个领域术语(如“人参、邪气”、“人参、五脏”等),构成候选的文本语义关系,并统计每条关系的频数,以供语言学家进行检阅和处理。由机器判断语义关系的谓词(如“人参”与“邪气”之间的谓词为“除”)仍是一个技术难题。本方法会在这两个词附近找出一些候选性谓词(如“补”、“除”等)推荐给用户;并提供 TCMLS中的相关用法,供用户参考(例如,针对“人参”和
文档评论(0)