- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中医药古文献语料库设计和开发研究
中医药古文献语料库设计和开发研究
摘要:专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路。通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行分析的基础上,深入探讨了专业语料库的设计思想及原理,同时,对语料库词类的标注信息进行了深入研究。成功地开发了针对专业领域语料库的辅助加工系统,为专业领域语料库建设提供了理论指导和技术支撑。
关键词:计算机应用;中文信息处理;自然语言处理;语料库;中医药古文献;知识工程
中图分类号:TP391 文献标识码:A
自然语言处理(Natural Language Processing,NLP)是一种对自然语言信息进行处理的技术,从语言学角度来说,自然语言处理也叫计算语言学(Computational Ling uistics)。自然语言处理包括自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)两部分。自然语言理解是指对自然语言的内容和意图的深层把握。自然语言生成是指从非自然语言输入到自然语言输出的处理。自然语言理解与自然语言生成互为逆过程。如何将自然语言技术引入到中医药古文献的处理中来,是我们多年从事的研究课题之一。
1 研究背景
中医学理论体系带有浓厚的自然哲学色彩,表现为长期的、非常稳定的形态,形成了以《内经》、《伤寒杂病论》为主体的相对封闭的框架。现代中医基础学科的分化,基本上是从原著派生出来的,因此,难以超越原著所固有的架构体系。中医基础学科奠基于《内经》学术体系,临床课程则与当时的中医医疗分科相对应。作为学科建设的主要标志,是各科教材的编写基础。特别是一版教材,扎扎实实地从文献研究人手,在前人的理论建树和实践基础上梳理出已经分化明显的学科,正如二版教材“前言”所说,是“把祖国医学系统地画了一个前所未能画出的轮廓,对提高教学质量起到了积极的作用”,使中医学理论向规范化迈进了一大步。在短时间内,从浩瀚的文献中由博返约,提纲挈领地构筑起了现代中医药学的基本框架,满足了当时高等中医药教育的需要。但是,在上述规范化过程中,受到近代科学思想,特别是近代西方医学的影响,同时也受当时教育模式的制约,在学科学术体系的架构过程中,许多重要的、有价值的理论与方法被忽略了。例如中医“证”的规范化是多年来的重点研究课题。但是,由于文献的覆盖面有限,大量证型被遗漏。在未能对全部古代文献进行梳理,并对“证”的文献做出系统分析和归纳的情况下,简单地或者人为地分型有可能掩盖疾病的复杂性、多变性,引导医者的思维趋向单一和片面,即病-证-方的线性模式,并妨碍中医临床疗效地提高,以至于中医药界在建国五十多年内无重大发展。究其原因,中医学固有的理论与思想体系由于近代科学与教育模式等原因而被忽视;当代中医工作者文献研究不足,未能进一步深入挖掘古代文献中的学说、思想与理论,未对中医基础学科群的理论框架与学科体系进行充实、完善。
另一方面,中医古籍文献整理研究,是必不可缺的,并且人们企盼着能从古籍文献整理研究人手,起到保持中医学术特色的作用,认为这是按着中医学固有规律向前发展的最佳选择。因此,如何利用现代化手段,对中医药古文献进行深入加工,从而为智能检索和知识挖掘打开方便之门,也就成为当前中医药古文献的研究前沿问题,也是中医药信息化迫切需要解决的重要问题。经过多年的研究,作者认为建立针对中医药古文献的语言知识库,可以有效地解决这一难题。
2 中医药古文献语料库的构建意义
语言知识库(如:语料库、机器词典、句法规则库等)是自然语言处理系统不可或缺的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言处理系统的成败。这已经是计算语言学研究者和自然语言处理系统开发者的共识。特别是中文信息处理尤其需要重视知识库的建设。这其中更以语料库与词典的建设为重中之重。基于语料库的研究具有以下特点:
(1)基于语料库的研究是实证性的,能够用来分析自然环境下的实际模式;
(2)能以大量收集起来的自然文本作为语料库研究的基础;
(3)能大量使用计算机作为分析工具;
(4)能同时使用定性和定量分析手段。
我国古代医家善于从前人的文献出发研究医理,探索规律。他们往往通过博览群书,凭借笔记与大脑记忆来搜集资料和积累经验。这种实证的经验主义方法在计算机技术出现之后得到了强化,日益发展的计算机技术既增强了个人搜集医学资料的能力,又提供了处理资料的强大工具。建立中医古籍语料库的目的,就是要运用计算机技术通过语料库
原创力文档


文档评论(0)