- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2007 年9月第14卷第 9期 中国中医药信息杂志 ·101·
基于文本内容理解的中医药数据基础研究
——中医药文献语料库的建设
周 扬,王振国
(山东中医药大学,山东 济南 250014)
关键词:中医药文献;语料库;中文信息库
中图分类号: 文献标识码: 文章编号:
R2-05 C 1005-5304(2007)09-0101-02
“中医药文献语料库系统”是汉语语料库建设中的一个 中医药文献语料库从类型上属于专用性语料库,在语料的
分支,是在北京大学计算机语言所开发的“汉语文本切分与词 收集和处理上,注重语料的专业性、系统性、合理性和代表性。
性标注工具”的基础上,利用中医药专业切分词典再次加工而 尽可能全面地囊概所有的中医学学科门类,收集相关的中医药
成,是为面向中医药文本内容理解的需要而设计研制的。其中 专业文献,选择各学科中具有代表性的文献。
中医药文献语料库是该系统中的基础数据,本语料库根据内容 2 中医药文献语料库的设计原则
属性分为 20 个子目,每个子目下又各有细分类,共计四级分 中医药文献语料库是专用性语料库,研制开发的主要目的
类。目前已经部分完成自动分词和词性自动标注的处理工作。 是为了实现中医药文本内容的理解,是建立在北京大学计算语
1 中医药文献语料库的定位 言学研究所的“大规模现代汉语基本标注语料库”基础之上的。
[1]
现代语料库一般可以分为以下4种类型 。 因此,在语料收集和加工处理的过程中立足中医药文献的特点,
1.1 异质型语料库(Heterogeneous Corpus) 主要参考了“现代汉语语料库加工——词语切分与词性标注规
[2]
异质型语料库广泛收集和存储各种文字语料,所选语料按其 范与手册” 。
原貌存储。如英国牛津大学计算中心建立的OTA文本档案库。 为保证语料的系统性与合理性,中医药文献语料库在设计
1.2 同质型语料库(Homogeneous Corpus) 过程中坚持了以下4个方面的平衡:语体之间的平衡;语料在
同质型语料库选取具有同一属性的语料。例如专门收集与 时间分布上的平衡;母本数量与样本数量的平衡;一般著作与
军事有关的文本的美国TIPSTER语料库。国内开发的同质型语 经典著作的平衡。力图使语料库成为一个由时间轴、空间轴、
料库如国家“七五”重点项目新华社的“新闻语料库”、北京 学科轴和风格轴构成的四维模型。
大学计算语言学研究所与富士通公司合作开发的“人民日报语 3 中医药文献语料库的结构
料库”、香港城市大学语言资讯研究中心的中文五地区共时语 中医药文献语料库以内容作为语料分布的基本原则,分为
料库(Linguistic Variety in Chinese Communities)。 20大类,每个大类下面又分若干不等的小类。
1.3 系统性语料库(Systematic Corpus) 语料分布分类情况:中医基础理论、藏象学说、气血津液、
系统性语料库依据事前确定的选材原则和比例选取语料, 经络与腧穴、病因、病机、体质、中医诊法、辨证、辨病、中
这类语料库强调语料选取的系统性、均匀性、合理性和代表性, 药、方剂、伤寒与温病、症状、病证、治则治法、著作、人物、
文档评论(0)