基于文本内容理解的中医药数据基础研究中医药文献语料库的建设.docVIP

基于文本内容理解的中医药数据基础研究中医药文献语料库的建设.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于文本内容理解的中医药数据基础研究 中医药文献语料库的建设 【关键词】中医药文献;语料库;中文信息库 “中医药文献语料库系统”是汉语语料库建设中的一 个分支,是在北京大学计算机语言所开发的“汉语文本切分 与词性标注工具”的基础上,利用中医药专业切分词典再次 加工而成,是为面向中医药文本内容理解的需要而设计研制 的。其中中医药文献语料库是该系统中的基础数据,本语料 库根据内容属性分为20个子目,每个子目下又各有细分类, 共计四级分类。目前己经部分完成自动分词和词性自动标 注的处理工作。 1中医药文献语料库的定位 现代语料库一般可以分为以下4种类型[1]。 异质型语料库(He terogeneou sCorpus) 异质型语料库广泛收集和存储各种文字语料,所选语料 按其原貌存储。如英国牛津大学计算中心建立的0TA文本 档案库。 同质型语料库(Homogen eousCorpus ) 同质型语料库选取具有同一属性的语料。例如专门收 集与军事有关的文本的美国TI PSTER语料库。国内开发的 同质型语料库如国家“七五”重点项目新华社的“新闻语 料库”、北京大学计算语言学研究所与富士通公司合作开发 的“人民日报语料库”、香港城市大学语言资讯研究中心的 中文五地区共时语料库(Linguist icVarietyi nChineseCo mmunities)o 系统性语料库(Systematic Corpus) 系统性语料库依据事前确定的选材原则和比例选取语 料,这类语料库强调语料选取的系统性、均匀性、合理性和 代表性,目的是真实反映一个特定语种或特定范围的语言事 实全貌。例如英国BNC语料库、美国布朗大学的BROW N语 料库。国内目前开发比较成熟的系统型语料库主要有国家 语言文字工作委员会语用所的“现代汉语语料库”、北京语 言大学的“现代汉语研宄语料库系统”、北京语言大学与 香港理工大学合作的“现代汉语语料库”、北京语言大学与 清华大学合作的“现代汉语语料库”、清华大学中文系的 “清华TH语料库”、中国台湾中央研究院的“平衡语料库”。 专用性语料库(Spec ializedCor pus) 专用性语料库专门服务于某个特定目的。例如美国卡 耐基-梅隆大学为研究儿童心理语言学而建立的CHILDES语 料库、为珍藏人文科学重要著作和资料而建立的美国北美 人文科学语料库等。 中医药文献语料库从类型上属于专用性语料库,在语料 的收集和处理上,注重语料的专业性、系统性、合理性和代 表性。尽可能全面地囊概所有的中医学学科门类,收集相关 的中医药专业文献,选择各学科中具有代表性的文献。 2中医药文献语料库的设计原则 中医药文献语料库是专用性语料库,研制开发的主要目 的是为了实现中医药文本内容的理解,是建立在北京大学计 算语言学研究所的“大规模现代汉语基本标注语料库”基 础之上的。因此,在语料收集和加工处理的过程中立足中医 药文献的特点,主要参考了 “现代汉语语料库加工__词语 切分与词性标注规范与手册” [2]。 为保证语料的系统性与合理性,中医药文献语料库在设 计过程中坚持了以下4个方面的平衡:语体之间的平衡; 语料在时间分布上的平衡;母本数量与样本数量的平衡; 一般著作与经典著作的平衡。力图使语料库成为一个由时 间轴、空间轴、学科轴和风格轴构成的四维模型。 3中医药文献语料库的结构 中医药文献语料库以内容作为语料分布的基本原则,分 为20大类,每个大类下面又分若干不等的小类。 语料分布分类情况:中医基础理论、藏象学说、气血 津液、经络与腧穴、病因、病机、体质、中医诊法、辨证、 辨病、中药、方剂、伤寒与温病、症状、病证、治则治法、 著作、人物、机构、地理。 4中医药文献语料库的规模 语料库的规模问题主要从语料库的总规模和每个样本 的规模两个层面上考虑。 自从20世纪60年代美国布朗大学开发的布朗当代美 国英语标准语料库(B rownUniver sityStanda rdCorpusof Present-da yAmericanE nglish)以来,随着计算机存储容量 和处理技术的不断发展,语料库的规模呈几何级数不断扩大 计算语言学界提出了大规模真实文本语料库的概念。从理 论上讲,语料库规模过小,覆盖率太低,不足以说明问题,要 保证语料库的科学性与合理性,其规模要达到足够大的数量 级,语料库规模越大才越能接近自然语言的真实面目。语料 库的规模达到一定程度,就能够覆盖绝大多数语言规律。但 语料库的规模不可能无限制地扩大下去,总要有个相对的限 度,否则语料库就会失去有效控制。 语料库规模的大小并没有一个绝对的标准,但根据以上 语料库语言学的理论,并参考目前国内语料库的规模,中医 药文献语料库所依据的文献约1万册,从中抽取了 20种样 本作为前期开发

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档