- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于文本内容理解的中医药数据基础研究
中医药文献语料库的建设
【关键词】中医药文献;语料库;中文信息库
“中医药文献语料库系统”是汉语语料库建设中的一 个分支,是在北京大学计算机语言所开发的“汉语文本切分 与词性标注工具”的基础上,利用中医药专业切分词典再次 加工而成,是为面向中医药文本内容理解的需要而设计研制 的。其中中医药文献语料库是该系统中的基础数据,本语料 库根据内容属性分为20个子目,每个子目下又各有细分类, 共计四级分类。目前己经部分完成自动分词和词性自动标 注的处理工作。
1中医药文献语料库的定位
现代语料库一般可以分为以下4种类型[1]。
异质型语料库(He terogeneou sCorpus)
异质型语料库广泛收集和存储各种文字语料,所选语料
按其原貌存储。如英国牛津大学计算中心建立的0TA文本 档案库。
同质型语料库(Homogen eousCorpus )
同质型语料库选取具有同一属性的语料。例如专门收
集与军事有关的文本的美国TI PSTER语料库。国内开发的 同质型语料库如国家“七五”重点项目新华社的“新闻语
料库”、北京大学计算语言学研究所与富士通公司合作开发 的“人民日报语料库”、香港城市大学语言资讯研究中心的 中文五地区共时语料库(Linguist icVarietyi nChineseCo mmunities)o
系统性语料库(Systematic Corpus)
系统性语料库依据事前确定的选材原则和比例选取语
料,这类语料库强调语料选取的系统性、均匀性、合理性和 代表性,目的是真实反映一个特定语种或特定范围的语言事 实全貌。例如英国BNC语料库、美国布朗大学的BROW N语 料库。国内目前开发比较成熟的系统型语料库主要有国家 语言文字工作委员会语用所的“现代汉语语料库”、北京语 言大学的“现代汉语研宄语料库系统”、北京语言大学与 香港理工大学合作的“现代汉语语料库”、北京语言大学与 清华大学合作的“现代汉语语料库”、清华大学中文系的 “清华TH语料库”、中国台湾中央研究院的“平衡语料库”。
专用性语料库(Spec ializedCor pus)
专用性语料库专门服务于某个特定目的。例如美国卡
耐基-梅隆大学为研究儿童心理语言学而建立的CHILDES语 料库、为珍藏人文科学重要著作和资料而建立的美国北美 人文科学语料库等。
中医药文献语料库从类型上属于专用性语料库,在语料 的收集和处理上,注重语料的专业性、系统性、合理性和代
表性。尽可能全面地囊概所有的中医学学科门类,收集相关 的中医药专业文献,选择各学科中具有代表性的文献。
2中医药文献语料库的设计原则
中医药文献语料库是专用性语料库,研制开发的主要目 的是为了实现中医药文本内容的理解,是建立在北京大学计 算语言学研究所的“大规模现代汉语基本标注语料库”基 础之上的。因此,在语料收集和加工处理的过程中立足中医 药文献的特点,主要参考了 “现代汉语语料库加工__词语 切分与词性标注规范与手册” [2]。
为保证语料的系统性与合理性,中医药文献语料库在设 计过程中坚持了以下4个方面的平衡:语体之间的平衡; 语料在时间分布上的平衡;母本数量与样本数量的平衡;
一般著作与经典著作的平衡。力图使语料库成为一个由时 间轴、空间轴、学科轴和风格轴构成的四维模型。
3中医药文献语料库的结构
中医药文献语料库以内容作为语料分布的基本原则,分 为20大类,每个大类下面又分若干不等的小类。
语料分布分类情况:中医基础理论、藏象学说、气血 津液、经络与腧穴、病因、病机、体质、中医诊法、辨证、 辨病、中药、方剂、伤寒与温病、症状、病证、治则治法、 著作、人物、机构、地理。
4中医药文献语料库的规模
语料库的规模问题主要从语料库的总规模和每个样本 的规模两个层面上考虑。
自从20世纪60年代美国布朗大学开发的布朗当代美 国英语标准语料库(B rownUniver sityStanda rdCorpusof Present-da yAmericanE nglish)以来,随着计算机存储容量 和处理技术的不断发展,语料库的规模呈几何级数不断扩大 计算语言学界提出了大规模真实文本语料库的概念。从理 论上讲,语料库规模过小,覆盖率太低,不足以说明问题,要 保证语料库的科学性与合理性,其规模要达到足够大的数量 级,语料库规模越大才越能接近自然语言的真实面目。语料 库的规模达到一定程度,就能够覆盖绝大多数语言规律。但 语料库的规模不可能无限制地扩大下去,总要有个相对的限 度,否则语料库就会失去有效控制。
语料库规模的大小并没有一个绝对的标准,但根据以上 语料库语言学的理论,并参考目前国内语料库的规模,中医 药文献语料库所依据的文献约1万册,从中抽取了 20种样 本作为前期开发
您可能关注的文档
最近下载
- 工学一体化课程《小型网络管理与维护》任务4单元4教学单元活动方案.docx VIP
- 铜矿开采施工人员培训方案.docx
- 配电架空线路通道内树木砍伐修剪施工方案.docx VIP
- 中文网络成瘾量表修订版(CIASR).docx VIP
- 如何正确上颌架?.pptx VIP
- 《燕尾型配合工件说》课件.pptx VIP
- ISO 4210-8-2023中文+英文-自行车–自行车的安全要求-第8部分.pdf
- 超星尔雅学习通《中华民族共同体概论(云南大学)》章节测试答案.docx VIP
- T∕ZZB 1228-2019 强制式简易升降机.pdf VIP
- (正式版)S-H-T 3551-2024 石油化工仪表工程施工及验收规范.docx VIP
原创力文档


文档评论(0)