基于盲文语料库现行盲文标调研究.docVIP

下载本文档

20
0
约8.21千字
约 18页
2018-08-30 发布于福建
举报
版权申诉

基于盲文语料库现行盲文标调研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于盲文语料库现行盲文标调研究

基于盲文语料库现行盲文标调研究　　摘要标调是现行盲文的核心问题，实际标调率是核心数据，广为流传的5%标调率不是实证性数据。本研究从正在建设的汉语盲文语料库中随机抽取新世纪以来的383个语篇，约88万字，经过计算机自动处理和人工勘验，发现现行盲文出版物的平均标调率约为11.35%，分半信度系数为0.99。不同类别语篇的标调率差异没有达到显著水平（P=0.9120.05）。单方音节是影响标调率高低的决定因素。现行盲文标调的重心应当回归到区分同音异调词上，以提高表音的准确性，减少盲生猜谜的现象。　　关键词盲文标调语料库　　分类号 G761 　　1 问题的提出　　新中国成立之初，我国盲人迎来了自己的新文字――现行盲文。但是，由于受历史条件的限制和对《北方话拉丁化新文字》不标调的膜拜，现行盲文制定了“一般不标调，需要时标调”的总原则。这个原则加上建国初期高度追求节约纸张，盲文出版物形成了很少使用声调符号的习惯。这个标调原则本身带有很大的人为随意性，除了有区分音节界限功能的声调必标外，其他声调标与不标没有可操作性的准则，存在很大的不确定性。所有声调的音节不标调都与轻声同形，这种不标调音节的声调可能有5个不同的读音，造成了现行盲文需要根据上下文猜测读音的先天缺陷。由于缺乏对这种缺陷的实证研究，几十年来，人们凭感觉随意将其夸大或者缩小。　　现行盲文作为表音文字，标调是一个核心问题。从现行盲文诞生之日起，60多年来没有解决好这个核心问题，一直困扰着盲生的学习，严重影响了我国盲人教育、文化的发展。我国盲文研究对这个核心问题的投入不足，在没有摸清现行盲文出版物实际标调底数的情况下，贸然抛弃现行盲文，另起炉灶，致使汉语盲文标调研究误入歧途。走了20多年的弯路，现行盲文标调问题又回到了原点。　　由于盲文研究难度大，加之我国盲文研究力量薄弱，汉语盲文有实证的基础数据严重匮乏，最典型的就是盲文出版物的实际标调率。关于现行盲文的标调率唯一能够找到的数据是“所有出版物中平均大约只有5%的音节标了调，这样，就产生了现行盲文必须依赖上下文猜测词的读音与含义的弊病”。然而，这个数据同样是非实证数据，找不到得出这个数据的统计样本、方法和过程。这个数据的科学性不得而知，基于这个数据的后续结论也难免令人生疑。　　几十年来，我国盲文研究领域一直渴望得到现行盲文出版物标调率的实证数据，这是现行盲文标调研究的基础。没有科学的基础数据，标调问题的其他研究就成了空中楼阁，科学研究就有演变成主观想象的危险。要深入研究盲生现行盲文读音猜谜问题，首先要弄清盲文出版物中的实际标调情况，这是最迫切需要回答的根本问题，也是隐性标调研究、修订标调规则、制定国家通用盲文标准的基础。没有这个基础，现行盲文标调研究的出发点都不清楚，更谈不上目标的科学与可达，广大盲校教师、学生、非学生盲人对标调规则的修订、国家通用盲文标准的接受度就难以达到预期。　　由于盲文出版物的特殊性，传统的人工方式难以对现行盲文出版物的标调情况进行大规模的实证统计。正在建设的汉语盲文语料库可以发挥重要作用，能够提供大量的第一手计算机统计数据，为现行盲文标调实证研究提供了可能。　　2 研究样本　　从正在建设的汉语盲文语料库中，抽取新世纪（2000-2014）15年以来除古文以外的盲文语料391个语篇为本研究的样本。这些语篇是经过两次随机抽取产生的，第一次是把中国盲文出版社出版的盲文图书（不含教材、期刊）按年代、内容题材分类，随机抽取，然后按照抽中图书的字数多少再随机抽取1-3个语篇，每个语篇是连续整段截取的5000±500方盲文。淘汰了8个古文超过10%的语篇，得到有效语篇383个，翻译自246本汉语图书。每个语篇平均包含2305个音节（汉字），标点符号、标志符号、阿拉伯数字、外文符号等非音节符号不计算在内。　　3 统计方法　　通过盲文语料库的标注软件对盲文语料进行拼音标注。由于现行盲文中韵母e、o共用1个符号，有些不标调的韵母音节（ia、ian、ün等）兼作标点符号或标志符号，自动标注存在少量错误，通过人工校对消除误差。　　通过盲文语料库的检索软件，对每个语篇分别进行检索，统计各个声调标调音节和未标调音节的出现频次，除以各自语篇的总音节数（不含各种非音节符号）得出本语篇各声调的标调率，四个声调标调率之和为本语篇标调率。随机抽取4个语篇，通过Word查找功能进行复核，没有发现统计误差。　　4 结果与分析　　表1中各声调的标调率是将各个语篇该声调出现频次的总和除以总音节数得到的。由于每个语篇的音节数不完全相同，各声调标调率不是所有语篇该声调标调率的算术平均数。　　本次对新世纪15年来383个语篇的较大规模抽样统计发现，现行盲文的平均标调率约为11.35%，是之