- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语言与方言的区分层级
——ASJP 模式的核心词汇距离计算再分析
索伦·维希曼 冉启斌
提 要 语言与方言之间的区分具有不同的层级,本文从相似度的角度考察不同区分层级的指标。主要
从ASJP 数据库(第18 版)分不同语系之间的语言、相同语系不同语族之下的语言、相同语族之下的语言、
相同方言的不同变体四种情况选取了数量不等的语档,分别计算了各自的相似度,并进而计算了语言与方
言4 种不同区分层级的临界值,结果分别为2.37%、18.64%、50.90% 。临界值可以作为从语言内部因素划
分语言与方言不同层级的参考指标。汉藏语系不同语族之下的语言其相似度总体偏低,相似度按降序为汉
语方言>壮侗语族>苗瑶语族>藏缅语族。
关键词 语言 方言 区分层级 相似度 临界值
一 引言
通常地说,语言是方言的上位概念,方言是语言的下位变体,两者是不同层面的概念。
不过,当要确定一种语言变体是否能够独立为一种语言,还是只是作为一种方言存在,二者
又是可以并称的。语言与方言的区分是十分复杂的问题,涉及到语言内部和外部方方面面的
因素。本文只分析语言内部因素在区分语言与方言中的作用。
两种语言变体的差异达到怎样的程度可以认为是两种不同的语言,法兰克·布莱尔(2006 )
曾从语言调查的角度进行过说明。他提出,在语言调查中互相可以理解的词汇比例可以作为
划分不同语言或方言的标准 (后文还将说明)。冉启斌、索伦·维希曼 (2018 )讨论过可以
以核心词汇的距离数值作为划分语言与方言的参考。
但是语言与方言之间的差异有层级的不同:(1)两种语言变体可能属于完全不同的语系;
(2 )两种语言变体可能属于相同语系的不同语族;(3 )两种语言变体可能属于相同语族下
的不同语言或语言变体;(4 )两种语言变体可能只是属于相同方言的不同变体。冉启斌、索
伦·维希曼(2018 )只从相同语系具有不同ISO639-3 代码的角度讨论了上述第(3 )种情况。
本文从语言与方言差异的层级角度对核心词汇距离计算得到的词汇相似度均值重新进行考
察分析。
二 ASJP 模式的词汇相似度计算
词汇相似度有很多测量方法。王士元、沈钟伟(1992 )考察相同词在不同汉语方言中的
语素和构成形式,按照“双有”“有无”“双无”“无有”的方式可以计算两种方言词汇的相
关系数,从而得到两种方言词汇之间的相似程度。郑伟娜(2017 )在此方法基础上对语素进
行了加权。杨蓓(2003 )将不同汉语方言中的词分解为词段,按照声母、韵母的相似程度计
算这些词汇的相关系数,从而得到不同方言的词汇相似度。这些方法立足于词汇具有千丝万
缕联系的汉语方言是有效的,对于完全没有关系的语言则上述方法很难操作。
不少研究表明,依据“编辑距离”计算词汇相似度无论对有关联的语言/方言还是对没
有任何关联的语言/方言都是一种有效的方法。“编辑距离 (edit distance )”指由一个字符串
本文为北京语言资源高精尖创新中心项目“语言识别理论及语言数量统计的方法论研究”(KYR17018 )
子课题“基于词汇距离计算的语言分类研究”成果之一。本文通讯作者为冉启斌。本文将刊于 《南开语言
学刊》2019 年第2 期 (总第34 期)。
1
转换为另一个字符串所需的编辑次数,可以用于拼写错误检查、基因相似程度的测算等。编
辑距离有不同的操作方法,列文斯坦编辑距离(Levenshtein distance )对字符串只允许删除、
插入和替换3 种操作。自Kessler (1995 )使用列文斯坦编辑距离测量爱尔兰盖尔语的方言
距离以来,列文斯坦编辑距离已广泛应用于语言词汇距离的计算。根据编辑距离的计算方式,
得到的词汇距离准确地说是词汇的语音形式之间的距离,我们简称为词汇距离。国内王璐
(2013 )对 5 个吴方言点各 30 个三音节词和20 个句子的语音形式进行了列文斯坦距离测
算。江荻(2017 )通过列文斯坦编辑距离考察了藏缅语族语言的谱系分类。
“相似性自动判断程序”(Automated Similarity Judgement Program ,简称ASJP )数据库
(/ )是马普研究院建立的跨语言关联数据库之一。数
文档评论(0)