什么是世界上最怪异的语言?.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
什么是世界上最怪异的语言?.doc

什么是世界上最怪异的语言? 什么是世界上最美丽的语言?哪国的语言最好听?哪门外语最好学?最难学的是哪门外语?学什么第二外语好? 编辑的话:本文的作者是一家语言数据公司的CEO,这家公司为世界各地的企业提供结构化的语言解决方案——简单说,就是处理邮件、短信和社交媒体上的自然语言资料。自然语言(Natural Language)是我们人类交流时所用的语言,与人造语言(如编程语言)相对;自然语言处理(Natural Language Processing,NPL)就是用计算机来处理人类的语言。评估语言的“怪异度”就是一种对自然语言的处理,这个话题本身固然有趣,而本文的价值还在于作者采取了一种非传统的处理方式:不以英语为衡量基准,而使用一个全球性的价值观。 (文/Robert Munro)我们主要是搞自然语言处理,涉及相关语言繁多。过去6个月,我们研究的语言有(深呼吸):英语、葡萄牙语(巴西葡萄牙语及葡萄牙本地语)、西班牙语、意大利语、法语、俄语、德语、土耳其语、阿拉伯语、日语、希腊语、汉语普通话、波斯语、波兰语、荷兰语、瑞典语、塞尔维亚语、罗马尼亚语、韩语、匈牙利语、保加利亚语、印地语、克罗地亚语、捷克语、乌克兰语、芬兰语、希伯来语、乌尔都语、加泰罗尼亚语、斯洛伐克语、印尼语、马来语、越南语、孟加拉语、泰语,以及一点拉脱维亚语、爱沙尼亚语、立陶宛语、库尔德语、约鲁巴语、阿姆哈拉语、祖鲁语、豪萨语、哈萨克语、信德语、旁遮普语、他加禄语、宿雾语、丹麦语和纳瓦霍语。 自然语言处理(Natural Language Processing,下称 NLP)就是要找到语言的模式。例如:录入大量非结构化的文本,自动从中抽离结构。NLP 有一个公开的秘密:它极以英语为中心。英语无疑是语言学家研究最多的一门语言,于计算机科学项目而言,也是具有最多可用资源的一门语言(就计算机科学而言,数据总是越多越好)。因此,测试一个 NLP 系统的最佳方式之一,就是换用不是英语的语言来测试。一个系统处理多样化数据的能力越强,那么其应付未预见数据的能力,也就更令人有信心。 为此,我们也许可以选择去根据英语的特性来定义“怪异度”。但是,这样的定义可是相当令人恼火。所以咱们来试试换一种方法吧。 语言结构世界地图(World Atlas of Language Structures,下称 WALS)根据一大堆各种语言特征,评估 2676 种不同的语言。这些语言特征包括词序、声音种类、否定方式,以及许多其他方面——共计 192 种不同的语言特征。因此,与其采用一个以英语为中心的世界观,WALS 毋宁允许我们换用一个世界性的世界观。也就是说,我们评估每一门语言,根据的都是其每种语言特征的不寻常度。例如,英语的词序是“主语—动词—宾语”,?WALS 对 1377 种语言的词序进行编码,其中 35.5% 具有“主动宾”词序。同时,只有 8.7% 的语言以动词作为起始,比如威尔士语、夏威夷语和马扬语(Majang)。因此,从跨语言学角度讲,以动词作为起始,就是不寻常。另外顺带一提,实际上全世界语言有 41.0% 是“主宾动”顺序。(题外话:从事了一些夏威夷语和马扬语的相关工作后,动词对我而言,简直就变成如结婚般重大的承诺:每每开口,我却总是还没有做好准备。) WALS 的数据相当稀疏,所以我们把研究限定于 165 种语言特征,这些特征至少要包含 100 种不同语言的数据。(现阶段,就这 165 种语言特征而言,数据不足其中 10 种的语言,我们也剔除掉了。因此共计还剩 1693 种语言。) 现在,有个问题就是,如果我们的筛选到此为止,那么数据共线性太高。之所以如此,部分是因 WALS 中列举的语言特征本质而决定——有整体考量“主语/动词/宾语”顺序的特征项,另又有分别考量“宾语/动词”和“主语/动词”的项。理想情况下,我们希望基于不相关的特征评断怪异度。我们可以集中关注互相之间没有很强相关度的语言特征(在两种互相关联的特征中,我们选择有更多语言编码的特征)。最终我们筛得总计 21 种语言特征。 至于某种语言的每项数据值,我们考量其他所有具备该项编码的语言,计算该项值的相对频度。因此,如果我们把“主语—宾语—动词”词序也算进来的话,那么英语得到的怪异度值就会是 0.355(实际上,我们根据每项语言特征的整体熵值对所有数据值统一化处理,所以这个值本身并不正好就是 0.355,但你懂这意思就行了)。因此,得到的“怪异度指数”(Weirdness Index),就是一项交叉考量 21 种独特结构特征的平均值。但是,因为不同的特征采集数值的数量不同,我们为了减少统计偏斜,实际上取了调和平均值(又因为我们希望“数字越大=越怪异”,所以终值是用 1 减去这个平均值)。本篇博文我汇报所涉及的语言,就这

文档评论(0)

gtez + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档