什么是世界上最怪异的语言？.doc

下载文档

2
0
约 5页
2017-08-07 发布于甘肃
举报
版权申诉
保障服务

什么是世界上最怪异的语言？.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

什么是世界上最怪异的语言？.doc

什么是世界上最怪异的语言？什么是世界上最美丽的语言？哪国的语言最好听？哪门外语最好学？最难学的是哪门外语？学什么第二外语好？编辑的话：本文的作者是一家语言数据公司的CEO，这家公司为世界各地的企业提供结构化的语言解决方案——简单说，就是处理邮件、短信和社交媒体上的自然语言资料。自然语言（Natural Language）是我们人类交流时所用的语言，与人造语言（如编程语言）相对；自然语言处理（Natural Language Processing，NPL）就是用计算机来处理人类的语言。评估语言的“怪异度”就是一种对自然语言的处理，这个话题本身固然有趣，而本文的价值还在于作者采取了一种非传统的处理方式：不以英语为衡量基准，而使用一个全球性的价值观。（文／Robert Munro）我们主要是搞自然语言处理，涉及相关语言繁多。过去6个月，我们研究的语言有（深呼吸）：英语、葡萄牙语（巴西葡萄牙语及葡萄牙本地语）、西班牙语、意大利语、法语、俄语、德语、土耳其语、阿拉伯语、日语、希腊语、汉语普通话、波斯语、波兰语、荷兰语、瑞典语、塞尔维亚语、罗马尼亚语、韩语、匈牙利语、保加利亚语、印地语、克罗地亚语、捷克语、乌克兰语、芬兰语、希伯来语、乌尔都语、加泰罗尼亚语、斯洛伐克语、印尼语、马来语、越南语、孟加拉语、泰语，以及一点拉脱维亚语、爱沙尼亚语、立陶宛语、库尔德语、约鲁巴语、阿姆哈拉语、祖鲁语、豪萨语、哈萨克语、信德语、旁遮普语、他加禄语、宿雾语、丹麦语和纳瓦霍语。自然语言处理（Natural Language Processing，下称 NLP）就是要找到语言的模式。例如：录入大量非结构化的文本，自动从中抽离结构。NLP 有一个公开的秘密：它极以英语为中心。英语无疑是语言学家研究最多的一门语言，于计算机科学项目而言，也是具有最多可用资源的一门语言（就计算机科学而言，数据总是越多越好）。因此，测试一个 NLP 系统的最佳方式之一，就是换用不是英语的语言来测试。一个系统处理多样化数据的能力越强，那么其应付未预见数据的能力，也就更令人有信心。为此，我们也许可以选择去根据英语的特性来定义“怪异度”。但是，这样的定义可是相当令人恼火。所以咱们来试试换一种方法吧。语言结构世界地图（World Atlas of Language Structures，下称 WALS）根据一大堆各种语言特征，评估 2676 种不同的语言。这些语言特征包括词序、声音种类、否定方式，以及许多其他方面——共计 192 种不同的语言特征。因此，与其采用一个以英语为中心的世界观，WALS 毋宁允许我们换用一个世界性的世界观。也就是说，我们评估每一门语言，根据的都是其每种语言特征的不寻常度。例如，英语的词序是“主语—动词—宾语”，?WALS 对 1377 种语言的词序进行编码，其中 35.5% 具有“主动宾”词序。同时，只有 8.7% 的语言以动词作为起始，比如威尔士语、夏威夷语和马扬语（Majang）。因此，从跨语言学角度讲，以动词作为起始，就是不寻常。另外顺带一提，实际上全世界语言有 41.0% 是“主宾动”顺序。（题外话：从事了一些夏威夷语和马扬语的相关工作后，动词对我而言，简直就变成如结婚般重大的承诺：每每开口，我却总是还没有做好准备。） WALS 的数据相当稀疏，所以我们把研究限定于 165 种语言特征，这些特征至少要包含 100 种不同语言的数据。（现阶段，就这 165 种语言特征而言，数据不足其中 10 种的语言，我们也剔除掉了。因此共计还剩 1693 种语言。）现在，有个问题就是，如果我们的筛选到此为止，那么数据共线性太高。之所以如此，部分是因 WALS 中列举的语言特征本质而决定——有整体考量“主语／动词／宾语”顺序的特征项，另又有分别考量“宾语／动词”和“主语／动词”的项。理想情况下，我们希望基于不相关的特征评断怪异度。我们可以集中关注互相之间没有很强相关度的语言特征（在两种互相关联的特征中，我们选择有更多语言编码的特征）。最终我们筛得总计 21 种语言特征。至于某种语言的每项数据值，我们考量其他所有具备该项编码的语言，计算该项值的相对频度。因此，如果我们把“主语—宾语—动词”词序也算进来的话，那么英语得到的怪异度值就会是 0.355（实际上，我们根据每项语言特征的整体熵值对所有数据值统一化处理，所以这个值本身并不正好就是 0.355，但你懂这意思就行了）。因此，得到的“怪异度指数”（Weirdness Index），就是一项交叉考量 21 种独特结构特征的平均值。但是，因为不同的特征采集数值的数量不同，我们为了减少统计偏斜，实际上取了调和平均值（又因为我们希望“数字越大＝越怪异”，所以终值是用 1 减去这个平均值）。本篇博文我汇报所涉及的语言，就这