自然语言处理与人工智能.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
白硕:自然语言处理与人工智能 说起实现各种各样的智能系统,大家都认为“善解人意”应该是一个最起码的条件,一个绕不过去的条件。实现它的一个重要的桥梁就是语言。 拿语言说事,这个我们见得很多了。刚才讲的图灵测试,实际上就是要通过这个对话,通过语言来判断隐藏在那个不可见的位置跟你对话的到底是人还是机器。 还有中文屋子,大家如果关心智能问题的话也都会比较熟悉,一个屋子里的人不懂中文,只懂英文,但可以执行特定的规则,把符号搬来搬去,最后效果是把英文翻译成中文,问题是,到底谁懂中文? 另外,从亚里士多德到布尔,从莱布尼兹到维特根斯坦,实际上哲学在 20 世纪初有一次重要的“语言学转向”,就是从拍脑袋的思辨到针对文本,看我们的理解,我们的定义,什么时候出现了问题。 语言学里面也有人思考,表现在外部语言和脑子里面的概念的关系,到底是不是一一对应的。今天看到杨义先老师讲“孝”这个字的英文到现在没有对应的贴切翻译。有人举例子说,蒙古人关于马的词汇好几十种,爱斯基摩人对雪的词汇也有好几十种,我们不生活在马和雪的世界的人就很少。是语言造就了概念, 还是概念造就了语言?是全人类有共同的概念,还是有一种语言就塑造一套概 念?看来这确实是个问题。 从干活的角度,我们看到了各种“大脑”计划,各种助手和机器人推出来, 有各种搜索和数据库在精准化,拿语言去搜,也有各种的过去就有推理机,智能机,一直在延续着七八十年代的梦想,虽然进展不大。 但是所有拿语言说事儿的、用语言干事儿的,这中间都绕不开一个问题,即语言到底是怎么回事?这是我们真正搞自然语言理解,搞自然语言处理的人必须面对的问题。我们说要善解人意,人意在哪?它藏在符号怪阵的背后。我们来看这张图: 上面最表层的,可能是通过文字的方式表现的,可能是通过语音的方式表现的,也可能是通过电子输入的方式表现的。再向下有词法、句法和语义,乃至语用。这是语言学界标准的层次的划分,我们现在看中间的虚线,上方涉及到一点点的句法,句法的大部分在下方。以虚线为界,虚线之上的通常认为是浅层,虚线之下的认为是深层。请注意这里讲的是语言学知识的浅层和深层。浅层的这种语言模型见效很快,门槛很低,基本上可以摆脱语言学家,工程师自己可以玩, 有数据就可以玩,或者是标注,找一些中专生就可以玩。然而深层的语言学知识, 有一些地方可能说不清楚,可能众说纷纭,但是浅层解决不了的问题,最终要通过深层来解决。上海电台里有一档节目叫“音乐会说话”,不论是按照什么分词标准,很多的分词系统都会把它切成“音乐会/说话”,就是说“音乐会”当做一个词的切法是应该占优势的,但是恰恰这档节目说的是“音乐/会/说话”,它用到了深层的句法和语义,甚至到语用才确定是一个隐喻,只有到了这个层次反作用回去才发现正确的分词方案是什么。 我们也看到了大家对深度学习充满了期待。但是必须说明,学习的度深和浅, 跟学习对象在语言层次上的浅和深是两个概念。如果是在模型停留在浅层,就是把深度学习用到极致也有局限。 但是深层这个东西就复杂了,因为咱们讲证据,浅层的东西大家都看得见, 深层有很多是看不见的,看不见就各说各的话,就没有一个统一的标准,所以这个东西就比较难搞,这是我们看到的一个现状。 善解人意的“人意”好不好解,是不是跟语种有关系呢?在这张图上,我们看到很多中文难以处理的例子。很多评论的第一反应是中文博大精深,中文不一样,英语很好的方法到中文就不行。有的人就说我们比别人更懂中文。即使是知识图谱也出了个“中文知识图谱”,好象这个知识图谱到底是知识层面的还是语 言层面的这件事情,都有了商量了。这说明了什么?说明我们还停留在我们对母语的认识的初级阶段。我们对母语的认识,和对人类共同的语言机制的认识,还 言层面的这件事情,都有了商量了。这说明了什么?说明我们还停留在我们对母 语的认识的初级阶段。我们对母语的认识,和对人类共同的语言机制的认识,还没有统一起来,中间还有巨大的鸿沟。

文档评论(0)

dqy118 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体上海海滋实业有限公司
IP属地湖北
统一社会信用代码/组织机构代码
91310115MA7DL1JF2N

1亿VIP精品文档

相关文档