数学之美 系列八-- 贾里尼克的故事和现代语言处理.docxVIP

数学之美 系列八-- 贾里尼克的故事和现代语言处理.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Word

PAGE

PAGE1

数学之美系列八--贾里尼克的故事和现代语言处理

数学之美系列八--贾里尼克的故事和现代语言处理

(2022-05-2411:44:29)[编辑][删除]标签:分类:数学之美

杂谈

发表者:Google研究员,吴军

读者或许留意到了,我们在前面的系列中屡次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理的确是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他的奉献,而想讲一讲他作为一个普一般通的人的故事。这些事要么是我亲身经受的,要么是他亲口对我讲的。

弗莱德里克.贾里尼克(FredJelinek)诞生于捷克一个富有的犹太家庭。他的父母原本打算送他去英国的公学〔私立〕读书。为了教他德语,还特地请的一位德国的家庭女教师,但是其次次世界大战完全打碎了他们的幻想。他们先是被从家中赶了出去,流浪到布拉格。他的父亲死在了集中营,弗莱德自己成天在街上玩耍,完全荒废了学业。二战后,当他再度回到时,他的一塌糊涂,全部是D,但是很快他就赶上了班上的同学。不过,他在学校时从来没有得过A。1949年,他的母亲带着全家移民美国。在美国,贾里尼克一家生活格外贫困,全家根本是靠母亲做点心卖钱为生,弗莱德自己十四五岁就进工厂打工补助全家。

贾里尼克最初想成为一个律师,为他父亲那样的冤屈者辩护,但他很快意识到他那深厚的外国口音将使他在法庭上的辩护很吃力。贾里尼克的其次个抱负是成为医生,他想进哈佛高校医学院,但经济上他无法承当医学院8年昂扬的学费。与此同时麻省理工学院给于了他一份〔为东欧移民设的〕全额奖学金。贾里尼克打算到麻省理工学电机工程。在那里,他遇到了信息论的鼻祖香农博士,和语言学大师贾格布森RomanJakobson(他提出了有名的通信六功能〕[解释一],后来贾里尼克又陪着太太听最宏大的语言学家乔姆斯基(NoamChomsky)的课。这三位大师对贾里尼克今后的研究方向--利用信息论解决语言问题产生的重要影响。

贾里尼克从麻省理工获得博士学位后,在哈佛高校教了一年书,然后到康乃尔高校任教。他之所以选择康乃尔高校,是由于找工作时和那里的一位语言学家谈得颇为投机。当时那位教授表示情愿和贾里尼克在利用信息论解决语言问题上合作。但是,等贾里尼克到康乃尔以后,那位教授表示对语言学在没有爱好而转向写歌剧了。贾里尼克对语言学家的坏印象从今开头。加上后来他在IBM时发觉语言学家们嘴上头头是道,干起活来高不成低不就,对语言学家从今深恶痛绝。他甚至说:我每开除一名语言学家,我的语音识别系统错误率就降低一个百分点。这句话后来在业界广为流传,为每一个搞语音识别和语言处理的人所熟知。

贾里尼克在康乃尔十年磨一剑,潜心研究信息论,最终悟出了自然语言处理的真谛。1972年,贾里尼克到I

BM华生试验室〔IBMT.G.WatsonLabs〕做学术休假,无意中领导了语音识别试验室,两年后他在康乃尔和IBM之间选择了留在IBM。在那里,贾里尼克组建了阵容空前绝后强大的研究队伍,其中包括他的有名伙伴波尔〔Bahl〕,有名的语音识别Dragon公司的创始人贝克夫妇,解决最大熵迭代算法的达拉皮垂(DellaPietra)孪生兄弟,BCJR算法的另外两个共同提出者库克(Cocke)和拉维夫(Raviv),以及第一个提出机器翻译统计模型的布朗。

七十年月的IBM有点像九十年月的微软和今日的Google,给于杰出科学家作任何有爱好研究的自由。在那种宽松的环境里,贾里尼克等人提出了统计语音识别的框架结构。在贾里尼克以前,科学家们把语音识别问题当作人工智能问题和模式匹配问题。而贾里尼克把它当成通信问题,并用两个隐含马尔可夫模型〔声学模型和语言模型〕把语音识别概括得清清楚楚。这个框架结构对至今的语音和语言处理有着深远的影响,它从根本上使得语音识别有有用的可能。贾里尼克本人后来也因此中选美国工程院院士。

贾里尼克和波尔,库克以及拉维夫对人类的另一大奉献是BCJR算法,这是今日数字通信中应用的最广的两个算法之一〔另一个是维特比算法〕。好玩的是,这个算法创造了二十年后,才得以广泛应用。IBM于是把它列为了IBM有史以来对人类最大奉献之一,并贴在加州Amaden实现室墙上。圆满的是BCJR四个人已经全部离开IBM,有一次IBM的通信部门需要用这个算法,还得从斯坦福高校请一位专家去讲解,这位专家看到IBM橱窗里的成就榜,感慨万分。

贾里尼克和IBM一批最杰出的科学家在九十年月初离开了IBM,他们大多数在华尔街取得了巨大的成功。贾里尼克的书生气很浓,于是去约翰霍普金斯高校建立了世界有名的CLSP试验室

文档评论(0)

1亿VIP精品文档

相关文档