人工智能导论作业案例分析题第11章[实用].pdfVIP

下载本文档

132
0
约5.15千字
约 4页
2020-10-18 发布于江苏
举报
版权申诉

人工智能导论作业案例分析题第11章[实用].pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第 11章自然语言处理【导读案例】机器翻译：大数据的简单算法与小数据的复杂算法 20 世纪 40 年代，电脑由真空管制成，要占据整个房间这么大的空间，而机器翻译也只是计算机开发人员的一个想法。在冷战时期，美国掌握了大量关于苏联的各种资料，但缺少翻译这些资料的人手。所以，计算机翻译也成了亟待解决的问题。最初，计算机研发人员打算将语法规则和双语词典结合在一起。 1954 年， IBM 以计算机中的 250 个词语和六条语法规则为基础，将 60 个俄语词组翻译成了英语，结果振奋人心。 IBM 701 （见图 11-1）通过穿孔卡片读取了一句话，并将其译成了 “我们通过语言来交流思想 ”。在庆祝这个成就的发布会上，一篇报道就有提到，这 60 句话翻译得很流畅。这个程序的指挥官利昂 ?多斯特尔特表示，他相信 “在三五年后，机器翻译将会变得很成熟 ”。图 11-1 IBM 701 计算机事实证明，计算机翻译最初的成功误导了人们。 1966 年，一群机器翻译的研究人员意识到，翻译比他们想象的更困难，他们不得不承认自己的失败。机器翻译不能只是让电脑熟悉常用规则，还必须教会电脑处理特殊的语言情况。毕竟，翻译不仅仅只是记忆和复述，也涉及选词，而明确地教会电脑这些非常不现实。 1 / 4 224 人工智能在 20 世纪 80 年代后期， IBM 的研发人员提出了一个新的想法。与单纯教给计算机语言规则和词汇相比，他们试图让计算机自己估算一个词或一个词组适合于用来翻译另一种语言中的一个词和词组的可能性，然后再决定某个词和词组在另一种语言中的对等词和词组。 20 世纪 90 年代， IBM 这个名为 Candide 的项目花费了大概十年的时间，将大约有 300 万句之多的加拿大议会资料译成了英语和法语并出版。由于是官方文件，翻译的标准就非常高。用那个时候的标准来看，数据量非常之庞大。统计机器学习从诞生之日起，就聪明地把翻译的挑战变成了一个数学问题，而这似乎很有效！计算机翻译能力在短时间内就提高了很多。然而，在这次飞跃之后， IBM 公司尽管投入了很多资金，但取得的成效不大。最终， IBM 公司停止了这个项目。 2006 年，谷歌公司也开始涉足机器翻译。这被当作实现 “收集全世界的数据资源，并让人人都可享受这些资源 ”这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库，也就是全球的互联网，而不再只利用两种语言之间的文本翻译。为了训练计算机，谷歌翻译系统会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上寻找对译文档，还会去寻找联合国和欧盟这些国际组织发布的官方文件和报告的译本。它甚至会吸收速读项目中的书籍翻译。谷歌翻译部的负责人弗朗兹 ·奥齐是机器翻译界的权威，他指出， “谷歌的翻译系统不会像 Candide 一样只是仔细地翻译 300 万句话，它会掌握用不同语言翻译的质量参差不齐的数十亿页的文档。 ”不考虑翻译质量的话，上万亿的语料库就相当于