《张雷博士谈IBM沃森背后的AI技术.docVIP

下载本文档

10
0
约7.76千字
约 9页
2017-01-18 发布于北京
举报
版权申诉

《张雷博士谈IBM沃森背后的AI技术.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《张雷博士谈IBM沃森背后的AI技术

张雷博士谈IBM沃森背后的AI技术作者?徐涵?发布于 2011年3月22日领域? 企业架构, ? 运维基础架构, ? 架构设计, ? 语言开发 ? 主题? 采访?,? Java?,? 人工智能?,? 语义网?,? 云计算?,? 规范?,? W3C?,? IBM 分享到???????? 不久前，IBM超级计算机沃森（Watson）在美国电视智力答题节目《危险边缘（Jeopardy!）》中上演了人机大战，并最终击败两位人类冠军，赢得最后的胜利。沃森由IBM全球多个研究院和大学共同研发，历经四年研制而成。IBM中国研究院也参与了该项目的研发。InfoQ中文站有幸采访到来自IBM中国研究院直接参与了沃森项目的张雷博士。张雷博士是IBM中国研究院信息与知识管理部门研究员，在过去的三年中，他和他的研究团队与全球研究团队一起，致力于深度问答项目（DeepQA）的工作，研究并开发了沃森系统。在IBM期间他申请过多项专利并获得过IBM杰出技术成就奖。在学术领域，张雷博士研究兴趣广泛，涉及语义Web、知识表示与推理、信息抽取与检索、问题回答系统以及机器学习等，发表学术论文20余篇。他是WWW、IJCAI、ISWC等重要国际学术会议的程序委员会委员、第九届国际语义网大会（ISWC2010）的本地组织者之一，还是第一届中国语义万维网论坛（CSWS2007）的主要发起人之一。下面有请张博士为我们揭开沃森背后的技术奥秘。多种AI技术的综合运用和强大的计算能力共同造就了沃森 InfoQ：张博士，您好！我想大家都已经通过《Jeopardy!》节目领教到沃森的威力了。从接受人类语言的提问，到用人类语言给出答案，让机器完成这一过程、还要保证相当的正确率，听上去有些不可思议。能否请您举例介绍一下沃森在答题时背后发生了什么？其技术原理是怎样的？张雷：徐涵，您好！非常高兴能接受您的的采访。沃森在拿到问题后，会进行一系列的计算，包括语法语义分析、对各个知识库进行搜索、提取备选答案、对备选答案证据的搜寻、对证据强度的计算和综合等等。它综合运用了自然语言处理、知识表示与推理、机器学习等技术。我们知道，从单一的知识源或者少数的算法出发，很难让问题回答系统达到接近人类的水平。所以，沃森的主要技术原理是通过搜寻很多知识源，从多角度运用非常多的小算法，对各种可能的答案进行综合判断和学习。这就使得系统依赖少数知识源或少数算法的脆弱性得到了极大的降低，从而大大提高其性能。 InfoQ：14年前，“深蓝”凭借其大规模计算与枚举能力战胜了国际象棋世界冠军卡斯帕罗夫。如今沃森的成功，有多大程度是依赖于其强大的计算能力，多大程度是依赖人工智能理论本身的发展？张雷：这两方面应该说都起到了很大的作用。人工智能领域的很多技术都应用在了该系统中，这是很明显的。另一方面，如果没有计算能力的进步，我们在提高计算速度方面可能也会遇到障碍。几年前，沃森在一台不错的服务器上回答一个问题需要2个多小时的时间。通过IBM Power 7强大的并行化计算能力，才把它压缩到了3秒内。另外，强大的计算能力其实也大大加速了开发进程。我们大量使用了Java语言和机器学习，而这些都是需要有较强的计算能力作为支撑的。 InfoQ：沃森与同样致力于问题回答的计算知识引擎Wolfram|Alpha，还有著名的人工智能项目CYC有何相同和不同之处？张雷：据我所知，Wolfram|Alpha主要依赖于事先由人手工编辑的结构化数据作为知识源，而沃森则以现有的非结构化数据为主，适当辅以一些结构化数据。两者的计算方法也完全不同。我估计Wolfram|Alpha是以基于规则的匹配和计算为主，而沃森则是以统计推理为主。和CYC相比，沃森并不去构造基于形式逻辑的知识库，而是直接使用现有的用人类语言书写的知识，例如各种百科全书。CYC以形式化的逻辑推理作为基本的计算方法，而沃森是以统计推理为主。 InfoQ：沃森看上去像是一种决策系统。作为决策系统，它不仅要给出答案，还要提供相关依据。这在沃森系统中是如何做到的？另外，如被告知回答错误，沃森是否具备自我学习和完善的能力？张雷：沃森系统的一个关键步骤是评价备选答案的可靠性。这个可靠性是由上百个算法从各种不同的角度评价得出的。例如：关键字匹配程度、时间关系的匹配程度、地理位置匹配的程度、类型匹配程度等等。沃森在每一个角度上都能得到量化的可靠性评价。而且这些评价算法所依赖的知识源也是可追溯的。所以，如果需要，沃森可以为用户提供答案的依据。在沃森参赛之前，它会从历史数据中进行学习。比如，如果它回答错了一个往期节目上的问题，它会从中学习到一些信息。在参赛之时，它主要依赖以前学习的结果，但也进行一些简单的在线学习。例如，它可以从已经被其它选手回答的同一类