阿里自然语言处理部总监分享-NLP技术的应用及思考.docxVIP

  • 23
  • 0
  • 约7.13千字
  • 约 17页
  • 2018-06-07 发布于江西
  • 举报

阿里自然语言处理部总监分享-NLP技术的应用及思考.docx

阿里自然语言处理部总监分享-NLP技术的应用及思考.docx

阿里自然语言处理部总监分享:NLP技术的应用及思考云栖TechDay第33期,阿里巴巴iDST 自然语言处理部总监上乘带来题为“NLP技术的应用及思考”的演讲。本文主要从NLP背景开始谈起,重点介绍了AliNLP平台,接着分享了NLP相关的应用实例,最后对NLP的未来进行了思考。以下是精彩内容整理:背景介绍阿里巴巴的生态系统下面有很多的计算平台,上面有各种各样的业务层,最中间是买家和卖家之间包括销售、支付等等之间的关系,外面建了一圈从娱乐到广告到金融到购物到物流等等各方面这样一个生态,中间有非常多的数据能够关联起来,所以对于阿里巴巴而言,这个图可以非常简练的概括我们在做什么,中间是最重要的数据,下面数据包含了最核心的也是阿里巴巴最早起家的来自于电商的数据,所以电商对于我们而言是非常重要的,后来又扩展出了金融、菜鸟物流、健康和娱乐,比如我们有大文娱事业群,去做了优酷土豆等各种各样的数据,数据当中包含了很多的文本。比如阿里的电商平台里面有数十亿的商品,每一个商品都包含详细的标题、副标题、详情页、评价区,甚至问答区,这里面的信息构成了一个非常丰富的商品信息,还有上亿的文章,阿里在两年前开始进入内容时代,比如现在各种各样的内容营销、直播还有一些问答的场景圆桌等等,文章里面可以包含各种各样的标题、正文和评论等大量的数据,这只是电商的例子,还有金融、物流、健康、娱乐,加在一起还会有海量的数据,就会孕育出大量文本处理的工作需求。自然语言处理是什么呢?1.语言是生物同类之间由于沟通需要而制定的具有统一编码解码标准的声音(图像)指令。包含手势、表情、语音等肢体语言,文字是显像符号。2.自然语言通常是指一种自然地随文化演化的语言。例如英语、汉语、日语等。有别于人造语言,例如世界语、编程语言等。3.自然语言处理包括自然语言理解和自然语言生成。自然语言理解是将自然语言变成计算机能够理解的语言,及非结构化文本转变为结构化信息。4. NLP的 四大经典“AI 完全 ” 难题:问答、复述、文摘、翻译,只要解决其中一个,另外三个就都解决了。问答就是让机器人很开放的回答你提的各种各样问题,就像真人一样;复述是让机器用另外一种方式表达出来;文摘就是告诉你一篇很长的文章,让你写一个100字的文摘,把它做出来是非常难做的;翻译也是很困难的,英语思维方式和中文思维方式转换过来,中间会涉及到很多复杂的问题。阿里巴巴需要什么样的自然语言处理技术?阿里的生态是非常复杂的,我们不能用一个简单的自然语言处理技术去解决所有的问题,以往自然语言处理是比较简单的,甚至一个词表放上去就解决所有问题了,随着电商生态的扩展,就需要非常复杂的技术,所以我们需要完备且高性能的自然语言处理技术,高性能体现在算法精度还有执行效率,IDST的定位如下:-引领技术前沿-赶超市场最佳的竞争者,完备和完善AliNLP平台的技术体系及服务能力;-赋能核心业务-帮助核心业务快速成长,寻找和解决业务方的最痛点;-创造商业机会-创造看似不可能的商业技术,深度理解语言,深度理解需求,变革产品体验。AliNLP 自然语言技术平台图为我们整个自然语言处理平台最核心的框图,底层是各种各样的基础数据,中间层包含基本的词法分析、句法分析、语义分析、文档分析,还有其他各种各样跟深度学习相关的一些技术;上层是自然语言处理能够直接掌控和变革的一些算法和业务,比如内容搜索、内容推荐、评价、问答、文摘、文本理解等等一系列问题,最上层我们直接支持大业务的单元,比如商品搜索、推荐、智能交互、翻译。商业翻译和普通机器翻译是不一样的,还有广告、风控、舆情监控等等。这个层次结构是比较传统的方式,为了让我们平台具有非常好的落地能力,右边有一列平台工程,专门解决如何让算法能够快速的用到业务里面去。将核心框图细化,底层有各种各样的数据,比如实体库、源学辞典、词性标注库、词性关系库、句法树库、情感分析标注库,还有情感词典、资讯库、图谱等等。这些是词法分析,包括分词、词性、实体识别,拼写检查等一些基础的组件,句法分析有结构句法分析、依存句法分析、语义分布表示等等,还有语义分析,包含词义消歧、语义角色标注、主题模型、行为表示等。还有文档分析,比如普通的文档聚类、文档分类、事件挖掘、层次聚类和意图分类,其他部分就是我们尝试比较多的偏深度学习的一些自然语言算法。右边的平台工程我们做了很多尝试。团队经过几年的发展,不停的去反思如何把我们的技术快速的跟业务对接起来,经过不停的尝试之后,我们做了很多的可视化、需求管理、用户中心、监控中心、系统运维,还有自动的标注平台、训练平台、评测中心等等,经过一系列的封装,才会使得平台越来越完善。图为阿里AliNLP系统架构图,左边是算法模块,包括知识库、语料库、算法模型,中间是服务化平台,比如我们的服务分为在线服务和离线服务。离

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档