（可公开）潘欣-12.5-最终版-潘欣-深度学习平台开发和应用.pdfVIP

下载本文档

17
0
约1.15万字
约 36页
2019-03-24 发布于江苏
举报
版权申诉

（可公开）潘欣-12.5-最终版-潘欣-深度学习平台开发和应用.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深度学习平台的开发和应用潘欣 Xin Pan 百度架构师潘欣架构师 • 百度深度学习技术平台部架构师，主要负责 PaddlePaddle深度学习框架开发相关工作。 • 在加入百度前，曾参与开发Google文件系统，数据库系统和TensorFlow。对TensorFlow的 Eager Execution, Profiling, TPU做出了核心贡献。 • 在计算机视觉CVPR，云计算SoCC等会议发表论文。 • 接口和编程模式 • 中间表达和异构硬件 • 数据处理 • 业务应用接口和编程模式 • TensorFlow的Public Python API超过了3000个 • 除掉contrib还剩下接近2000个，需要向后兼容： /guide/version_compat • 很多功能重复的API ，deprecated API ，名字类似但是计算逻辑或者性能有差异的API • PaddlePaddle的Public Python API超过了400个 • 挑战：让50~100人的团队设计出数百个不后悔的API 接口和编程模式 • API experiemental vs standard namespace • 新功能的API ，在不稳定前，放在一个隔离的API namespace下，比如experimental ，contrib。如 paddle.contrib.strange_api。用户可以容易判断API的稳定性。等到API稳定后，从实验的 namespace下迁移到正式的namespace。 • API Serialization • 所有Python API序列转成一个API文本来表示 (python inspect, op proto) • 代码提交时，自动生成最新API文本，通过git diff可以直观发现API的修改。API的修改需要API committee多人review。接口和编程模式 • Declarative Programming ：”What” should be done. • 如TensorFlow静态图模式, SQL • 不易debug ，执行时的逻辑和声明的代码分离。不易表达复杂逻辑，动态逻辑，不易混用第三方库，依赖框架本身算子的完备性。“易于”深度优化，执行前包含全局的逻辑。 • Imperative Programming: “How”to get things done. • 如Pytorch, C/C++, Java • 容易debug ，逐行执行，随意修改输入，打印输出，逐个模块验证。容易表达复杂逻辑。不易深度优化，无法预知未来，难以判断当前是否可以特殊处理。易于表达复杂逻辑，可利用Python的灵活性和numpy等丰富组件。接口和编程模式接口和编程模式 • Imperative越来越流行 • ICLR 2018-2019 ，TensorFlow引用 228-266, Pytorch引用 87-252 • TensorFlow 2.0 将把Eager Execution设为默认执行模式 • 深度学习算法的灵活化，多样化 • Tree, Hierarchical, GAN, Pointer Network, Neural Turing Machine, Reinforcement Learning • Declarative的优势未能充分发挥 • 上千个硬件相关的黑盒算子难以参与全局优化。Control Flow的分析困难。核心算子的人工fusion往往更有效，长尾算子的优化成本太高。接口和编程模式 • Imperative模式的开发难点和优化策略 • Python的执行效率低。核心逻辑通过C++实现，异步调度，C++层返回一个Handle(类似 future) ，Pytho