Mask R-CNN 中文翻译.docxVIP

下载本文档

30
0
约2.04万字
约 19页
2018-03-16 发布于湖北
举报
版权申诉

Mask R-CNN 中文翻译.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Mask R-CNN 中文翻译

Mask R-CNN Kaiming He Georgia Gkioxari Piotr Dolla ?r Ross Girshick Facebook AI Research (FAIR) Facebook的人工智能研究文摘我们提出了一个概念上简单、灵活、通用的对象实例来分割框架。我们的方法可以有效地检测图像中的对象，同时为每个人生成一个高质量的分割掩码。这个方法，称为Mask R-CNN，通过添加一个分支来预测一个对象掩码，并与现有的用于边界框识别的分支并行，扩展了Faster R-CNN。Mask R-CNN很容易训练，并且只增加了一个很小的开销，以Faster R-CNN，以5帧的速度运行。此外，Mask R-CNN很容易被其他的任务所概括，例如，允许我们在同一个框架中估计人类的姿势。我们在这三种可处理的挑战中显示了最高的结果，包括实例分割、弹盒对象检测和人的关键点检测。在没有技巧的情况下，Mask R-CNN在每项任务上都胜过所有现有的单一模型条目，包括2016年的COCO挑战奖得主。我们希望我们的简单和有效的方法可以作为一个可靠的基准，并有助于在实例级识别中简化未来的研究。代码将会提供出来。 1.介绍视觉社区在短时间内迅速改善了目标检测和语义分割的结果。在很大程度上，这些进步是由强大的基线系统驱动的，例如:Fast/Faster R-CNN [12，34]和完全卷积网络(FCN)[29]框架分别用于对象检测和语义分割。这些方法在概念上是直观的，并且提供了灵活性和健壮性，以及快速的训练和推断时间。我们的目标是开发一个相对支持的框架，例如分割之类。实例分割是很有挑战性的，因为它需要正确地检测图像中的所有对象，同时还要精确地分割每个实例。因此结合了古典元素从计算机视觉任务的对象国民住宅检测,目标是分类个人对象工程和本地化。使用一个边界框,和语义分割,目标是每个像素分类为一组固定的类别没有区分对象——立场。考虑到这一点，人们可能会期望得到一个复杂的方法来获得好的结果。然而，我们展示了一个令人惊讶的简单、灵活和快速的系统可以超越先前的最先进的实例分割结果。我们的方法,称为Mask R-CNN,延展FasterR-CNN[34]通过添加一个分支预测分割Mask感兴趣的每个区域(ROI),与前存在的并行分支分类和边界框回归——锡安(图1)。Mask分支是一个小FCN应用于每一个ROI,预测像素像素的方式分割??模。Mask R-CNN很容易实现和训练，因为它提供了Faster R-CNN框架，它为各种灵活的架构设计提供了便利。此外，掩码分支只增加了一个很小的计算开销，支持快速的系统和快速的实验。在原则上，Mask R-CNN是Faster R-CNN的一个直观的延伸，但是正确地构建掩码分支是对好的结果的关键。更重要的是，Faster R-CNN不是为像素-像素的对齐而设计的-网络输入和输出。这一点在ROIPool [18，12]，实际上是对实例的实际核心操作中很明显的，对特征提取进行了粗略的空间量化。为了修正偏差，我们提出了一个简单的无量化层，叫做ROI对齐，它忠实地保留了精确的空间位置。尽管表面上看起来很小，但ROI对齐有很大的影响:它可以使掩码的准确度提高10%到50%，在更严格的本地化指标下显示出更大的收益。其次，我们发现分离蒙版和类预测至关重要:我们可以独立预测每个类的二进制掩码，不需要类之间的竞争，并且依赖于网络的ROI分类分支来预测类别。相比之下，FCNs通常执行每个像素的多类分类，对分割和分类进行分类，基于我们的实验对实例分割的效果很差。没有花哨的功能，Mask R-CNN将会超越之前所有的先进的单一模型，在COCO实例分割任务28中，包括来自2016年竞争对手的大量工程项目。作为副产品，我们的方法在COCO对象检测任务上也有优势。在消融实验中，我们对多个基本实例进行了评估，使我们能够证明其鲁棒性，并分析其核心因素的影响。我们的模型可以在GPU上以每帧大约200毫秒的速度运行，而在一台8 GPU的机器上，在COCO上的训练需要一到两天的时间。我们相信，快速的列车和测试速度，以及框架的灵活性和准确性，将有利于并简化未来对实例分割的研究。最后，我们通过对COCO关键数据集[28]的人工姿势估算来展示我们的框架的通用性。通过将每个键点视为一个热的二进制掩码，用最小的修改Mask R-CNN可用于检测实例特定的姿态。在没有技巧的情况下，Mask R-CNN将会超越2016年COCO键比赛的冠军，同时以5秒的时间进行比赛。因此，Mask R-CNN可以更广泛地看作是一个灵活的实例级识别框架，可以很容易地扩展到更复杂的任务。我们将发布代码以促进未来的研究。根据常用的术语，我们使用