《28语义标签的三维点云室内场景.docxVIP

下载本文档

7
0
约1.46万字
约 12页
2017-01-14 发布于北京
举报
版权申诉

《28语义标签的三维点云室内场景.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《28语义标签的三维点云室内场景

语义标签的三维点云室内场景赫马 Swetha Koppula?阿 · 阿南德?，托尔斯腾 Joachims 和 Ashutosh Saxena 计算机科学系，美国康乃尔大学。{赫马、 aa755、 tj、 asaxena}@摘要便宜给深度数据 RGB 图像的 RGB-D 摄像机已成为广泛可用。在本文中，我们使用此数据生成的办事处等完整室内场景 3D 点云并处理语义标签的这些 3D 点云的任务。我们建议一个图形化的模型，捕获的各种功能和上下文关系，包括当地的可视外观和形状提示、对象共生关系和几何关系。有大量的对象类和关系，该模型的简约性原则就变得重要和我们处理，通过使用多个类型的边缘的潜能。模型承认有效的近似推理，并且我们训练它的最大差值的学习方式。我们在实验中占地 52 3D 场景的家庭和办公室（由约 550 的意见，有标有 27 对象类的 2495年段组成的），我们让 84.06%在标签为办事处，17 对象类和贴标 17 对象类为首页场面 73.38%的性能。最后，我们这些算法成功应用在移动机器人在凌乱的大客房中找到的对象的任务上。11 介绍价格低廉增加深度数据的 RGB 图像的 RGB D 传感器最近已广为散发。同时，多年的研究大满贯（同时定位和映射）现在使它能够可靠地将合并多个 RGB D 图像到单点云，轻松地提供完整的室内场景（例如，一个房间）的近似 3D 模型。在此文件中，我们探讨这从部分的场景 2D 图像移动到全景 3D 点云可以如何改进模型为对象加标签的丰富性。在过去，大量的工作已经在 2D 图像的语义标签。然而，很多有价值的信息的形状和对象的几何布局时会丢失 2 D 图像形成从相应的 3D 世界。分类器具有对全 3D 模型的访问可以访问重要的几何属性，以及局部形状和一个对象的外观。例如，许多对象发生在特征相对几何配置（例如，显示器是几乎总是在表上），和很多对象由发生在某一相对配置的外观上不同部分组成。更一般地说，3D 模型使得它易于的各种属性，基于 3D 距离、体积和局部凸的原因。一些最近的作品，力图首先推断出从改善对象检测 [12、 14、 28] 2D 图像的几何布局。然而，这种几何的布局不是不够准确，要给重大改进的。其他最近的工作 [35] 认为贴标使用单个 3D 视图（即 2.5 D 表示）的一个场景。在我们的工作，我们第一次使用大满贯以成一个三维点云数据，撰写从微软 Kinect RGB-D 传感器在一起的多个视图提供一个绝对的 3D 位置，在现场的每个 RGB 像素。然后我们 (以上-) 段现场和预测每个段的语义标签（见图 1）。我们预测中的像不只粗类 [1，35] （即，[16] 首先介绍了这项工作。指示同等贡献。与预测的标签云。墙，地面、天花板、建筑），但也贴上标签（例如，打印机、键盘、鼠标）的单个对象。此外，我们的模型丰富的关系信息超越联想耦合的标签 [1]。在此文件中，我们建议和评估的第一个模型和学习算法现场了解到，利用丰富的关系信息来自全场景三维点云为对象加标签。尤其是，我们建议一个图形化的模型，自然地捕获 3D 场景的几何关系。每个 3D 段是与节点相关联和成对潜力模型部分（例如，共同平面性、凸性、视觉相似性、对象共同发生和接近度) 之间的关系。模型承认有效近似推理 [25]，并且我们显示它可以训练使用最大差值的方法 [7、 31、 34] 全球最小的训练损失上界。我们的模型关联与非关联耦合的标签。有大量的对象类，该模型的简约性变得重要。一些功能则更好的指标标签相似的其他功能的几何排列绘制关系更好的指标 (例如上,--的上面，在-前端-的)。因此，我们提出吝啬在模型中的使用适当的派系的潜能，而不是使用一般的派系的潜能。我们的模型是高度灵活，可作为活性氧包在我们的软件：/sceneunderstanding经验主义地评估我们的模型和算法，我们几个实验在执行共 52 场景的两种类型：办公室和住宅。从 Kinect 传感器，约 550 意见被修造了这些场面，他们也可供公众使用。我们已经考虑标记每个段（从每个场景的约 50 段共） 27 类（17 办事处）和第 17 为安老院，与中常用的 7 类。我们的实验表明，我们的方法，捕获几个地方提示和上下文属性，能达到 84.06%的办公场景和 73.38%的家庭场景的整体性能。我们还考虑标记具有多个属性的 3D 段对机器人上下文（例如小的对象，可以操纵、家具等) 有意义的问题。最后，我们成功地应用这些算法在移动机器人对在杂乱的办公场景中查找对象的任务上。2 有关的工作有一个巨大的身体在从 2D 图像场景的理解和对象识别的领域的工作。以前的工作重点放在几个不同方面：设计好本地猪 (直方图-的-渐变） [5] 和 [4] 的单词袋等功能和设计要点等良好全球