遮挡是计算机视觉很根底但仍旧未处理的问题之一,因为遮挡意味着视觉信息的缺失,而机器视觉体系却依靠...
遮挡是计算机视觉很根底但仍旧未处理的问题之一,因为遮挡意味着视觉信息的缺失,而机器视觉体系却依靠着视觉信息进行感知和了解,并且在实际国际中,物体之间的彼此遮挡无处不在。牛津大学 VGG 试验室 Andrew Zisserman 团队最新作业体系性处理了恣意物体的遮挡补全问题,并且为这一问题提出了一个新的愈加准确的评价数据集。该作业受到了 MPI 大佬 Michael Black、CVPR 官方账号、南加州大学计算机系官方账号等在 X 渠道的点赞。以下为论文「Amodal Ground Truth and Completion in the Wild」的主要内容。
非模态切割(Amodal Segmentation)旨在补全物体被遮挡的部分,即给出物体可见部分和不行见部分的形状掩码。这个使命能够使得许多下流使命获益:物体辨认、方针检测、实例切割、图像编辑、三维重建、视频物体切割、物体间支撑联系推理、机器人的操作和导航,因为在这些使命中知道被遮挡物体完好的形状会有所协助。
但是,怎么去评价一个模型在实在国际做非模态切割的功能却是一个难题:尽管许多图片中都有很多的被遮挡物体,但是怎么得到这些物体完好形状的参阅规范 或对错模态掩码呢?前人的作业有通过人手动标示非模态掩码的,但是这样标示的参阅规范难以避免引进人类差错;也有作业通过制作组成数据集,比如在一个完好的物体上贴直接另一个物体,来得到被遮挡物体的完好形状,但这样得到的图片都不是实在图片场景。因而,这个作业提出了通过 3D 模型投影的办法,结构了一个大规模的包括多物体品种并供给非模态掩码的线D-Amodal)来准确评价非模态切割的功能。各不同数据集的比照如下图:
详细而言,以 MatterPort3D 数据集为例,关于恣意的有实在相片并且有场景三维结构的数据集,咱们我们能够将场景中一切物体的三维形状一起投影到相机上以得到每个物体的模态掩码(可见形状,因为物体彼此之间有遮挡),然后将场景中每个物体的三维形状别离投影到相机以得到这个物体的非模态掩码,即完好的形状。通过比照模态掩码和非模态掩码,即能挑选出被遮挡的物体。
此外,为处理恣意物体的完好形状重建使命,作者提取出 Stable Diffusion 模型的特征中关于物体完好形状的先验常识,来对恣意被遮挡物体做非模态切割,详细的架构如下(SDAmodal):
提出运用 Stable Diffusion Feature 的动机在于,Stable Diffusion 具有图片补全的才能,所以或许某些特定的程度上包含了有关物体的悉数信息;并且因为 Stable Diffusion 通过很多图片的练习,所以能等待其特征在恣意环境下有对恣意物体的处理才能。和前人 two-stage 的结构不同,SDAmodal 不需要现已标示好的遮挡物掩码作为输入;SDAmodal 架构简略,却表现出很强的零样本泛化才能(比较下表 Setting F 和 H,仅在 COCOA 上练习,却能在另一个不同域、不同类别的数据集上有所提高);即便没有关于遮挡物的标示,SDAmodal 在现在已有的包括多品种被遮挡物体的数据集 COCOA 以及新提出的 MP3D-Amodal 数据集上,都取得了SOTA表现(Setting H)。
除了定量试验,定性的比较也表现出了 SDAmodal 模型的优势:从下图能够观察到(一切模型都只在 COCOA 上练习),关于不一样的品种的被遮挡物体,无论是来自于 COCOA,仍是来自于另一个MP3D-Amodal,SDAmodal 都能极大的提高非模态切割的作用,所猜测的非模态掩码更挨近实在的。
原标题:《「AI透视眼」,三次马尔奖获得者Andrew带队处理恣意物体遮挡补全难题》
本文为汹涌号作者或组织在汹涌新闻上传并发布,仅代表该作者或组织观念,不代表汹涌新闻的观念或态度,汹涌新闻仅供给信息发布渠道。请求汹涌号请用电脑拜访。