国际人工智能顶级会议NeurIPS2022(Conference and Workshop on Neural Information Processing Systems,神经信息处理系统大会)官方发布了接受论文列表。软件学院研一新生张子诚(指导教师:柯炜)作为第一作者撰写的论文“CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation”(基于文本引导结合单词像素对齐和句子掩码对齐的实例分割)被正式接收,论文合作单位为西安交通大学软件学院和华为诺亚方舟实验室。NeurIPS2022共接收投稿论文10411篇,中稿率为25.6%。这是软件学院在读学生第一次在NeurIPS发表论文,实现了零的突破。
语言引导的实例分割(Referring Image Segmentation)是计算机视觉和自然语言处理交叉领域的一项基本且极具挑战性的一项任务。该任务旨在根据语言描述,分割出图像中的目标物体。与语义分割不同,语言引导的实例分割不存在一个预先定义的类别集合,而是对任意输入的语言描述寻求与其语义对应的图像区域。因此该任务在交互式图像编辑,自动驾驶,Embodied AI等领域具有极大的应用潜力。
之前的语言引导的实例分割模型存在定位不准,分割掩码破碎等问题。针对这一问题,一个简单有效的CoupAlign模型被设计出来。CoupAlign包含了两个层次的视觉语言对齐:单词像素对齐和句子实例对齐。
单词像素对齐位于视觉和语言编码阶段,其目的是将语言描述中的显著性词汇特征与像素特征在编码阶段进行融合和细粒度的对齐。句子掩码对齐位于解码阶段,其目的是对单词像素对齐提供一个全局的约束,通过全局语义特征和目标实例特征的对齐,能够使得位于同一物体内部的图像特征更加聚集,具有更高的一致性,并且能够更好的与全局语义特征匹配。因此,通过这两个不同层次的视觉语言对齐之后,CoupAlign能够生成更加准确的预测。通过大量的实验表明,CoupAlign在主流的数据集上达到了领先的精度。并且CoupAlign具有很强的将目标物体与其多个同类物体区分开来的能力。