2025_NIPS_Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers
2026/4/6 16:14:51
网站建设
项目流程
Seg4Diff 论文总结与核心部分翻译一、文章主要内容本文提出 Seg4Diff 框架,聚焦于多模态扩散Transformer(MM-DiT)的内部注意力机制,旨在挖掘文本到图像(T2I)扩散模型中涌现的语义接地能力,并将其应用于开放词汇语义分割任务,同时提升图像生成质量。核心背景:现有T2I扩散模型虽能生成逼真图像,但对其跨模态注意力如何贡献于语义对齐的理解有限;基于U-Net的模型注意力图存在噪声和碎片化问题,而MM-DiT架构的内部机制尚未被充分探索。关键发现:通过对MM-DiT的注意力分数分布、特征相似度和范数分析,识别出特定的“语义接地专家层”(如SD3的第9层),该层能持续将文本令牌与空间连贯的图像区域对齐,自然生成高质量分割掩码。技术方案:提出零样本分割方案,直接利用语义接地专家层的注意力图生成分割结果;设计轻量级微调策略MAGNET,通过掩码标注数据增强专家层的语义分组能力,同时优化流匹配损失和掩码损失(焦点损失+Dice损失);验证了令牌在无监督分割中的作用,可将图像分解为有意义的语义区域。实验结果:在PascalVOC、COCO等数据集上,Seg4Diff在开放词汇分割和无监督分割任务中取得竞争性性能;MAGNET微调不仅提升分割精度,还通过增强跨模态对齐改善了图像生成的文本一致性和构图