DeepSeek发布多模态模型Janus-Pro
周二(1月28日)凌晨,近期热门的中国人工智能大模型DeepSeek在GitHub平台发布了Janus-Pro多模态大模型,进军文生图领域。
DeepSeek方面表示,该款大模型是2024年11月13日发布的JanusFlow大模型的高级版本。相比前一代模型,Janus-Pro优化了训练策略、扩展了训练数据,模型也更大。通过这些改进,Janus-Pro 在多模态理解和文本到图像的指令跟踪功能方面都取得了重大进步,同时还增强了文本到图像生成的稳定性。
根据DeepSeek发布的测试结果,Janus-Pro在 GenEval 和 DPG-Bench 基准测试中击败了 Stable Diffusion 和 OpenAI 的 DALL-E 3。目前,Janus系列的4款模型已经开源。
据官方介绍,Janus是一种新颖的自回归框架,它将多模态理解和生成统一起来。它通过将视觉编码解耦为单独的路径来解决以前方法的局限性,同时仍然使用单一、统一的转换器架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,而且还增强了框架的灵活性。Janus 超越了之前的统一模型,并且达到或超过了特定任务模型的性能。
JanusFlow引入了一种极简架构,将自回归语言模型与最先进的生成建模方法整流流相结合。我们的主要发现表明,整流流可以在大型语言模型框架内直接训练,无需进行复杂的架构修改。大量实验表明,JanusFlow 在各自的领域中实现了与专门模型相当或更好的性能,同时在标准基准测试中明显优于现有的统一方法。这项工作代表着向更高效、更通用的视觉语言模型迈出了一步。