5月8日阶跃星辰CEO姜大昕现身媒体沟通会，多模态成探索重点

AI世纪 2025-05-12

2025-05-12

文｜邓咏仪

编辑｜苏建勋

5月8日，久不露面的阶跃星辰CEO姜大昕，出现在北京的一场媒体沟通会上。

“在多模态领域，如果任何一个方面有短板，都会延缓探索AGI进程。”姜大昕给出了一个鲜明的判断。过去一年中，他在不同场合都在反复提及：多模态是实现AGI的必经之路。

在六小龙中，比起在融资、市场声量上有烈火烹油之势的其他选手，阶跃星辰的低调格外显眼。

这家公司最不声不响，但又能有独特的身位而被记住——过去两年中，它没有参与应用投流的狂热之中，在To C应用上也仅是有所试水。

多模态如今成为了阶跃最亮眼的标签，这家公司正在倾注大部分力量探索这一道路。

成立两年，阶跃一共发布了22款自研基座模型，覆盖文字、语音、图像、视频、音乐、推理等。这其中，有16款是多模态模型，占比超7成。阶跃也因此在行业内被称为“多模态卷王”。

但多模态的发展阶段和语言模型并不相同。

在技术路线已经收敛的语言模型领域，几乎所有公司都已经沿着差不多的技术路线迭代，但多模态的技术探索尚在早期。从顶尖大厂到AI初创，都像在迷雾中穿行。

在2024年Sora震撼全球时，不少AI创业者就有着不一样的意见。“Sora出来的时候，其实我们比较失望，我们觉得它的主线应该是做理解生成一体化，但他们只做了生成，没怎么做理解。”姜大昕表示。

姜大昕对《智能涌现》表示，如果对标语言模型的技术演进时间线，阶跃所押注的“理解+生成一体”的原生多模方向，可能还处在GPT 1.0之前，刚出来时的阶段。

多模态的一大难点，是融合过程中不能损失单个模态的性能，尤其是不能降智。阶跃采取的技术路线可以说是“难上加难”：同一个大模型，既要做理解，也要做生成。这是阶跃星辰从成立之初，就定下的发展主线。

做理解和生成，是原生多模方向的一体两面，这意味着：

能理解：模型能理解画面中的物体关系，这需要生成端来监督

能生成：生成的内容，也需要理解来控制，保证其不是超出物理世界认知的

直到2025年GPT-4o image的发布，吉卜力、拟人化的风格滤镜点燃全球，多模态又重回全球AI舞台的中心。而为代表的推理模型的进步，也能够为多模态的技术探索，补足一块重要的拼图。

多模态和Agent，是2025年当仁不让的两个关键词。在过去一年中，姜大昕也在不同场合反复强调：多模态是AGI的必经之路。而Agent，则是当下业界在AGI道路上探索出来的初始形态。

当前，阶跃也在重点布局Agent这一领域。在汽车、手机、具身智能、IoT等关键应用场景里，阶跃已经和Oppo、吉利汽车集团、千里科技等企业合作，将Agent应用在关键场景中。

在一飞冲天，引爆全球之后，它的另一面是——当原来坚如磐石的技术壁垒被击穿，所有人都不得不走到了一个焦虑的十字路口上：接下来，技术路线该怎么走？

大厂有存量的场景和用户，尚有充足的时间腾挪方向，加大火力。对大模型初创而言，这个拷问尤为紧迫。短短两个月时间内，大模型六小虎有裁撤团队、砍To C应用者；也有停止投流者，重新将重点放到语言模型中。

对创业公司而言，去探索更前沿、更未知的领域，或许是这个阶段更重要、也更确定的事。

对阶跃而言，这也是一场豪赌——现在，阶跃内部已经组织起不同技术路线的数支团队。“哪一条路线都有可能出现突破，要形成并发的状态。”姜大昕说。

在这次沟通会上，姜大昕除了披露了未来的模型和产品计划外，也对当下的多模态领域给出了关键判断，经《智能涌现》编辑整理：

多模态任何一个方面有短板，都会延缓AGI进程

阶跃星辰