5月8日阶跃星辰CEO姜大昕现身媒体沟通会,多模态成探索重点

AI世纪 2025-05-12
大模型 2025-05-12

文|邓咏仪

编辑|苏建勋

5月8日,久不露面的阶跃星辰CEO姜大昕,出现在北京的一场媒体沟通会上。

“在多模态领域,如果任何一个方面有短板,都会延缓探索AGI进程。”姜大昕给出了一个鲜明的判断。过去一年中,他在不同场合都在反复提及:多模态是实现AGI的必经之路。

在六小龙中,比起在融资、市场声量上有烈火烹油之势的其他选手,阶跃星辰的低调格外显眼。

这家公司最不声不响,但又能有独特的身位而被记住——过去两年中,它没有参与应用投流的狂热之中,在To C应用上也仅是有所试水。

多模态如今成为了阶跃最亮眼的标签,这家公司正在倾注大部分力量探索这一道路。

成立两年,阶跃一共发布了22款自研基座模型,覆盖文字、语音、图像、视频、音乐、推理等。这其中,有16款是多模态模型,占比超7成。阶跃也因此在行业内被称为“多模态卷王”。

但多模态的发展阶段和语言模型并不相同。

在技术路线已经收敛的语言模型领域,几乎所有公司都已经沿着差不多的技术路线迭代,但多模态的技术探索尚在早期。从顶尖大厂到AI初创,都像在迷雾中穿行。

在2024年Sora震撼全球时,不少AI创业者就有着不一样的意见。“Sora出来的时候,其实我们比较失望,我们觉得它的主线应该是做理解生成一体化,但他们只做了生成,没怎么做理解。”姜大昕表示。

姜大昕对《智能涌现》表示,如果对标语言模型的技术演进时间线,阶跃所押注的“理解+生成一体”的原生多模方向,可能还处在GPT 1.0之前,刚出来时的阶段。

多模态的一大难点,是融合过程中不能损失单个模态的性能,尤其是不能降智。阶跃采取的技术路线可以说是“难上加难”:同一个大模型,既要做理解,也要做生成。这是阶跃星辰从成立之初,就定下的发展主线。

做理解和生成,是原生多模方向的一体两面,这意味着:

能理解:模型能理解画面中的物体关系,这需要生成端来监督

能生成:生成的内容,也需要理解来控制,保证其不是超出物理世界认知的

直到2025年GPT-4o image的发布,吉卜力、拟人化的风格滤镜点燃全球,多模态又重回全球AI舞台的中心。而为代表的推理模型的进步,也能够为多模态的技术探索,补足一块重要的拼图。

多模态和Agent,是2025年当仁不让的两个关键词。在过去一年中,姜大昕也在不同场合反复强调:多模态是AGI的必经之路。而Agent,则是当下业界在AGI道路上探索出来的初始形态。

当前,阶跃也在重点布局Agent这一领域。在汽车、手机、具身智能、IoT等关键应用场景里,阶跃已经和Oppo、吉利汽车集团、千里科技等企业合作,将Agent应用在关键场景中。

在一飞冲天,引爆全球之后,它的另一面是——当原来坚如磐石的技术壁垒被击穿,所有人都不得不走到了一个焦虑的十字路口上:接下来,技术路线该怎么走?

大厂有存量的场景和用户,尚有充足的时间腾挪方向,加大火力。对大模型初创而言,这个拷问尤为紧迫。短短两个月时间内,大模型六小虎有裁撤团队、砍To C应用者;也有停止投流者,重新将重点放到语言模型中。

对创业公司而言,去探索更前沿、更未知的领域,或许是这个阶段更重要、也更确定的事。

对阶跃而言,这也是一场豪赌——现在,阶跃内部已经组织起不同技术路线的数支团队。“哪一条路线都有可能出现突破,要形成并发的状态。”姜大昕说。

在这次沟通会上,姜大昕除了披露了未来的模型和产品计划外,也对当下的多模态领域给出了关键判断,经《智能涌现》编辑整理:

多模态任何一个方面有短板,都会延缓AGI进程

阶跃星辰_阶跃响应曲线_星辰阶跃deepseek