V-JEPA 2：人工智能无需标注数据理解物理世界的重大突破

AI世纪 2025-06-15

2025-06-15

仅基于原始视频进行训练，V-JEPA 2 标志着人工智能在无需标注数据的情况下理解物理世界能力的重大飞跃。

广告肝囊肿,两样东西尽量少碰 ,很多人控制不住,难怪肝囊肿难调理

Meta近日发布了 V-JEPA 2，这是一款旨在帮助机器理解和预测现实世界物理交互的先进人工智能模型。

V-JEPA 2 完全在视频数据上训练，它改进了机器人和AI智能体处理因果逻辑的方式，使其能够“三思而后行”。

Meta视此为构建通用人工智能（AGI）的关键一步，这一方向被广泛认为是开发真正会思考的 AI 系统所必需的。

与之前的系统不同，V-JEPA 2 无需依赖海量标注内容数据集即可模拟物理现实。

它在简化的“潜在”（）空间中运行，因此速度更快、适应性更强。Meta相信，这项创新可能重塑机器人和自主机器在环境中导航和响应的方式。

除了模型本身，Meta还发布了三个新的基准测试，以支持研究人员评估AI从视频中进行推理和学习的能力。

V-JEPA 2 从视频而非标签中学习

V-JEPA 2 使用展示人与物体在现实世界中如何互动的视频片段进行训练。这使得模型能够学习重力、运动和遮挡的工作原理，例如理解球体会从桌子上掉落，或者被隐藏的物体仍然存在。

Meta在其官方公告中表示：“V-JEPA 2 代表着我们在开发先进机器智能（AMI）的最终目标上取得了有意义的进展。”

与传统 AI 模型需要大量标注不同，V-JEPA 2 直接从原始视频中提取模式。这使其能够泛化到不同情境，并更轻松地应对新情况。

在机器人技术中的实际应用

Meta已在实验室机器人上测试了该模型。这些机器利用 V-JEPA 2 拾取陌生物体、伸手够取目标，并将物品放置到新位置。这标志着在使机器人能在不可预测环境中运作方面向前迈进了一步。

Meta认为 V-JEPA 2 在配送机器人和自动驾驶汽车等自主机器中具有巨大潜力。这些系统需要快速解读物理环境，以避开障碍物并做出实时决策。

借助像 V-JEPA 2 这样的世界模型，机器可以开始像人类一样预测自身行动的后果。

世界模型发展势头强劲

Meta正与其他科技巨头共同推动世界模型的发展。谷歌一直在开发其自己的版本Genie，该模型可以模拟整个3D环境。

与此同时，李飞飞的初创公司World Labs已获得2.3亿美元融资，用于构建能更好解读物理空间的大型世界模型。

据CNBC报道，Meta计划向Scale AI投资140亿美元，并让其首席执行官 Wang加入董事会，以强化其AI发展路线图。

这项投资反映了该公司日益关注超越文本的机器智能。

支持研究生态

为支持全球研究，Meta随 V-JEPA 2 一起发布了三个基于视频的基准测试。这些工具旨在衡量AI模型在现实场景中理解、预测和规划的能力。

通过将模型和基准测试开源，Meta希望推动整个AI研究界取得更快进展。

尽管语言模型（LLM）仍在主导公众讨论，但 V-JEPA 2 标志着AI的下一个前沿 —— 物理世界智能 —— 正成为新的焦点。