Llama 4发布震撼业界，Meta与马斯克面临严峻挑战

AI世纪 2025-04-17

2025-04-17

漫长等待终发布

Meta公司推出的Llama模型的新版本经过近一年的研发终于问世，这一系列模型曾作为开源人工智能领域的先锋。该模型旨在在STEM基准测试中超越GPT-4.5和3.7等模型。但令人遗憾的是，尽管经历了漫长的等待，其最终成果并未获得预期的广泛赞誉，反而引发了诸多争议。

基准测试遭指控

自Llama 4问世以来，Meta公司屡遭指控，涉嫌在AI基准测试排名上采取不正当手段。公司向测试平台提交了专门针对对话性能的实验版本，却隐瞒了这一版本的存在，使得其表现看似非常出色。许多模型并未进行所谓的“基准测试调整”，Meta的这一行为显然为其带来了显著优势，同时也引发了业界对其测试公平性的广泛质疑。

训练数据被质疑

除对基准测试进行干预外，部分人士批评Meta公司在模型训练过程中使用了测试数据集。通常情况下，训练集和测试集应独立随机划分。Meta的这一行为，好比在检验模型对“猫可以是橙色”这一概念的理解时，却私下对橙色猫进行了训练，这一做法未能有效验证模型的理解能力，因而被认为是一种不公正且不恰当的训练手段。

上下文窗口表现

Llama 4 的一个显著特点是其在长文本处理上的优异表现。具体来说，Llama 4 Scout 经过训练，能够处理高达 1000 万个 token，这相当于能够接收大约 800 万个单词的提示。这一数据初听令人震惊，几乎可以覆盖《哈利·波特》系列的全部内容。然而，实际情况是，当提示量减少到 100k 时，该模型的准确性会显著降低，降至 15%。

架构创新不足

Llama 4 是 Meta 对该架构的初次探索，但它的设计几乎与 v3 相同，这一事实让众多人士感到失望。v3 的发布曾引起广泛关注，迫使 Meta 放弃了原有 Llama 4 并重新进行训练。这一情况反映出 Meta 在人工智能领域的竞争中显得较为被动。

业界形象受冲击

Meta曾位列AI实验室前五，如今却面临众多指控和争议，其行业声誉受到重创。Llama 4的推出理应巩固其在开源AI领域的领导地位，然而，接连出现的问题使其陷入困境，未来亟需采取措施恢复其声誉。

Meta在AI竞赛中表现出的不诚实行为，引发了公众对其未来发展的疑虑。关于Meta是否能够恢复其在行业内的良好声誉，观点不一。

Llama

Llama 4发布震撼业界，Meta与马斯克面临严峻挑战

Meta新旗舰AI模型Llama 4 Maverick测试成绩遭质疑

对于游戏科技外溢和AI的冲击，腾讯和网易等公司的技术负责人如何看？

机器之心编辑部以后数据分析的活，也被包了

AI月之暗面创始人杨植麟现身上海创新创业青年论坛

OpenAI惊天内幕曝光！高管怒斥遭打压，7100亿AI巨头内外交困｜钛媒体AGI

AI模型可以用于追踪转移性癌症的源头