Llama 4重测竞技场排名暴跌引热议,网友质疑Meta信任危机加剧
Llama 4首发争议
近期,竞技场官方公布,Llama 4的首个版本称为“实验版”的Llama-4-03-26。这一版本主要针对人类偏好进行了调整。同时,经过调整的开源版本命名为Llama-4-17B-128E,拥有17B的激活参数和128个MoE专家。至于“针对人类偏好优化”的具体方法尚未对外公布,这一话题在网上引起了广泛讨论。
有人表示,即便在人工智能领域,智能与魅力之间并非必然相关。此外,还有批评声音指出,Meta公司涉嫌使用不正当策略,这或许会使其在未来难以恢复社区对其的信任。
性能速度表现
在自建服务器环境中,若系统内存充足而带宽及计算能力相对较低,如使用基于x86架构的服务器CPU进行推理,或者在M3 Ultra Mac上执行推理任务,Llama 4的运行速度超越了Small 3.1,同时在智能表现上也超越了Large 2411或A。搭载288GB内存的双路至强服务器上,Llama 4运行速度理想,是优选配置。然而,若用于游戏显卡,其体积显得过大。
与Llama v3对比优势
经过细致的对比分析,该创业公司指出Llama 4在多个维度展现出明显的优势。首先,其成本相对较低;其次,运行效率较高;再者,它拥有强大的功能,能够应对多样化的工作需求;尤其是,它在实时交互领域表现出色。Llama 4存在不足,但若Meta能为其确立合适定位,并推出更贴近实际的产品,而非单纯追求基准标准,那么其能否取得成功便不再是疑问。
代码测试情况
Llama 4在代码测试中未能通过基本测试用例。作者需耗时15至20分钟向AI解释解题步骤。此外,Llama v3在测试中多次出现时间超限问题,仅完成了132个测试用例。这些情况显示出两者在代码处理能力方面均有待提高。
编程问题回答
两个模型均准确解决了关于编程语言中表达式(a等于1且a等于2且a等于3)是否能够成立的疑问。在解答过程中,Llama 4模型表现卓越,不仅主动提供了可执行的代码实例,而且帮助作者学会了如何运用“动态对象属性访问”的方法。v3的回答详尽地展示了其思考步骤及相应解释,相对而言,Llama 4的答案则较为简明,对解释的提供较少。
文本搜索测试
在文本搜索测试中,Llama 4在16秒内成功定位了目标单词,但未能明确指出该单词的精确位置,同时也无法统计文档中单词的具体数量。与此同时,v3模型经过约18秒的推理,仍未能找到目标单词或确定文档的总字数,这一结果未达到作者设定的预期。两个模型在处理文本细节时均显现出一定的不足。