Meta发布Llama 4系列模型:参数高达2万亿,AI技术再创新高
战略转变
在先前时期,Meta主要依托“Llama”品牌发布了开源的AI模型。但近期,其战略似乎发生了调整。4月5日,Meta发布了参数量高达2万亿的Llama 4预览版。此策略支持研究人员和企业自由利用该模型,并推动其进一步开发,持续带来重要影响。此举明显增强了Meta在开源AI领域的地位。
模型参数
模型的行为模式深受参数影响,这些参数对模型至关重要。通常情况下,参数数量越多,模型的性能和复杂性也随之提升。Llama 4 拥有2万亿参数,这一数量在理论上预示着其在多方面能力上的显著提升。尽管Meta尚未公布模型的正式发布时间,但其庞大的参数规模已吸引了众多科研人员和企业的广泛关注。
架构方法
Llama 4的三个模型均采用了“专家混合(MoE)”架构。这一架构在早期模型中已得到广泛运用。其核心在于将众多负责不同任务、主题和媒体格式的小型模型整合成一个大型统一模型。Llama 4的每个模型由128个独特的专家模型组合构成。其运行效率显著提升。处理数据时,仅需调用针对特定任务的专家模型以及“共享”专家模型。
应用开放
Llama 4 Scout与Llama 4现已面向公众开放,用户可自主部署。然而,Meta公司尚未对外透露官方基础设施的托管API及其价格体系。这一信息的不明确让一些小型企业在评估使用成本时感到困惑。尽管如此,技术实力和研究能力较强的团队已经开始运用这些产品进行开发。
性能提升
Llama 4的三个模型分别专注于推理、编码和问题解决。这些模型通过“k次尝试通过”方法进行性能评定,并在数学、逻辑以及编码领域通过课程采样技术提高了表现。工程师能够运用MetaP新技术来调整超参数,并将这一技术应用于不同规模和类型的模型中。在训练阶段,采用了32000个GPU,并实现了FP8的高精度计算,这显著提升了运算效能。同时,训练所使用的数据量超过了Llama 3的两倍。
模型安全
Meta公司引入了Llama Guard等辅助工具,以此强化了模型的一致性和安全防护。这些工具帮助开发者识别可能的不安全输入、输出和对抗性提示。此外,公司实施了生成式攻击性代理测试(GOAT),实现了红队测试的自动化,旨在确保模型在安全稳定的环境中运行,并有效减少潜在风险。
关于Meta发布的Llama 4模型,您认为它能否在开源人工智能领域占据领先地位?敬请于评论区发表您的看法。此外,别忘了为本文点赞并予以分享。