炸裂!Meta深夜推出Llama 4系列:单卡H100能跑,千万上下文,性能大升级
Meta公司发布了Llama 4系列的首个模型,此举标志着Llama系列实现了全方位的升级,新增了多项引人瞩目的特性。
核心架构升级Llama 4系列采用了混合专家架构(MoE),并支持原生多模态训练。与Llama 3的纯文本模型相比,这种架构变革提升了模型在处理各类数据时的性能。该模型能够并行处理图像、视频和文本等多模态信息,有效拓宽了其应用领域。
亮点特性展现Llama 4拥有卓越的速度,并原生支持多种模式。该系统集成了业界领先的超过1000万Token的多模态上下文窗口。这一窗口能够处理超过20小时的视频内容。凭借这些优势,Llama 4在处理复杂任务和长序列数据方面表现出色,满足多领域应用需求。
卓越性能表现在多场主流基准测试中,Llama 4的表现在GPT-4o和2.0 Flash之上。其推理和编码能力与最新发布的v3版本相当,但激活参数数量仅为后者的不到一半。这一特性揭示了Llama 4在保证高效性能的同时,显著减少了资源消耗,提高了运行效率。
后训练策略调整开发者指出,SFT/DPO的过度使用可能使模型在在线RL阶段受限,进而影响探索。为此,Llama 4被设计成“轻量级”。在后续的训练过程中,他们降低了SFT/DPO的使用比例,同时提升了在线RL的占比。考虑到该模型表现卓越,常规的SFT数据对其而言显得过于基础,故而需削减约95%的SFT数据量。相对而言,小型模型仅需减少大约50%。
超长上下文秘密iRoPE架构是关键,它助力突破10M+超长上下文。其核心宗旨在于无限上下文的追求,并以此作为设计指导。通过长度外推技术,该架构在短序列上展开训练,并将所学知识有效推广至极长序列。因此,在处理长文本及复杂数据时,该模型展现出更强的灵活性。
开源与部署考量Llama 4 Scout及其相似模型即便经过量化,在消费级GPU上仍难以高效运行。这一现象对开源社区的推广产生了一定程度的阻碍。Jim Fan指出,开源模型,特别是MoE架构的模型,在开发过程中应更加重视其部署的简便性,而不仅仅是模型规模的缩减。Meta公司指出,Llama 4 Scout能够在H100单张芯片上运行,这一事实显示出MoE架构与当前开源技术发展的趋势相吻合。同时,Llama 4的新许可证与MIT开源模式相比,设定了一些限制。然而,Meta公司还透露,目前有更多模型正在开发之中。
业界广泛聚焦于Llama 4的创新特性,这些特性预计将对AI领域产生重大影响。欢迎点赞,分享文章,并踊跃在评论区分享您的观点!