英伟达华人AI版猫和老鼠60秒经典泪目,仅靠Transformer新增一层引爆全网

AI世纪 2025-04-11
算力 2025-04-11

研究亮点

近期,科研界实现了显著进展。在预训练过程中加入TTT层,即便模型参数仅为5B,亦能处理复杂的提示信息,并制作出时长达一分钟的短视频。以《猫和老鼠》动画为例,采用TTT技术生成的视频在Elo评分上超越了基准线34分,这一成就凸显了其广阔的发展潜力。

TTT层原理

TTT层的隐藏状态设计展现出与众不同的特点,不再仅限于矩阵形式。实际上,它由两层多层感知器(MLP)构成的神经网络构成。该网络采用自监督学习方法,对历史上下文进行压缩,并将这些信息转换为隐藏状态的权重。为了提升学习挑战,研究者们会先将x_t处理成受损的输入,这种做法与去噪自编码器相似。在此过程中,需对各个维度间的关联性进行深入研究,以确保信息的重新构建。

网络适配性

TTT层在兼容性方面表现出色,可与RNN层及自注意力层实现无障碍连接,便于融入多种网络结构。然而,TTT层的初始参数系随机指定。若不经调整即加入预训练网络,可能对模型预测效果造成不利影响。针对此问题,研究者们已提出相应的解决策略。

视频生成流程

扩散模型未能建立因果关系,研究者采纳了特定措施。原本的-X标记持续时长最多为3秒,研究者创建了3秒的数据片段集以简化处理流程。在此操作中,-X将文本标签与含有噪声的视频标签融合,形成了输入序列。在处理环节,自注意力层在3秒片段内执行局部操作,而TTT层则对整个序列进行全局分析。最终,通过W_ib生成输出标签。

存储策略

研究人员为了提升工作效率,对W^(1)和W^(2)采用了分片存储技术。这一做法将大任务分解成多个小单元,并分配给众多助手共同执行。该策略显著促进了视频生成速度的提高。

效果对比评估

实验结果显示,TTT-MLP在场景一致性上优于Gated和滑动窗口注意力等传统人工评估技术,且其运动表现更为自然。对于时长63秒的视频,全注意力模型在推理和训练阶段所需时间明显长于局部注意力模型。在评估视频素材库时,研究人员首先对包含100个不同故事情节的样本进行了细致分析。对每一情节,他们采用了多种制作方法,制作出相应的视频内容。接着,他们借助特定评估工具对视频整体质量进行了评定。然而,目前这些视频在时间同步和动作连贯性方面还存在不足。

经过审阅相关资料,您是否认为此技术在电影电视制作行业中具有广泛推广的潜力?敬请及时发表您的见解,并附上您的评论。同时,请不要忘记为本文点赞及转发。