学术头条大模型周报:带你快速跟进大模型行业热门动态

AI世纪 2024-09-22
大模型 2024-09-22

原创 学术头条 学术头条

大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分,带你快速跟进大模型行业热门动态。

企业动态

苹果发布 Apple 公测版

据报道,苹果已发布了 iOS 18.1、 18.1 和 macOS 15.1 的公开测试版,其中包括一些 Apple 功能,如文本重写工具和用于从照片中删除对象的“清理”工具等。目前,在手机端,只有 15 Pro 以及 16 和 16 Pro 可访问 Apple 功能。

另外,据 报道,苹果已确定将于 2025 年推出 Apple 的更多语言版本,包括英语(印度)、英语(新加坡)、德语、意大利语、韩语、葡萄牙语、越南语,以及尚未公布的“其他语言”。

Sam 将退出 安全委员会

周一表示,首席执行官 Sam 将离开董事会的 Safe and ,该委员会将完全由独立董事会成员组成,卡内基梅隆大学机器学习系主任 Zico 将担任主席。新委员会将听取有关主要大模型的简报,且(连同全体董事会)有权推迟新模型的发布。 表示,新委员会审查了 o1 模型的安全性,将其被评为“中等风险”。

发布视频生成模型 API

据 报道, 日前推出了一项 API 服务,允许开发人员和组织将该公司的人工智能(AI)生成模型构建到第三方平台、应用程序和服务中。随着 这一 API 的初步推出, 成为了首批通过 API 提供视频生成模型的人工智能厂商之一。 表示,包括营销公司 在内的“值得信赖的战略合作伙伴”已经在使用这一 API。

谷歌计划改进 ,标记“AI 处理图片”

据 报道,谷歌计划对 进行改进,以便更清楚地显示搜索结果中由人工智能(AI)生成和编辑的图片。值得注意的是,只有包含 “C2PA 元数据 ”的图片才会被标记为被人工智能处理的图片。C2PA,即“内容来源和真实性联盟”,是一个制定技术标准的组织,由于 C2PA 在采用和互操作性方面面临着很多挑战,这一标准尚未得到广泛采用。

《饥饿游戏》出品公司计划在影视创作中使用生成式 AI

据报道,《饥饿游戏》、《暮光之城》出品公司狮门娱乐(Lions Gate )计划开始在其新电影和电视节目的创作中使用生成式人工智能(AI),这是这一新兴技术在好莱坞发展的一个重要标志。该公司已同意让人工智能初创公司 使用其内容库,以换取一个新的、定制的人工智能模型,供工作室在剪辑和制作过程中使用。

T- 将与 建立由 agent 驱动的客户服务系统

借助 的 API 和其 o1 模型,T- 和 将建立一个由智能体(agent)驱动的新客户服务系统——,其在分析客户服务呼叫记录和识别可以更好解决的痛点方面已初见成效。 首席执行官 Sam 在 T- 活动上表示:“我们对下一代模型感到兴奋的众多事情之一就是我们可以为个性化做些什么。”

微软与沃达丰签署协议,在 Excel 中添加 AI 助手

据报道,微软与沃达丰集团( Group Plc)签署了一项在 中使用人工智能(AI)助手的协议,并发布了一系列新的人工智能工具,旨在帮助员工创建 Excel 图表、确定电子邮件的优先级以及相互协作。沃达丰将购买 68000 个企业版人工智能助手(即 )的许可证。

技术前瞻

提出“上下文检索”,检索失败次数减少 67%

人工智能(AI)模型要想在特定环境中发挥作用,通常需要获取背景知识。例如,客户支持聊天机器人需要了解具体业务的相关知识,而法律分析机器人则需要了解大量的过往案例。

当前,开发人员通常使用检索增强生成(RAG)来增强人工智能模型的知识。问题在于,传统的 RAG 解决方案在对信息进行编码时会移除上下文,这往往会导致系统无法从知识库中检索到相关信息。

在这项工作中, 团队提出了一种能显著改进 RAG 检索步骤的方法——上下文检索( )。这种方法可以将检索失败的次数减少 49%,如果与重排()相结合,则可以减少 67%。检索准确率的提高会直接转化为下游任务的更佳表现。

大模型玩《黑神话:悟空》,完成 90% 简单、中等水平战斗

在这项工作中,阿里团队以《黑神话:悟空》作为研究平台,探索了现有视觉语言模型(VLM)在需要纯视觉输入和复杂动作输出的场景中的能力边界。他们在游戏中定义了 12 项任务,其中 75% 以战斗为主,并将几种 SOTA 视觉语言模型纳入这一基准。此外,他们还提出了一个 VARP(视觉动作角色扮演)智能体框架,由动作规划系统和视觉轨迹系统组成。这一框架展示了执行基本任务的能力,并在 90% 的简单和中等水平的战斗场景中取得了成功。

小红书推出 :实现“文生图”的特征整体一致

在这项工作中,小红书团队推出了 ,其不仅能保持面部的一致性,还能保持服装、发型和身体的一致性,从而通过一系列图像进行故事的创作。 融合了基于面部身份的条件和裁剪后的人物图像。具体来说,他们使用位置感知感知器重采样器(PPR)将面部身份信息与裁剪后的人物图像整合在一起,从而获得鲜明的人物特征。为了防止多个人物和背景混杂在一起,他们使用带有分割掩码的 MSE 损失分别限制不同人物和背景的交叉注意力影响区域。此外,他们以姿势为条件训练生成网络,从而促进与姿势的解耦。他们还采用了 LoRA 来提高保真度和质量。

微软新研究:通过向量检索加速长上下文 LLM 推断

在这项工作中,来自 、上海交通大学和复旦大学的研究团队提出了一种加速注意力计算的无需额外训练(-free)方法——。为了利用注意力的动态稀疏特性, 在 CPU 内存中的 KV 向量上建立近似近邻搜索(ANNS)索引,并在生成过程中通过向量搜索检索最相关的向量,大大降低了长上下文 LLM 的推理成本和对 GPU 内存的要求,同时保持了模型的准确性。特别是,在具有 8B 参数的 LLM 中, 只需 16GB GPU 内存即可提供 128K token,在单个英伟达 (24GB)上生成一个 token 只需 0.188 秒。

v3:利用深度融合 LLM 改进文本到图像对齐

团队推出了文本到图像模型 v3(PGv3),其在文本提示、复杂推理和准确文本渲染方面表现出色。用户偏好研究表明,PGv3 在贴纸、海报和徽标设计等常见设计应用中具有超人的图形设计能力。此外,PGv3 还引入了新功能,包括精确的 RGB 颜色控制和强大的多语言理解能力。

MIT 推出 :将 ABM 扩展到数百万智能体

在这项工作中,麻省理工学院媒体实验室推出了 ——一个可以将基于智能体的建模(ABM)扩展到数百万智能体的框架,同时使用大语言模型(LLMs)捕捉高分辨率智能体行为。他们将 LLM 作为 ABM 智能体的效用基准,探索模拟规模与个体智能体之间的权衡。他们比较了基于启发式和 LLM 智能体的不同智能体架构在预测疾病和失业率方面的性能。此外,他们还展示了 在回顾、反事实和前瞻性分析方面的能力,强调了自适应智能体行为如何帮助克服政策设计中历史数据的局限性。

英伟达推出医学成像人工智能 MAISI

医学成像分析面临着数据稀缺、标注成本高和隐私问题等挑战。为应对这些挑战,来自英伟达的研究团队及其合作者推出了用于合成成像的医学人工智能(MAISI),这是一种利用扩散模型生成合成三维计算机断层扫描(CT)图像的创新方法。通过结合 ,MAISI 可以将器官分割(包括 127 个解剖结构)作为附加条件进行处理,并生成可用于各种下游任务的精确标注合成图像。

实验结果表明,MAISI 能够为不同区域和条件生成逼真、解剖准确的图像,这揭示了它在减轻合成数据挑战方面的巨大潜力。

喜马拉雅推出高质量零样本语音生成模型 Takin

在这项工作中,喜马拉雅 团队推出了 Takin 系列技术和模型,主要包括 Takin TTS(文本转语音)、Takin VC(语音转换)和 Takin (变声),专为有声读物制作设计。这些模型能够进行零样本语音生成,产生与真实人声几乎无法区分的高质量语音,并帮助个人根据自身需求定制语音内容。

中科院推出 LLaMA-Omni:实现与大语言模型的无缝语音交互

中国科学院团队提出了一种为实现与 LLMs 进行低延迟和高质量语音交互而设计的全新模型架构——LLaMA-Omni,其集成了预训练的语音编码器、语音适配器、大语言模型(LLM)以及流式语音解码器,能够直接从语音指令中同时生成文本和语音响应,且响应速度快,免去了语音转录的步骤。

实验结果表明,与现有的语音-语言模型相比,LLaMA-Omni 在内容和风格上提供了更好的响应,且响应延迟可低至 226 毫秒。此外,训练 LLaMA-Omni 仅需 4 块 GPU,且能在 3 天内完成。

:首个像 LLM 一样进行提示的检索模型

在这项工作中,来自约翰霍普金斯大学和 AI 的研究团队提出了首个能够像 LLM 一样进行提示的检索模型——,其不仅在标准检索任务中表现出色,而且还能跟随指令。

他们观察到:在跟随详细的相关性指令方面取得了巨大进步(达到了 SoTA)( 上 +14.3 p-MRR / +3.1 nDCG);对查询、指令中词汇选择/措辞的鲁棒性显著提高( 上 +12.9 @10);能够通过提示执行超参数搜索,从而可靠地提高检索性能(BEIR 上平均提高 +1.4)。