首页 > TAG信息列表 > LLM

AMD Instinct MI300X GPU集成DeepSeek-V3模型,性能超越GPT-4,实现极致性能突破
AMD集成DeepSeek模型至GPU,DeepSeek V3或已超GPT-4成最强开源LLM?

大语言模型成裁判,评判AI生成内容,PersonaEval基准测试来了?
大语言模型成裁判,评判AI生成内容,PersonaEval基准测试来了?大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。

谷歌DeepMind发布全新健康大语言模型,PH-LLM有多强?
谷歌DeepMind发布全新健康大语言模型,PH-LLM有多强?AI医学的圣杯,可能先被谷歌DeepMind夺下。最近,谷歌全新健康大语言模型(PH-LLM)正式发布——一款微调Gemini的「个人睡眠和健康」模型。

群核科技SpatialLM技术解析:开启基于LLM的3D结构化建模新范式?
群核科技SpatialLM技术解析:开启基于LLM的3D结构化建模新范式?群核科技SpatialLM技术解析:基于LLM的3D结构化建模新范式近日,空间理解模型SpatialLM发布首份技术报告,该模型来自于空间智能公司群核科技。 据悉


工业AI落地不易,大模型应用冷热不均,先锋场景已现?
工业AI落地不易,大模型应用冷热不均,先锋场景已现?“除了工业场景固有的复杂性和严肃性,工业AI与物理世界紧密关联,涉及复杂的时空因果关系,其落地不仅考验AI技术本身,更依赖于深厚的工业数据积淀和场景知识理解。”过去两年

深圳市九天睿芯科技申请基于存算一体的大语言模型推理装置专利,推动AI技术革新
深圳市九天睿芯申请基于存算一体的大语言模型推理装置专利,解决现存的 LLM 推理装置的散热问题,专利,深圳市,九天睿芯,推理装置,大语言模型,科技有限公司


微软开源BitNet模型结合芯动力RPP生态架构,为边缘AI带来新活力?
微软开源BitNet模型结合芯动力RPP生态架构,为边缘AI带来新活力?微软开源BitNet模型结合芯动力RPP生态架构,可在边缘和端侧智能设备上快速适配和部署新的模型,为边缘AI的加速普及带来新的活力。【内容目录】1.什么是BitNet

大语言模型与人类价值观对齐挑战:RLHF 与 RLAIF 的探索
大语言模型与人类价值观对齐挑战:RLHF 与 RLAIF 的探索将大语言模型(LLMs)与复杂的人类价值观对齐,仍然是 AI 面临的一个核心挑战。当前主要的方法是基于人类反馈的强化学习(RLHF)。
首个商业级扩散大型语言模型Mercury发布,性能卓越,每秒处理超1000 token
当前的 AI 领域,可以说 Transformer 与扩散模型是最热门的模型架构。也因此,有不少研究团队都在尝试将这两种架构融合到一起,以两者之长探索新一代的模型范式

World Labs:李飞飞创办的AI独角兽公司的发展与对话
World Labs:李飞飞创办的AI独角兽公司的发展与对话World Labs 是由著名 AI 专家、斯坦福大学教授李飞飞于 2024 年创办的初创公司,致力于开发具备“空间智能”的下一代 AI 系统。自成立以来

KG与LLM完美结合:知识图谱助力大语言模型降低幻觉现象
KG与LLM完美结合:知识图谱助力大语言模型降低幻觉现象如何使用LLM建立行业KG(知识图)电子产品世界04

腾讯高管解读Q4财报:DeepSeek技术突破,终结LLM更新对GPU数量级增长需求
3月19日晚间消息,腾讯控股(HKEX:00700)今日发布了截至12月31日的2024年第四季度及全年财报。第四季度,营收为1724亿元,同比增长11%。

西交微软北大提出信息密集型训练大法
中文科技资讯精选摘要:近日,西交微软北大联合提出信息密集型训练大法,使用纯数据驱动的方式,矫正LLM训练过程产生的偏见,在一定程度上治疗了大语言模型丢失中间信息的问题。
太空杀全新玩法 AI 残局挑战,巨人网络 AI 实验室与项目组联合研发
《太空杀》发布全新玩法“AI残局挑战”。8月2日,巨人网络(002558SZ)在旗下推理派对手游《太空杀》发布全新玩法“AI残局挑战”。据介绍

日本发布超级计算机“-LLM”加速密集矩阵乘法库
日本研究人员利用超级计算机Fugaku发布了Fugaku-LLM,这是一个具有130亿个参数的大型语言模型。通过优化性能和加速通信,Fugaku-LLM在日本MT-

IBM 研究发布突破性 LLM 基准测试方法,计算成本降低 99%
中文科技资讯精选摘要:IBM 研究发布了一项突破性的 LLM(大型语言模型)基准测试方法,承诺将计算成本降低高达99%。

IBM 推出突破性 LLM 基准测试方法,成本降低 99%,加速算法迭代与创新
巨头动态1.【IBM推出突破性LLM基准测试方法,成本降低99%】IBM研究实验室发布了一项颠覆性的LLM基准测试方法,该方法能显著降低评估LLM性能的计算成本,最高可达99%。

Django 框架创始人:LLM 本质上是无状态函数,并非真正有记忆
ChatGPT和Gemini等语言模型在对话过程中似乎能够记住之前的对话内容,但实际上它们是无状态函数。通过提供上下文作为提示,模型才能“记忆”之前的对话。然而

LoRA:大型语言模型的低阶适配,微调模型的热门方法
大多数人都知道,训练这些模型是非常昂贵的,需要大量的资本投资;所以,看到我们可以通过采用现有的模型并用自己的数据对模型进行微调,从而创建一个具有自己特色的模型

基于 Transformer 的自回归语言模型中生成令牌成本高的解决方案
Block Transformer:通过全局到局部的语言建模加速LLM推理,令牌,解码器,上下文,语言建模,block,transformer

IBM 研究推出创新 LLM 基准测试方法,计算成本降低 99%
IBM研究发布了一项突破性的LLM基准测试方法,承诺将计算成本降低高达99%。传统的基准测试,如斯坦福的HELM,需要耗费超过一天的时间,并且成本高达1万美元,这对开发人员和

2024年哪个月发布,爆料人掐指一算,可能在11月
原创 新智元 新智元 新智元报道 编辑:桃子 好困 【新智元导读】全世界的目标再次聚焦在巴黎科技活动上的OpenAI。这次,开发者体验负责人带来了更多GPT-4

欧洲科学院院士联合上海人工智能实验室提出多智能体规范性框架CRSEC
导语 如何才能让智能体具备遵守社会规范的能力,并让AI社会中自发涌现出社会规范?近日,欧洲科学院院士、西北工业大学王震教授团队联合上海人工智能实验室胡舒悦研究员
热门文章