华为盘古 Ultra-MoE-718B-V1.1 正式开源:Pangu 超大稀疏架构的价值解码与技术剖析

华为盘古 Ultra-MoE-718B-V1.1 正式开源:Pangu 超大稀疏架构的价值解码与技术剖析

前言

华为盘古Ultra-MoE-718B-V1.1的创新开源,独特的稀疏专家架构以仅39亿激活参数实现媲美传统7180亿参数模型的性能,在MMLU、C-Eval等核心基准测试中全面领先,通过快慢思考双模式设计与强化学习闭环训练,将推理能效提升18倍的同时把幻觉率降至3.85%,为开发者提供了一个能够直接部署、兼顾极致性能与部署效率的全新基座模型,大幅降低了前沿大模型技术的应用门槛。

openPangu-Ultra-MoE-718B-V1.1 正式在 GitCode 平台开源

openPangu-Ultra-MoE-718B-V1.1 基于昇腾 NPU 训练的大规模混合专家语言模型,具备快、慢思考两种能力,相比 V1.0 在工具调用等方面有提升,openPangu-Ultra-MoE-718B-V1.1-Int8 是量化版本,通过动态 per - token 量化方法,显存占用减少约一半,吞吐提升 20% ,综合精度损失小于 1%,推理方式上 V1.1-Int8 需参考 Omni-Infer 推理部署指南,开源 Omni-Infer 推理引擎支持 Function Call 调用

性能对决:盘古 Ultra-MoE 在多维评测中的压倒性表现

  • 英语基准测试:多模态英语模型在 MMLU - PRO 测试中大幅领先主流密集型模型与多模态的 Llama4 - Scout;DROP 阅读理解得分近 Qwen3 - 32B,复杂英语语义理解比较出色
  • 中文基准测试:C - Eval 超 Qwen3 - 32B,cluewsc 得分平 Qwen3 - 32B 且远超 Gemma3 - 27B,中文语义理解和常识推理比较优秀
  • 推理能力基准测试:代码生成、数学推理等任务得分优秀,SuperGPQA 显著优于 GLM - Z1 - 32B 等;仅 160 亿激活参数就达 320 亿参数模型推理水平,靠创新 MoGE 架构兼顾精度与计算速度
版本跃迁:V1.1 如何实现能力全面突破

盘古 Ultra-MoE 模型 V1.0 到 V1.1 的能力迭代:V1.1 整体呈现 “慢思考全面升级、快思考重点优化” 的特点 ,通用、数学能力的快慢模式均有提升,尤其是数学快思考从 54.1 跃至 64.1;Agent 工具调用的慢思考更是从 55.8 大幅涨到 68.0,补上了 V1.0 的短板;仅代码快思考略有下降,但慢思考代码能力从 61.1 升至 65.7,能看出版本迭代更侧重强化慢模式的深度任务能力,同时巩固快模式的核心基础表现,让不同场景的开发需求都能得到更好适配

  • 通用能力:V1.1 双模式得分都比 V1.0 高,快思考从 77.5 提升到 81.0,慢思考从 80.4 提升到 82.5,整体能力越来越扎实
  • 数学能力:V1.1 的数学能力进步超亮眼,快思考从 54.1 升到 64.1,提升幅度特别大,再也不用为简单数学问题纠结;慢思考从 78.7 升到 80.8,稳步优化,复杂计算也更靠谱
  • 代码能力:V1.1 的代码能力有点两极分化,快思考从 45.1 降到 36.6,确实有点小遗憾;但慢思考从 61.1 升到 65.7,慢模式下写代码、查 bug 的能力明显变强,复杂代码需求完全能 hold 住
  • Agent 工具调用:V1.1 的工具调用能力进步超惊喜,快思考从 61.7 小幅提升到 62.6,日常简单工具使用更流畅;慢思考从 55.8 大幅升到 68.0,显著增强,复杂场景下选工具、用工具的精准度高了很多,省了不少手动操作的麻烦
通用能力:从基础理解到精准执行

从开发者视角看盘古 Ultra-MoE-718B V1.1 的通用能力升级,非常省心高效,V1.0 快思考虽快但能力差点意思,慢思考能力够却幻觉让人头大,调参数平衡效率和可靠性得花费不少时间,现在 V1.1 直接把快思考的实力拉到接近旧版慢思考,幻觉还砍到 3% 级,指令遵循也更加稳,精准踩中了实际落地时 既要快又要准的痛点,省了适配成本,也能够减小线上部署后的纠错运维压力,属于是把开发者的刚需给直接焊死在新版本里了

数学推理能力:快慢思考双模式

盘古 Ultra-MoE V1.1 在数学任务上实现了显著升级:快慢思考模式以及在 ***MO 2024、AIME25、AIME24 三大测评集中的得分均高于 V1.0 版本,快思考模式的提升尤为突出,比如 AIME25 从 40.62 涨到 49.79、AIME24 从 56.25 升至 66.04,基本补上了 V1.0 快思考在数学能力上的短板,慢思考模式则在高基础上持续优化,AIME25、AIME24 等任务的得分都进一步逼近顶尖水平,其中 AIME24 更是拿下了 82.08 的最优值。

整体来看,V1.1 既强化了慢思考的深度数学推理能力,也让快思考的数学表现更实用,覆盖了不同场景下的数学需求。

代码生成能力:深度开发与轻量交互

代码能力测评显示,盘古 Ultra-MoE V1.1 在代码任务上呈现 “慢思考强化、快思考取舍” 的特点:V1.1 慢思考在 LiveCodeBench 的得分从 V1.0 的 61.14 提升至 65.71,实现了代码能力的优化并拿下最优值;但快思考得分从 45.14 降至 36.57,出现明显下滑。

说明 V1.1 版本更侧重强化慢思考模式的深度代码能力,而对快思考模式的代码表现做了策略性调整,适配了不同场景下 “深度代码开发” 与 “轻量代码交互” 的不同需求。

Agent 调用能力:复杂任务调用精度

Agent 调用能力测评可以看出,盘古 Ultra-MoE V1.1 的核心升级聚焦于慢思考模式:在 BFCL-V3、Tau 系列(航空、零售、电信)、AceBench 等任务中,V1.1 慢思考的得分全面超越 V1.0(如 Tau-Bench 零售从 52.75 升至 74.20、Tau2-Bench 航空从 52.00 升至 66.00),多数任务还拿下了最优值,Agent 工具调用的适配性与精度显著提升。

快思考模式则呈现 “部分优化、个别微调” 的特点,Tau-Bench 航空等任务得分上升,但 BFCL-V3、Tau-Bench 电信等略有下降,整体仍保持稳定。说明 V1.1 版本重点强化了慢思考在复杂 Agent 场景下的调用能力,更适配需要精准工具协作的深度任务,同时维持了快思考的基础交互效率。

深度解析:V1.1 如何重构大模型效率边界

通用能力全面迭代:柱状图可以看出 V1.1 快慢思考在 MMLU-Pro、GPQA-Diamond 等任务中得分均高于 V1.0,尤其幻觉率大幅下降,通用能力的均衡性与可靠性显著提升

数学能力更趋全面:雷达图中的 V1.1 的快慢思考覆盖范围(***MO 2024、AIME24/25)均超过 V1.0,慢思考的数学综合表现更接近满分,快思考也补上了之前的短板

版本整体性能跃升:折线图 V1.1 在通用能力、数学能力、工具调用等维度的平均分全面超越 V1.0,只有代码能力略有波动,且抗幻觉能力提升最为突出

模式分工更清晰:饼图体现出快慢思考能力侧重差异,V1.1 强化了慢思考在深度任务(数学、工具调用)的表现,同时优化快思考的基础能力,适配不同场景需求

整体来看作为一线开发者,最直观的感受是 V1.1 不光实现了能力均衡性加场景适配性的双重升级,更像是把我们实际开发里既要又要的矛盾给理顺了:

V1.0 要么为了效率选快思考但核心任务性能不够用,要么为了精度选慢思考却得承担高资源成本,调参适配不同场景得反复试错

V1.1 既把核心任务的绝对性能提上去了,比如数学、Agent 调用的慢思考得分肉眼可见地涨,又把快、慢思考的分工磨得更贴合实际需求,快思考能顶起日常交互的效率,慢思考能扛住复杂推理的精度,甚至幻觉率这种线上运维的老大难都压到了 3% 级

强化学习闭环:从数据甄选到模型优化

Pangu Ultra MoE 强化学习训练系统是闭环流程:先由 Pangu - Preserver M1甄别挖掘数据,供 RL 训练用;RL 训练时靠 GPOP 方法训 Pangu - Reasoner MRL,多维度奖励系统给反馈优化模型;训练后模型信息反哺数据环节,推动系统迭代,提升模型性能。

简单来说,Pangu Ultra MoE 强化学习训练系统,就是先挑出优质数据打底,再用专门方法训练核心模型,同时靠多维度反馈帮模型找问题、做优化,最后把优化后的经验反哺回数据挑选环节,形成 “选数据→训模型→改问题→优数据” 的循环,不断提升模型能力。

盘古 Pro MoE 架构:稀疏专家的性能进化

盘古 Pro MoE 模型基于专家组混合架构,把专家分组,选高分专家参与计算,参数量 720 亿且输入标记激活 160 亿参数。经多维度调优适配昇腾平台,推理性能好,低并发延迟低、高并发吞吐量高。还依托海量语料库和昇腾芯片预训练,经 SFT、RL 优化后,总参数量不足千亿,在权威测试中超过 GLM - Z1 - 32B 等主流开源模型。

专家激活率分析:稳定性与能效的关键指标

  • 深海探针 V2 - 16BA3B Pangu:专家活动率波动极大存在多个峰值,最高接近 30%,但多数时候处于较低水平,大幅波动意味着模型在不同专家调用上缺乏稳定性,可能导致计算资源分配不均衡,影响能效与推理的一致性
  • Pro MoE - 72BA16B:专家活动率相对平稳,整体维持在 10% - 15% 左右,平稳的专家激活率表明模型能更均衡、稳定地调用专家资源,有助于提升能效,让模型在运行时更高效且表现稳定

总结

盘古Ultra-MoE-718B-V1.1的开源让我们开发者眼前一亮,用仅39亿激活参数就干出了千亿模型的活儿,MMLU、C-Eval等关键测试成绩都很能打,最实用的是快慢思考双模式,日常对话用快思考够快,复杂任务切慢思考够准,幻觉率还压到了3.85%,加上Int8量化让显存直接减半,普通开发者团队显卡也能跑得动,这波开源确实让千亿模型从看得起变成了用得起。

GitCode 开源体验地址:

👉openPangu-Ultra-MoE-718B-V1.1【点击体验】:https://ai.gitcode.***/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1

👉openPangu-Ultra-MoE-718B-V1.1-Int8【点击体验】:https://gitcode.***/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1-Int8

转载请说明出处内容投诉
CSS教程网 » 华为盘古 Ultra-MoE-718B-V1.1 正式开源:Pangu 超大稀疏架构的价值解码与技术剖析

发表评论

欢迎 访客 发表评论

一个令你着迷的主题!

查看演示 官网购买