> 自媒体 > (AI)人工智能 > 推理性能PK,华为+DeepSeek \u0026gt;英伟达?
推理性能PK,华为+DeepSeek \u0026gt;英伟达?
来源:虎嗅APP
2025-09-03 07:58:29
82
管理

针对 Atlas 800I A2 服务器,由于每个节点包含 8 张昇腾芯片,我们需要采用多节点互联的方式来进行部署。综合考虑模型吞吐和部署灵活性,我们选定使用 2 节点 16 卡作为一个Prefill 实例,4 节点 32 卡作为一个 Decode 实例。为了部署时尽可能灵活,这里选用的卡数较少,这使得整个系统采用较小规模的 EP 并行策略:每张卡上部署 8(Decode)/16(Prefill)个路由专家和 1 个共享专家。在 Decode 阶段,MLA 部分采用 DP 并行策略,通信方式采用AllGather/ReduceScatter 方案。这种部署方式可以在卡数较少的情况下依然达到相当可观的吞吐。值得一提的是,在真实负载下, AllGather/ReduceScatter 通信方案比 Dispatch/Combine 通信方案具有更好的性能表现。综合上述优化方案,我们实现了在 100ms 时延下单卡吞吐达到 723∼808Tokens/s。

推理框架侧优化技术

1. API Server 扩展技术

团队提出了API Server 扩展技术,通过支持API Server 水平扩容策略,可以有效提升框架请求处理能力,降低用户请求延迟,提高系统吞吐量(QPS)。结合包括组网方案优化和全并行、全异步前后处理,可进一步实现最佳TTFT,提升推理服务的可用性与处理效率

2. MoE模型负载均衡

团队提出了一种高效的负载均衡策略,通过动态负载均衡,热专家冗余部署,实时调度和动态监控等核心技术,显著提升MoE模型推理性能。

FusionSpec推理投机加速技术

在实际应用中,投机推理技术更多聚焦于小批量(batch)低时延场景,如何将其高效应用于高吞吐量场景并实现性能收益最大化,成为当前亟待攻克的技术难题。

投机推理在模型解码阶段的高计算密度,天然匹配昇腾高计算带宽比的特点。为了能够充分发挥昇腾算力大的优势,在低时延大并发场景下实现高吞吐,团队提出了投机推理引擎FusionSpec 深度优化MTP 在昇腾上的推理性能:

● 流程拼接:在推理流程上,将投机模型置于主体模型之后,直接使用主体模型的输出,并复用主体的控制参数,大幅减少了框架耗时,适配PD 分离的部署场景。

● 轻量步间准备:在投机场景中针对框架与算子优化,实现了轻量步间准备,适配多核并行全异步框架,降低端到端时延。

模型侧性能优化技术

1. 模型侧通信优化

● FlashComm :主流张量并行(TP) 中使用AllReduce 进行通信的方案存在通信次数多,通信数据量大等问题,且AllReduce 之后的残差连接和归一化计算存在计算冗余,没有充分利用多卡并行能力。为此团队提出了FlashComm 网络通信方案:在 Prefill 阶段针对DeepSeek V3 网络 MLA 层前后的 AllReduce 通信,基于相同的集合通信逻辑将张量并行中的AllReduce 通信算子进行替换,并对通信算子在网络中位置进行编排,实现了低比特和低维度数据通信,从而有效降低了通信数据量和通信时延,并消除了网络中存在的冗余计算。FlashComm 技术应用于 DeepSeek V3 模型 Prefill 阶段,降低 25% 的通信量,提升 10%的推理性能。

● 层内并行转换技术:在FlashComm 的基础上,为进一步优化通信算子的时延,团队提出层内并行转换的优化方案:针对Prefill 阶段网络MLA 层的节点内通信重新设计了单层内使用的并行策略,灵活做到张量并行(TP)与数据并行(DP)的转化,消除节点内卡间求和的需求,且充分利用网络中低数据维度和量化特性实现节点间通信量的大幅降低,从而显著优化了通信时延。这一技术术应用于 DeepSeek V3/R1 模型 Prefill 阶段,降低 71%的节点内通信量,提升 10% 以上的推理性能。

2. 模型侧并发优化

● 计算通信并发:昇腾芯片提供了计算和通信的并发机制。MoE 层的计算过程中需要使用AllGather 汇聚各张卡上的Token 的特征进行激活专家的筛选和计算。方案中,对于Gating函数使用先计算后通信的方法,对共享专家使用DP部署,从而保证了Gate 函数的计算和通信、共享专家的计算,以及特征汇聚的AllGather 函数之间没有依赖关系。团队利用昇腾的多流机制,将这三部分进行并发处理,从而最大化推理模型的性能。此技术在 DeepSeek V3模型的大并发场景下可以实现 Decode 性能提升 15%。

● 通信通信并发:昇腾芯片也提供了通信和通信并发的机制。当通信带宽利用率比较低的时候,可以把两个通信算子并发起来以掩盖通信算子的启动开销,同时提高通信带宽的利用率。DeepSeek V3模型在进行AllGather 等通信时,可以将Norm 算子和量化算子移到AllGather 通信的前面,从而降低通信的数据量,进而提高通信的效率。但是由于量化算子的前移,需分别通信量化后的激活值和scale,进而增大了通信算子启动开销。由于量化scale 的数据量较小,对带宽的占用较低,因此团队采用通信通信并发的机制,将通信激活值和通信量化scale 并发起来,在不增加激活值通信开销的前提下,掩盖掉量化scale 的通信代价。

● 通信和权重预取的并发:昇腾芯片提供了缓存机制,算子在进行计算时,会优先从缓存中寻找数据,如果命中,则直接从缓存中读取数据,否则从HBM 中读取数据,而缓存的带宽是HBM 带宽的数倍。由于通信算子进行过程中HBM 带宽占用率较低,在通信算子进行过程中可以将后续算子需要的权重提前预取到缓存中,从而降低后续算子计算过程中的权重搬运开销。同时昇腾芯片支持灵活限定预取带宽,因此在通信过程中预取对通信性能影响很小。对于DeepSeek 模型,在MoE 模块末尾的ReduceScatter 预取MLA 中权重矩阵和KV cache,可以提升MLA 部分约10%计算性能。

昇腾亲和的创新算子

1. MLA 算子优化

Attention 算子:MLA 相较于传统的Attention 算子(如MHA, GQA 类显著带宽瓶颈的算子),由于其中间变量膨胀且计算量显著增加,为算子优化带来了新的挑战。针对昇腾处理器的架构特性,团队对MLA 场景的FA 算子进行了算法重构以及硬件亲和的性能优化。

• 提出AMLA(Ascend MLA)算法,通过二进制编码解析及存内计算,实现乘性计算的加性等价转换,从而实现直接在Global Memory 上更新O 的步骤,无须进入Vector core,大幅降低中间变量的重复搬运。

• 对L1 缓存进行了细致规划,尽可能地减少数据重复搬入搬出的过程。

• 在工程实现方面,通过优化计算流程提高L2 cache 命中率,并且利用K-buffer 流水排布等策略,实现Cube 计算和Vector 计算互相掩盖,提高了算子整体性能。

上述优化方案提升 Attention 算子性能接近 1 倍,非 MTP 场景算力利用率达到 55%,使用一个 MTP 模块场景算力利用率达到 60%。

MLA 前序算子:针对复杂的MLA 前序算子,分别在Prefill 阶段和Decode 阶段采取了不同的优化策略:

• 在Prefill 阶段,通过双流并发等技术实现了流水掩盖,同时增加了FA 算子对多种输入输出模式的支持以消除纯访存类冗余算子。

• 在Decode 阶段,团队采用权重吸收,同时将前序算子深度融合为MLAProlog 算子,并且针对昇腾硬件架构进行了全方位的深度优化。

具体优化措施包括:采用权重预取减少流水线空泡;基于最小化搬运以及最大化带宽的tiling 策略;通过计算解耦降低指令依赖与等待;利用局部计算融合消除全核同步开销;运用昇腾定制指令集实现ICache 压缩,规避issue queue 阻塞风险等。

通过上述优化方案,MLAProlog 算子性能提升 30%以上。

2. MOE 算子优化

Dispatch/Combine 通算融合算子:在EP 部署模式中,MoE 中的专家分布在较大的通信域的各个卡上,每个Token 需要分发到对应的卡上进行计算,原始的实现方式使用InitialRouting 根据专家排序对所有Token 进行重排,再用AllToAll 以及AllToAllv通信算子进行交换token。该实现方式在通信域比较大的场景下,存在通信次数多、卡间同步开销严重等问题,阻碍了整网端到端时延的提升。因此团队提出MoeDistributeDispatch 和MoeDistributeCombine 两个通算融合算子技术:将计算和传输拆解为Token 粒度的计算单位,通过流水排布实现通信和计算的并行执行;同时利用内存语义的通信技术直接向不同卡上的共享内存传输数据,从而减少了本地拷贝和等待数据的开销;团队还通过本地内存筛选和拷贝的机制,减少了数据传输次数和卡间同步开销。

SMTurbo-CPP 算子:针对MOE 层大通信域场景下,小数据量传输效率低的问题,团队提出SMTurbo-Concurrent Push and Pull (SMTurbo-CPP)技术:在内存语义级别对通信算子AllToAll(v) 进行优化,充分利用硬件并发能力,使用读写混合、聚合流水、批量检测等技术,提升了线程的访存效率与吞吐,显著降低Dispatch 和Combine 场景通信算子的时延。

细粒度分级流水算法:基于Atlas A2 系列产品,HCCL 支持细粒度的分级流水算法,可大幅提升集群中Allgather、ReduceScatter、AlltoAll 等集合通信算子的执行效率。该算法利用A2 组网的特性,实现了节点内/节点间的并发执行,以提高带宽利用率。

在2025 年4 月,硅基流动联合华为云基于CloudMatrix 384 超节点昇腾云服务和高性能推理框架SiliconLLM,用大规模专家并行最佳实践正式上线DeepSeek-R1。该服务在保证单用户20 TPS 水平前提下,单卡Decode 吞吐突破1920 Tokens/s,可比肩H100 部署性能。同时,经过主流测试集验证及大规模线上盲测,在昇腾算力部署DeepSeek-R1 的模型精度与DeepSeek 官方保持一致。

写在最后

在大模型产业加速落地的关键节点,华为玩了波“硬核操作“—— 用“数学补物理的创新思路”硬刚硬件瓶颈,拿通算融合玩转集群调度,靠算子重构榨干芯片性能。这场全链路技术优化不仅实现了超大规模模型在国产硬件上的高效部署,更以开源共享的姿态激活了本土 AI 生态的协同创新活力。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4367996.html?f=jinritoutiao

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
冰冷的开会..(普通会员)
文章
1634
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索