出口管制重画了一条线

2019年以前,中国AI算力市场的格局用一句话概括:NVIDIA独大,其他人分食边缘。这不是一个正在发生变化的市场,而是一个已经被技术护城河和生态壁垒锁死的市场。CUDA积累了超过十五年的开发者惯性,这种惯性不是靠堆算力可以打破的。

真正改变这条线的,是美国商务部BIS的出口管制。2023年10月,H100和A100被正式列入出口限制名单,英伟达随即推出专门针对中国市场削减互联带宽的H800和A800版本作为替代。这被外界称为合规版,但本质上是规则博弈的产物。不到一年后,2024年10月,H800也被追加进管制清单。中国AI算力市场正式进入无新增NVIDIA高端卡可用的新阶段。

问题不在于中国能不能买到NVIDIA,而在于谁来填补这个算力缺口。答案只有一个候选人被大规模提及:华为昇腾。


纸面算力:910C的账面优势

在规格层面,昇腾910C的时机选择并不差。基于多芯片封装(MCM)架构,910C的BF16峰值算力约达512 TFLOPS,高于H800的400 TFLOPS,也远超为中国市场设计的H20(约148 TFLOPS BF16)。下表是三款芯片的关键规格对比:

指标 华为昇腾 910C NVIDIA H800 NVIDIA H20
BF16 峰值算力 ~512 TFLOPS ~400 TFLOPS ~148 TFLOPS
HBM 容量 ~96 GB(估算) 80 GB HBM3 96 GB HBM3
互联带宽 华为 HCCS(集群带宽受限) NVLink 4.0(900 GB/s) NVLink 4.0(900 GB/s)
软件生态 CANN(覆盖主流算子) CUDA(完整生态) CUDA(完整生态)
可购状态(中国大陆) 国内可采购 2024年10月起受管制 仍可采购(低端)

从账面数字来看,910C在BF16算力上已经具备对H800的优势。但峰值算力是一个实验室指标,而不是训练效率的直接等价物。真正决定大模型训练速度的,是内存带宽(决定权重搬运速度)、互联拓扑(决定多卡并行效率)以及算子编译优化(决定算力利用率)三者的乘积。

在互联层面,NVIDIA的NVLink 4.0提供卡间900 GB/s的双向带宽,配合NVSwitch可实现机柜内全互联;华为的HCCS(Huawei Cache Coherence System)在小规模集群(8卡机内)表现尚可,但跨机互联带宽和延迟仍是公认的短板。随着模型参数量向千亿量级攀升,跨机通信成本的差距会被放大。


国内大厂的真实部署:1-3万卡的验证性替代

字节跳动、阿里云、百度是目前公开信息中昇腾910B集群部署规模最大的三家。根据行业渠道和媒体报道,单家部署规模约在1万至3万卡量级——这是一个不可忽视的数字,但也是一个尚未触及全面替代的规模。

过去三年我看到的最大变化是,国内大厂对昇腾的态度从合规备选变成了双轨并行。昇腾集群被定向用于推理侧的部分工作负载、政府客户的合规要求,以及训练侧的国内监管场景;而存量NVIDIA硬件(通过历史采购积累)仍然在支撑核心大模型训练。字节跳动的豆包、阿里的通义千问、百度的文心,其主要训练底座在工程师访谈中并未显示出已完全切换至昇腾的证据。

这不是一个昇腾失败的结论,而是一个替代需要时间的现实叙述。2022年至2024年间,大厂在NVIDIA卡上已积累了大量的训练框架和工程优化;切换到昇腾不仅是换芯片,而是要重写或适配整套MLOps工具链。这个迁移成本远比账面算力差距更难量化,也更难下决心。


CANN vs CUDA:生态差距是真正的摩擦成本

CUDA的护城河本质上不是代码,而是习惯。全球数十万AI研究者和工程师在CUDA上写了十余年的代码,积累的算子库、调试经验和教学资源,形成了一种结构性的路径依赖。昇腾的CANN(Compute Architecture for Neural Networks)在近两年的进化速度并不慢,但起跑晚了一代。

CANN与CUDA的差距主要体现在三个层面。第一是算子覆盖率:主流Transformer和MoE架构的核心算子CANN已基本支持,但长尾自定义算子(尤其是科研场景)仍需手动移植,迁移一个新模型架构的工程成本在数周到数月之间。第二是调试工具链:NVIDIA的Nsight Systems和Nsight Compute经过多轮迭代,可以精准定位集群中的通信瓶颈和算力利用率热点;CANN的对应工具在可视化和诊断深度上明显不足,导致工程师在调优时缺乏有效的反馈回路。第三是开源框架集成:PyTorch对CUDA的原生支持从Tensor Core级别开始,昇腾的PyTorch适配层(torch_npu)仍处于追赶状态,部分前沿算法在昇腾上落地需要额外的适配周期。

真正的问题不在于CANN能不能支持某个模型,而在于工程师在遇到问题时能不能快速定位和解决。这个调试体验的差距才是大规模迁移的最大阻力。华为在2025年大幅增加了CANN的开发者支持资源,据悉还为部分大厂客户提供了专属工程师驻场服务,这是一个正在被填补的差距,但短期内不会消失。


A股算力链:两条不同的受益逻辑

NVIDIA链和昇腾链在A股的对应标的并不完全重合,理解这个差异对于构建组合逻辑至关重要。

NVIDIA链的A股受益者主要集中在高速光模块(中际旭创、新易盛)和高端散热(英维克、申菱环境),逻辑是NVIDIA数据中心建设带动国内配套厂商的订单。但这条链条的核心驱动在海外(微软、谷歌、亚马逊的资本开支),中国出口管制对它的影响是间接的。

昇腾链则不同。华为Atlas服务器的ODM组装需求流向工业富联和浪潮信息;高速铜连接和PCB的配套需求指向沪电股份和生益科技;而华为昇腾集群的400G/800G光模块互联同样贡献光模块厂商的增量订单。寒武纪在逻辑上与昇腾既竞争又共享国产算力扩张的叙事红利,但其自身规模和商业化进度决定了市值弹性而非产业链位置。

有一点需要特别说明:华为本身是非上市公司,既无A股标的也无港股标的。任何将昇腾崛起等同于可以直接持有华为的逻辑,都是结构性错误。投资者能触及的是产业链层面的间接受益,而非主机厂的利润分配。

回到一个更大的框架:昇腾产业链的估值逻辑目前仍以政策驱动的国产替代为主叙事,尚未到竞争优势驱动的盈利增长阶段。这意味着相关标的的Beta属性强于Alpha属性,政策节奏和大厂采购规模的超预期或不及预期,是这条链条估值波动的最大来源。


前瞻:2026年看什么

拉长视野看,中国AI算力市场的结构性变化已经不可逆。出口管制封住了高端NVIDIA芯片的增量供给,而国内大模型训练的需求仍在增长,这个缺口只能由昇腾来填。问题是填补的速度和质量,而非方向。

2026年有几个观察点值得持续跟踪。其一,910C的量产爬坡速度:MCM封装对良率要求更高,华为受制于先进制程采购限制,自研芯片代工能力的实际产能是一个关键瓶颈变量。其二,CANN的算子覆盖进展:如果主流开源模型架构(Llama、DeepSeek等)能够实现零修改在910C上高效运行,迁移阻力将大幅下降。其三,大厂的采购透明度:字节、阿里、百度的数据中心资本开支中昇腾卡占比,是衡量双轨并行还是全面替代趋势的最直接数据,但目前缺乏公开数据支撑。其四,H20的供给延续性:H20目前仍可向中国出售,是性能有限但生态完整的折中选项,其是否会被追加管制将直接影响大厂的芯片采购决策。

不确定性始终存在。昇腾是否能在2-3年内实现对NVIDIA中高端集群的实质性替代,市场尚无定论。但有一件事已经确定:中国AI算力市场将在相当长的时间内保持双轨结构,而理解两条轨道各自的节奏,才是判断产业链标的机会的前提。


数据来源

  • 华为昇腾官方技术文档(昇腾910B/910C规格)
  • NVIDIA官方数据手册(H800、H20产品页)
  • 美国商务部BIS出口管制公告(2023年10月、2024年10月)
  • 彭博社、财新、36氪对国内大厂昇腾集群部署规模的报道(2024-2025年)
  • 华为CANN官方开发者文档
  • 工业富联、浪潮信息、中际旭创公开财报及投资者交流纪要

常见问题

这篇文章属于 m8 的哪个研究入口?

这篇文章归入 AI产业链 主线,建议先从 AI产业链栏目 进入,再结合研究目录里的相邻专题一起看。

读完这篇后,下一步应该看什么?

优先继续看 AI产业链文章列表AI产业链研究中心GPU / 算力平台。这些入口能把单篇内容放回市场、行业和方法论框架里。

后续最需要跟踪哪些变量?

后续重点跟踪:AI capex、GPU/HBM/先进封装供给、服务器交付、软件变现和产业链利润分配是否兑现。

这篇内容可以直接当作投资建议吗?

不可以。m8 的文章用于整理公开信息、研究框架和风险变量,不构成个股买卖建议,也不替代个人的仓位管理和风险评估。

m8 会如何更新这类主题?

如果后续出现财报、政策、订单、资金流或估值假设的关键变化,m8 会在对应栏目和专题页继续补充更新,并通过内链把新旧文章串起来。