一个标志性时间节点
2024年10月,美国商务部对华AI芯片出口管制的刀刃再度落下——H20芯片被列入受限清单。这并非突然,而是自2022年10月首轮管制(H100/A100被限)、2023年修订(H800/A800被限)以来,一条清晰的收紧轨迹上的第三刀。
拉长视野看,每一轮管制都逼迫国内云厂商和AI公司重新评估算力结构。H20的被限意义尤为特殊——它原本是英伟达专门为中国市场"阉割合规"的过渡产品,却也在2023-2024年间成为国内推理算力的主力来源之一。它的消失,直接打开了一个国产替代的窗口期。
问题随之而来:谁有能力接住这个窗口?
国产推理芯片的三档梯队
把市场上的国产推理芯片按算力水位和生态成熟度分层,大致呈现出三档结构。
| 梯队 | 代表产品 | 厂商 | 定位 | 上市状态 |
|---|---|---|---|---|
| 一档(接近H20) | MLU590 | 寒武纪(688256) | 数据中心推理/训练通用 | A股科创板上市 |
| 一档(接近H20) | DCU Z100L | 海光信息(688041) | x86兼容,数据中心 | A股科创板上市 |
| 二档(中低端推理) | 邃思2号 | 燧原科技 | 推理专用,低延迟 | 非上市 |
| 二档(中低端推理) | 曦云C500 | 沐曦 | GPU架构,生态兼容 | 非上市 |
| 二档(中低端推理) | MUSA S4000 | 摩尔线程 | 桌面+推理服务器 | 非上市 |
| 车端专用 | Journey 6 | 地平线 | 自动驾驶端侧推理 | 港股上市 |
| 车端专用 | A2000 | 黑芝麻智能 | 智能驾驶域控 | 港股上市 |
一档的判定标准是FP16算力与H20的距离:寒武纪MLU590的FP16算力约64 TFLOPS,海光Z100L约48 TFLOPS,H20为74 TFLOPS,差距在15%-35%之间。这个区间在工程上是可以通过软件优化和集群扩容部分弥补的。
二档产品并非一无是处。燧原邃思2号针对推理场景做了专项优化,在批量推理吞吐量上有自己的优势区间;沐曦和摩尔线程的路线更接近"软件生态优先"——先让CUDA程序跑起来,算力差距后期再追。
车端芯片(地平线、黑芝麻)是另一个赛道,解决的是"端侧低功耗推理"问题,与数据中心推理逻辑不同,此处不做混淆。
昇腾的特殊坐标
讨论国产推理芯片,无法绕开华为昇腾。
昇腾910C目前是国内算力天花板——训练和推理都覆盖,FP16算力估算在320 TFLOPS级别(基于官方BFLOAT16参数推算),显著高于其他国产选手。但它有两个核心约束:一是供给瓶颈,受制于中芯国际7nm工艺良率,批量交付能力有限;二是生态封闭性,CANN算子库与CUDA体系差异极大,迁移成本高,软件层的"补课"仍在进行中。
回到一个更大的框架来看:昇腾在这个格局里扮演的是"国产天花板标杆"的角色,而非普适替代方案。它的存在证明了国产芯片的上限,但它无法独自承接所有场景。这正是寒武纪、海光、燧原存在的市场空间所在。
市场上的现实分工大致是:昇腾910系列主供大型国有云、央企、科研院所等对供应链可控性要求最高的客户;寒武纪和海光则面向对算力性价比和软件生态有更高要求的互联网大厂;二档产品和边缘推理方案面向中小云或垂直行业部署。
为什么推理比训练更容易国产化
这是理解整个格局的核心逻辑,值得单独拆解。
训练阶段对芯片有三重高要求:第一,算子精度,训练需要大量定制算子,CUDA生态积累了十余年;第二,通信带宽,大模型训练依赖NVLink/InfiniBand等高速互联,国产替代方案还在追赶;第三,生态依赖,PyTorch/JAX对CUDA的适配深度远超其他平台,迁移一套训练框架的工程成本极高。
推理阶段则不同。模型权重已固定,部署阶段的核心任务是:量化压缩(INT8/FP8)、批量请求调度、KV Cache管理。这些能力的实现更多依赖推理引擎层(如vLLM的开源替代),而非底层算子精度。国产芯片厂商可以针对主流LLM的推理路径做专项适配,而不需要覆盖训练的全算子集。
数据也印证这一判断:目前国内主流大模型的推理服务(如文心、通义的在线API),已有部分工作负载迁移到国产芯片,而训练集群仍以NVIDIA为主,国产化比例低得多。
云厂商的双轨采购策略
字节、阿里、百度等头部云厂商,当前采用的是一种务实的"双轨制"架构:NVIDIA H20库存(在被限之前囤积的存量)+ 国产芯片混合部署。
逻辑并不复杂。NVIDIA芯片用于对吞吐量和延迟要求最严苛的旗舰推理服务;国产芯片承接对延迟容忍度更高的批量推理任务、内容审核、向量检索等辅助负载。这种分层部署,既最大化了已有NVIDIA算力的使用效率,又为国产芯片提供了真实的生产环境磨合机会。
据市场机构估算,头部云厂商推理集群中国产芯片占比,已从2023年的不足10%逐步上升至20%-30%区间。这个数字仍在走高,但速度取决于两个变量:一是国产推理引擎与主流模型的适配进度,二是NVIDIA存量芯片的消耗速度。
一个值得关注的细节:字节跳动在抖音推荐系统的部分推理负载上,已经使用了寒武纪MLU系列,这是产品级规模验证,而非试验性部署。
上市标的分析:寒武纪与海光的不同命题
在国产推理芯片赛道,A股只有两个可交易的纯正标的:寒武纪(688256)和海光信息(688041)。
寒武纪的投资命题,本质上是"国产推理芯片从0到规模"的早期布局。公司连续多年亏损,2024年营收约15亿元,研发支出占比高。支撑其估值的,是对未来推理需求爆发的预期折现,而非当期盈利。它的风险点在于:出货量的兑现进度、大客户集中度(华为系采购占比过高的历史问题)、以及与昇腾在部分场景的直接竞争。
海光信息的命题不同。它基于AMD Zen/GCN授权的x86/GPU架构,客户群体更偏向传统企业和金融机构,这些客户对CUDA兼容性的诉求高于对算力极致性能的追求。海光的营收规模和盈利状况均优于寒武纪,但其核心IP依赖外部授权的架构风险是长期隐患。
两者不是零和竞争关系——它们面向的客户决策路径有差异。寒武纪更多出现在互联网大厂的推理采购单中,海光更多进入国有企业和政务云的算力清单。
燧原、沐曦、摩尔线程目前均未上市,没有二级市场直接投资路径,但它们的融资进展和客户落地情况,是观察国产推理市场竞争格局演化的重要先行指标。
前瞻:两个关键观察维度
未来12-18个月,有两个变量值得持续跟踪。
第一个是软件生态的闭环速度。国产推理芯片的硬件差距正在收窄,但软件层的差距——算子覆盖率、推理引擎稳定性、开发者工具链——才是真正决定规模化采购意愿的因素。寒武纪的CNToolkit、海光的DTK、燧原的TopsRider,这些软件栈的成熟度是观察国产替代能走多深的核心指标。
第二个是出口管制的进一步演化。如果美国对算力互联设备(如InfiniBand网卡、高速交换机)追加限制,训练集群的国产化压力将骤然上升,那会是一个比推理替代难得多的命题,也会重塑整个产业的优先级排序。
国产推理芯片的替代,不是"能不能用"的问题——它已经在用了。真正的问题是:在什么场景下,国产方案能做到性价比足够有竞争力,让云厂商在不受行政压力的情况下主动选择?这个临界点正在靠近,但还未到达。
数据来源:美国商务部出口管制修订公告(2022年10月、2023年10月、2024年10月);寒武纪2024年年报;海光信息2024年年报;市场机构算力跟踪报告(IDC、芯谋研究);各芯片厂商官方技术规格文档。
站内延伸阅读
如果要把这篇文章放回 m8 的研究框架,可以继续沿着以下入口阅读:
常见问题
这篇文章属于 m8 的哪个研究入口?
这篇文章归入 AI产业链 主线,建议先从 AI产业链栏目 进入,再结合研究目录里的相邻专题一起看。
读完这篇后,下一步应该看什么?
优先继续看 AI产业链文章列表、AI产业链研究中心、GPU / 算力平台。这些入口能把单篇内容放回市场、行业和方法论框架里。
后续最需要跟踪哪些变量?
后续重点跟踪:AI capex、GPU/HBM/先进封装供给、服务器交付、软件变现和产业链利润分配是否兑现。
这篇内容可以直接当作投资建议吗?
不可以。m8 的文章用于整理公开信息、研究框架和风险变量,不构成个股买卖建议,也不替代个人的仓位管理和风险评估。
m8 会如何更新这类主题?
如果后续出现财报、政策、订单、资金流或估值假设的关键变化,m8 会在对应栏目和专题页继续补充更新,并通过内链把新旧文章串起来。