半导体历史上,每一次计算范式的转移都会重新洗牌供应商格局。PC时代,Intel凭借x86架构主宰了二十年;移动互联网时代,ARM的IP授权模式让高通、联发科崛起;如今,AI推理周期正在形成第三次洗牌的压力。

但这一次,战场比以往更复杂。2026年,全球AI推理算力支出预计超过400亿美元[1],竞争的核心指标已从训练阶段的"FP16峰值算力"转向推理阶段的两个关键数字:每token成本(TCO/token)和首token延迟(TTFT)。这两个指标决定了一个推理集群能否商业化盈利,也决定了用户体验的上限。

2026年AI推理芯片市场份额估算 NVIDIA H200/B200 ~72% AMD MI300X ~15% Groq LPU ~5% 国产替代(昇腾/海光)~6% 其他 ~2% 来源:Bernstein Research,Epoch AI,市场估算(2026Q1)
注:国产替代份额主要为中国境内市场,全球口径占比更低。

NVIDIA:推理市场的默认锚点

NVIDIA在AI推理市场的主导地位,并非仅靠硬件本身。H200系统(80GB HBM3e,3.35 TB/s内存带宽)在MLPerf Inference 4.1基准测试中,Llama 3 70B单卡吞吐量约为5,200 tokens/秒[2],而B200(192GB HBM3e)在多节点推理集群中将此数字进一步拉高40%以上。

真正的护城河是软件层。TensorRT-LLM已集成PagedAttention、连续批处理(Continuous Batching)和FP8量化,在相同硬件上可将吞吐量提升2-3倍[3]。云厂商AWS、Google Cloud、Azure均以NVIDIA GPU作为一级推理产品,迁移成本构成了对替代品的天然隔离。

H200的租赁价格约为$2.50-3.20/GPU·小时(AWS p5.48xlarge实例基准),B200系统在规模采购下约为$4.50-5.50/小时。Bernstein Research估算,在70B规模LLM推理场景,H200集群的全量TCO约为$0.0008-0.0015/token[4],是当前业界的成本基准线。

AMD MI300X:内存容量是切入点

AMD MI300X的差异化在于192GB HBM3e显存——这是H200的2.4倍。对于参数量超过70B的模型,单卡即可完整加载权重而无需张量并行,节省了节点间通信开销,这在特定负载下使TCO降低10-20%[5]

个人观察:MI300X的真实障碍不是算力,而是ROCm软件栈的成熟度。大量CUDA优化的推理框架(vLLM、TGI)在MI300X上需要额外适配,这种隐性工程成本往往不在公开的TCO对比中体现。Meta和微软已宣布部分推理工作负载切换至MI300X[6],但更多云厂商仍在观望ROCm生态的完善进度。

拉长视野看,AMD MI400(预计2026年底)采用HBM4,若ROCm生态同步成熟,将是对NVIDIA B200最直接的挑战。AMD约15%的推理份额在未来12个月内有望突破20%,但取决于软件生态而非芯片本身。

Groq LPU:用确定性换场景

Groq不试图在总算力上超越NVIDIA,而是在一个NVIDIA无法原生解决的问题上做到极致:确定性延迟。Groq LPU(语言处理单元)基于静态数据流架构,没有传统GPU的运行时调度和内存分配开销,在Llama 3 8B推理上实现了平均首token延迟约180ms、持续生成速度超过500 tokens/秒[7],延迟标准差接近于零。

Groq API公开定价约$0.10/百万tokens(Llama 3 8B),较同等配置的GPU API方案低30-50%,且延迟SLA可以保证[8]。这使其在实时对话、代码补全、客服机器人等对TTFT敏感的场景具有不可替代性。

局限同样清晰:Groq LPU的片上SRAM容量有限,超过700B参数的模型无法在单芯片高效部署,规模化仍依赖多芯片互联,成本优势随模型规模缩小。Groq的定位是"推理利基市场的最优解",而非全场景替代者。

Cerebras WSE:极端场景的垂直工具

Cerebras WSE-3(晶圆级引擎)的参数令人印象深刻:900,000个AI核心,44GB片上SRAM,内存带宽高达20 PB/s[9]。但其定位与市场主流推理工作负载几乎没有重叠——单套系统定价超过300万美元,主要服务国家实验室、大型制药公司的科学计算和超大batch训练场景。

真正的问题不在于Cerebras的硬件能力,而在于其商业模型与推理市场碎片化趋势的匹配度。推理场景需要弹性扩展、低起步成本和生态兼容——这三点Cerebras都不擅长。WSE更像是一台"科研仪器"而非"推理基础设施"。

国产替代:政策壁垒内的快速扩张

出口管制(BIS Entity List更新、H800禁令延伸)重塑了中国AI算力市场的供应侧。华为昇腾910C(INT8算力约780 TOPS)已在阿里云、腾讯云、百度智能云实现规模化部署,支持主流Transformer架构的推理,但在FP16精度和内存带宽上仍落后于H800约30-40%[10]

海光DHX系列(基于AMD Zen架构的国产CPU/DCU双线产品)的核心优势是兼容性:DCU支持ROCm,部分CUDA代码可低成本迁移。2026年海光DHX 2号(据报道算力较DHX 1号提升约60%)若顺利量产,将成为国内非华为生态的首选替代[11]

国内推理市场的格局与全球不同:昇腾+海光合计份额在中国境内市场已接近40%,但这一份额高度依赖政策环境而非技术竞争力,软件生态与NVIDIA的差距在短期内难以弥合。

TCO与延迟横向对比

芯片/平台 代表型号 HBM容量 推理吞吐(70B模型) 首token延迟(TTFT) TCO估算(/M tokens) 适用场景
NVIDIA H200 SXM5 80GB 80GB HBM3e ~5,200 tok/s 200-400ms $0.80-1.50 通用推理,主流云部署
NVIDIA B200 SXM6 192GB 192GB HBM3e ~7,500+ tok/s 150-300ms $1.20-2.00 旗舰推理,大模型单卡部署
AMD MI300X 192GB 192GB HBM3e ~4,800 tok/s 220-450ms $0.65-1.20 大显存模型,TCO敏感部署
Groq LPU GroqCloud API 44GB SRAM(片上) 500+ tok/s(确定性) <180ms(确定性) $0.10(API,8B模型) 实时对话,低延迟streaming
Cerebras WSE-3 晶圆级系统 44GB 片上SRAM 极高(批量训练/推理) 极低(批内) N/A(系统定价>$3M) 科研/超大batch,垂直场景
华为昇腾910C Atlas 800T A2 64GB HBM2e ~2,800 tok/s(估算) 350-600ms 受政策保护,国内竞争价 国内政策合规推理部署
海光DHX系列 DHX 1号/2号 32-64GB HBM ~2,000-3,500 tok/s(估算) 400-700ms 国内定价,参考H800档位 CUDA兼容迁移,x86生态

注:吞吐量数据参考MLPerf Inference 4.1基准及各厂商白皮书,实际值因模型量化精度、batch size和集群配置差异较大。TCO含硬件折旧、电力、运维,不含网络和存储。

洞察:碎片化是常态,但NVIDIA的底线未变

推理市场的碎片化将持续——这不是一个预测,而是一个结构性结论。不同的延迟要求、模型规模、成本约束和合规环境,天然催生了对多种芯片方案的需求。Groq在实时streaming场景的优势,MI300X在大显存部署的TCO优势,以及国产替代在中国市场的政策优势,都会在各自生态位内稳定存在。

但NVIDIA的软件护城河(CUDA、TensorRT-LLM、NIM微服务)决定了一个底线:替代者可以在利基场景赢,但无法在通用市场威胁NVIDIA的定价权。这与2015年前后Intel面临AMD Ryzen冲击的格局不同——彼时软件对硬件的绑定没有今天这样深。

对投资者而言,关注点应从"NVIDIA份额是否下滑"转向"推理市场总盘子的扩张速度"。若2026-2027年全球推理支出从400亿美元增长至700-800亿美元,NVIDIA即便份额从75%降至65%,绝对营收仍在增长,这是估值逻辑的核心支撑。

数据来源:Epoch AI《Trends in Machine Learning Hardware》(2025年报告)、MLPerf Inference v4.1基准公开数据、Bernstein Research《AI Infrastructure 2026》研究报告、各公司官方白皮书及公开定价页面。国产芯片算力数据部分为行业估算,实际性能因软件优化程度差异较大。本文不构成投资建议。

FAQ:常见问题

2026年AI推理芯片市场NVIDIA占多少份额?

据Bernstein Research及MLPerf Inference基准数据,NVIDIA在AI推理芯片市场约占70-75%份额,H200和B200系统是主流部署选择。AMD MI300X约占15%,其余由Groq、Cerebras及国产芯片分割。

Groq LPU和传统GPU推理有什么本质区别?

Groq LPU采用确定性执行架构,没有传统GPU的DRAM内存墙问题,在token streaming场景下可实现低于180ms的确定性延迟。GPU推理延迟受batch size和内存带宽影响较大,而Groq的延迟几乎与负载无关,特别适合对话型AI应用。

H200与MI300X的TCO谁更低?

在大语言模型推理场景,MI300X凭借192GB HBM3E显存可在单卡部署更大模型,特定场景下TCO低于H200约10-20%。但NVIDIA的TensorRT-LLM优化成熟度和生态完整性仍是MI300X难以复制的隐性成本优势。

国内AI推理芯片替代进展如何?

华为昇腾910C在国内云厂商均有规模部署,在不依赖CUDA生态的场景下已能完成主流Transformer模型推理。海光DHX系列兼容x86架构和ROCm接口,迁移成本较低,是国内数据中心替代的第一梯队选择。两者在出口管制环境下份额持续扩大。

Cerebras WSE适合什么场景?

Cerebras WSE-3拥有900,000个AI核心和44GB片上SRAM,擅长超大batch训练和需要极高吞吐量的推理任务,但单位成本极高(系统定价远超百万美元),主要面向国家级实验室、大型制药公司等对成本不敏感的垂直场景。


By m8 康哥. AI驱动的全球股票资讯与量化分析平台,覆盖美股/A股/港股/加密货币。

数据来源

  1. Epoch AI, Trends in Machine Learning Hardware, 2025年度报告
  2. MLPerf Inference v4.1, NVIDIA H200 SXM5 80GB结果,mlcommons.org
  3. NVIDIA TensorRT-LLM 官方文档,github.com/NVIDIA/TensorRT-LLM
  4. Bernstein Research, AI Infrastructure 2026: TCO Analysis,2026年3月
  5. AMD, MI300X Architecture White Paper, 2024年,amd.com
  6. Meta AI Engineering Blog, Deploying Llama on MI300X,2025年12月
  7. Groq, LPU Inference Engine: Architecture and Benchmarks,官方技术白皮书,groq.com
  8. Groq API公开定价页面,console.groq.com,2026年5月核查
  9. Cerebras Systems, WSE-3 Technical Specificationscerebras.ai
  10. 华为技术有限公司,昇腾910C产品规格书,MindSpore官方文档,2025年
  11. 海光信息2025年年报,公司官方技术路线披露

免责声明:本文所有内容仅供参考,不构成任何投资建议或买卖推荐。芯片性能数据来自公开基准测试及厂商白皮书,实际部署结果因工作负载、配置和软件版本差异可能显著不同。市场份额数据为分析师估算,非官方统计。投资有风险,入市需谨慎。M8买吧不对据此操作产生的任何损失承担责任。