当市场聚焦于“英伟达算力垄断”的讨论时,一个关键事实被忽视:AI算力战场早已分化,训练端的王者正在推理端遭遇前所未有的围堵。真正能撼动英伟达王座的,并非某家芯片公司,而是推理算力场景的多样性与成本敏感性。
逻辑重构:训练与推理的“双轨制”竞争
AI算力分为两大阶段:
训练阶段:如同“教AI学会思考”,需要极致的算力峰值和统一的软件生态。英伟达凭借GPU性能优势与CUDA平台(拥有两千万开发者)构建的生态壁垒,短期内难以被颠覆——毕竟,企业不愿为更换芯片而重构数千万美元的开发成果。
推理阶段:则是“让AI解决问题”,如同大厦建成后的“日常运营”。企业更关注“每块钱能换多少有效算力”,而非单纯追求性能。大模型对话、自动驾驶、电商推荐等场景对低延迟、高并发、低功耗的需求各异,没有任何一款芯片能通吃所有场景。这种特性,恰恰为谷歌、AWS、寒武纪等玩家提供了破局机会。
国际巨头攻势:成本与生态的双重打击
谷歌的TPU战略:
谷歌将自用的TPU彻底商业化,最新TPUv7“铁木”芯片通过系统级优化,将推理总拥有成本(TCO)做到比英伟达GB200低44%。单集群可扩展至9216颗芯片,Anthropic已部署百万颗TPU,Meta也在考虑采购。更关键的是,OpenAI仅凭“威胁买TPU”就迫使英伟达将计算集群成本降低30%,这打破了英伟达的定价权垄断。
亚马逊的Trainium生态:
12月发布的Trainium3芯片性能较上一代提升4.4倍,能效提升4倍,直接将AI推理成本腰斩。单台服务器可容纳144颗芯片,支持百万芯片级集群,Anthropic、理光等客户已抢先部署。其战略更巧妙:即将推出的Trainium4将兼容英伟达NVLink技术,既保留低成本优势,又不破坏CUDA生态,这种“竞合”思路直击行业痛点。
国内玩家突围:场景化落地与成本优势
寒武纪的思元系列:
在金融风控、自动驾驶等场景已站稳脚跟。思元370芯片在智能座舱推理任务中能效比提升3倍,某头部车企量产车型已批量搭载。其优势在于针对国内工业场景的深度优化,形成差异化竞争力。
摩尔线程的边缘计算:
聚焦短视频实时美颜、智能监控等轻量级推理场景,MTTS80芯片成本仅为同性能GPU的60%,已与某短视频平台达成千万级采购意向。其策略是通过低成本切入长尾市场,避开与英伟达的正面竞争。
CUDA护城河的松动:生态兼容性成为关键
英伟达的CUDA生态虽仍是训练端的“铁王座”,但推理端的逻辑正在变化:
谷歌已转向支持PyTorch原生运行,不再强制使用专属框架,并适配vLLM等主流推理工具,填平了软件鸿沟。
亚马逊在SageMaker平台实现Trainium与GPU的兼容优化,开发者无需改代码即可切换。
对企业而言,只要成本优势足够大,迁移成本终将被摊平。
投资逻辑:需求爆发、成本驱动与国产替代
需求爆发:大模型落地后,推理算力需求是训练的10倍以上,市场空间广阔。
成本驱动:企业为盈利必然转向高性价比方案,推理芯片的能效比成为核心指标。
国产替代:国内算力政策加持下,寒武纪等有场景落地的公司潜力显著。
结语:推理算力的“百花争妍”时代
英伟达的王座不会一夜崩塌,但推理算力的竞争已从“单芯片性能比拼”升级为“场景-芯片-生态”的系统级竞争。当谷歌的TPU适配大模型推理、AWS的芯片适配云场景、寒武纪的产品适配国内工业场景,英伟达的通用优势将被稀释。真正的王者,或许是能精准匹配需求的算力解决方案。