Title
您当前的位置: 首页 > > 文章详细
华为百度接连“秀肌肉”,大厂自研AI芯片为何不再闷声?
发布时间:2025-11-24

  如果你想通过官网查看国产AI芯片公司的最新产品信息,恐怕要失望而归了:最新的芯片型号时常并不会出现在产品菜单上,更不用说芯片的具体参数信息。

  这是国产AI芯片公司过去几年力求低调的缩影。“这几年做芯片比较敏感,我们出来讲得也比较少。”一位与大厂关联密切的芯片公司负责人坦言。

  但近期,随着 华为 、 百度 等大厂接连公开宣布AI芯片的迭代路线图,阿里的平头哥芯片亮相央视《新闻联播》,闷声做事的状态突然间被打破。未来三年, 华为 将发布四款昇腾AI芯片;按照 百度 的规划,接下来两年有两款昆仑芯AI芯片即将上市。与 百度 仅披露芯片型号与用途相比, 华为 给出的信息更为翔实,将互联带宽、算力、内存等外界关注的芯片参数悉数公开。

  “我们从2020年开始,一直到去年啥都不敢讲,但也不能老憋着,所以今年我们就‘秀了点肌肉’。” 华为 轮值董事长徐直军在9月中旬接受媒体群访时感慨。

  “里程碑式的转折。”国际投资研究机构盛博(Bernstein)中国半导体高级分析师林清源向南都记者表示,从市场端看,国产芯片公司需要向客户呈现清晰的产品路线图,以抢占 英伟达 留下的市场蛋糕。此外,外界原本担心 英伟达 H20供应中断,资本市场会对国内互联网大厂产生负面反馈。但国产AI算力方案的推出,反而让投资者看到,大厂未来可以依赖国产算力的供给获得发展,也促使这些有自研芯片的公司更高调地开始对外沟通其芯片进展。

  在林清源看来,国产半导体供应链的突围,推动芯片顺利流片,也让国产AI芯片未来几年的产品迭代具备较高可预见性。据其观察,对于国内的7纳米先进逻辑芯片产线,在被美国完全禁止进口、占比约三成的半导体设备上,国产方案如今已基本填补了美国制裁带来的空白。过去国产设备仍停留在测试阶段,但自今年以来,已陆续导入量产线。“先进制程的整个供应链已经度过了最艰难的阶段。”林清源说,这提升了先进制程芯片制造后续产能扩产的确定性。

  不可否认,国产AI芯片的性能与海外巨头依然差距明显。徐直军在9月18日的 华为 全联接大会上重申了过去的论断:中国半导体制造工艺将在相当长时间处于落后状态,可持续的算力只能基于实际可获得的芯片制造工艺。因此,“超节点+集群”成为 华为 、 百度 、阿里等大厂应对AI算力需求的解决方案。这一方案是 华为 CEO任正非口中的“用数学补物理”策略,不过非常考验芯片厂商在通信、散热等方面的系统性能力。

  “全球AI芯片是双雄争霸下的非对称竞争。”国产EDA(电子设计自动化)企业 上海合见工业软件集团有限公司 总经理徐昀提到,所谓“非对称”,指的是中国智算芯片在工艺制程、单卡算力、单卡内存容量和带宽等维度,均落后于以 英伟达 为代表的北美智算芯片,但可以借助超节点的组网,完成对后者的性能超越。“中国芯更需要互联能力。”

  华为 打响第一枪, 百度 最新接棒

  在国产AI芯片阵营中, 华为 昇腾的头号地位毋庸置疑。以至于 英伟达 创始人黄仁勋也不得不将 华为 视作“强大的竞争对手”,直言“低估 华为 这样的竞争对手是愚蠢的”。

  华为 在2018年发布首款昇腾AI芯片310,2019年迭代至昇腾910,其性能超过 英伟达 同时代的V100 GPU。但随着2020年美国制裁、 台积电 断供, 华为 自研AI芯片步入艰难时刻。从2020年开始的约五年时间内, 华为 仅在昇腾910系列内升级,先后推出910B和910C。这一状况正在转变。

  今年9月中旬, 华为 开始对外表露自己的AI算力雄心。徐直军在2025全联接大会上宣布,2026至2028年三年间, 华为 将相继推出昇腾950、960和970三大系列。

  华为 昇腾芯片路线图。

  其中,950系列包括950PR、950DT两种型号,分别于2026年一季度和四季度推出,均支持FP8等低精度数据格式。950PR主要面向推理预填充(Prefill)阶段和推荐业务场景,而950DT更注重推理解码(Decode)阶段和训练场景。这也是业内正在兴起的P/D分离路线——用不同芯片来完成Prefill和Decode的任务。

  所谓预填充与解码,是模型推理的两个阶段:预填充属于推理开始阶段,模型需要一次性读取并理解输入的所有上下文,对计算能力要求高,而对高带宽内存(HBM)的需求较低;解码阶段则根据已有信息一步步生成输出tokens,计算负载轻,但依赖于快速内存传输和高速互连来维持输出性能。

  基于预填充与解码阶段的不同特性,昇腾950PR采用了 华为 自研的低成本HBM——HiBL 1.0,相比高性能、高价格的HBM,能够大大降低推理预填充阶段的成本。为应对推理解码阶段和训练对互联带宽和内存访问带宽的高要求,950DT则采用HiZQ 2.0内存,内存容量达到144GB,内存访问带宽达到4TB/s。相比之下,950PR的内存容量为128GB,内存访问带宽达到1.6TB/s。两款芯片均拥有2TB/s的互联带宽。

  无独有偶, 华为 推出P/D分离两款芯片前, 英伟达 在9月9日也发布一款基于最新Rubin架构打造的GPU芯片Rubin CPX,充当面向计算密集型预填充阶段优化的专用芯片,预计于2026年底上市。这是海外首个在芯片层面实现P/D分离的实践。

  在8192张950DT芯片的基础上, 华为 预计在2026年四季度推出Atlas 950超节点产品。紧接着在2027年四季度迭代至Atlas 960超节点,最大可支持15488张昇腾960芯片。基于这两款超节点, 华为 同时发布Atlas 950 SuperCluster和Atlas 960 SuperCluster两款超节点集群,算力规模分别超过50万卡和达到百万卡。

  从芯片、超节点再到集群, 华为 对技术参数披露的“颗粒度”之细,可谓近年来罕见。林清源认为,这说明 华为 “是真的有料”。

  华为 甚至不惮于直接叫板 英伟达 。 英伟达 预计2026年下半年发布NVL144系统,徐直军拿Atlas 950超节点与之对比称:卡的规模是 英伟达 NVL144的56.8倍,总算力是其6.7倍,内存容量是其15倍,达到1152 TB,互联带宽是其62倍。

  一位业内人士向记者分析,按理说, 华为 本来是最不应该对外来讲芯片技术细节的。如今 华为 站出来“打响第一枪”,这代表了一个关键的转折。

  11月13日, 百度 接棒公布旗下昆仑芯的业务路线图:2026年初上市M100芯片,针对大规模推理场景优化设计,主打性价比;2027年初上市M300芯片,面向超大规模多模态模型的训练和推理需求。另外,2026年上半年和下半年, 百度 预计将推出“天池256超节点”和“天池512超节点”,搭载2024年上市的昆仑芯P800芯片,最高分别支持256张卡和512张卡互联。从2027年下半年开始,昆仑芯将陆续推出千卡和四千卡的超节点。按照规划,昆仑芯预计于2029年上市新一代的N系列芯片,2030年点亮百万卡昆仑芯单集群。

  相较于 华为 , 百度 对于芯片和超节点的参数介绍有限。据南都记者了解, 百度 的超节点产品在GPU、CPU、内存等核心部件上实现了国产化。一台基于昆仑芯P800的64卡超节点,单卡功耗约400瓦,在FP16精度(16位浮点数)的总算力规模超20 PFlops。以此换算成单卡算力,大致为 英伟达 A100 SXM版本算力的一半。

  昆仑芯前身为 百度 智能芯片及架构部,于2021年4月完成独立融资,并由 百度 芯片首席架构师欧阳剑出任昆仑芯公司的CEO。 天眼查 显示,截至目前,昆仑芯完成了6笔融资,最新一起发生在今年7月。 百度 为昆仑芯的控股股东。

  另有不具名业内人士向记者分析, 百度 此时选择披露AI芯片路线图,除了有 华为 在前面打样,或许也与昆仑芯寻求IPO的压力有关。

  根据公开信息,市场上已多次传出昆仑芯筹备IPO的传闻。南都记者于11月中旬看到,昆仑芯在Boss直聘、脉脉等招聘平台释出投融资律师岗位,其工作职责便包括:IPO全流程管理、协助招股书与监管文件、上市后公司治理与监管对接等。然而,在记者向公司方面求证IPO事宜后,该招聘岗位随即被关闭。

  超节点补足单颗芯片性能短板

  与非网10月下旬发布的一份问卷调查报告显示,43%的受访者认为,云端国产AI芯片的核心竞争力在于万卡以上互联的集群扩展性。

  由于国产芯片先进制程被卡在7纳米节点, 华为 与 百度 的AI算力路线图,纷纷把超节点和集群作为突围关键。9月24日的2025云栖大会上,阿里也发布磐久AI Infra 2.0超节点,兼容多种AI芯片,单柜拥有128颗AI芯片。

  徐直军接受媒体群访时表示,“超节点+集群”是 华为 在极限制裁下被逼出来的范式。只有依靠超节点和集群,才能规避中国的芯片制造工艺受限,为中国提供源源不断的AI算力支持和供给。

  作为2025年被 华为 带火的概念,超节点为何如此重要?传统上,计算集群依靠横向扩展(scale-out)架构,通过通用以太网连接大量标准化服务器。但这种简单的“堆卡”做法,无法满足大模型训练对跨服务器网络带宽与时延的严苛要求,制约了训练效率。

  林清源介绍,scale-out架构下,集群的互联效率很低,模型训练时需要先将任务拆成许多份在不同的节点之间运行,显著增加了并行计算的协调难度,这会“让大模型训练非常痛苦”。

  于是,纵向扩展(scale-up)的超节点方案走向台前,以突破通信性能瓶颈。根据 华为 《超节点发展报告》(下称《报告》)介绍,不同厂商的超节点实现路径各具特点: 英伟达 通过NVLink的高速互连技术,将整机柜的GPU打造成一台逻辑上的“巨型单机”;而 华为 等国内厂商的做法是,通过“面向超节点的互联协议”,将大带宽、低时延的互联范围从单机柜内部延伸至整个集群。

  例如, 华为 Atlas 950超节点满配包括由128个计算柜、32个互联柜,共计160个机柜组成,占地面积1000平方米左右。在这样一个超节点系统中, 华为 自研的“灵衢”(UnifiedBus)互联协议扮演着通信“高速路”的角色。在物理上,超节点虽然由多台机器组成,但逻辑上能够像一台计算机一样工作、学习、思考和推理。

  华为 当前已面市的超节点方案为CloudMatrix 384,搭载了384颗昇腾910C芯片。芯片研究机构SemiAnalysis在一份报告中指出,CloudMatrix 384直接与基于 英伟达 GB200芯片的NVL72系统展开竞争,在某些指标上甚至超越了 英伟达 的机架级解决方案。CloudMatrix 384的昇腾芯片数量是NVL72系统的五倍,足以弥补每颗芯片性能仅为 英伟达 GB200三分之一的不足。SemiAnalysis指出,CloudMatrix 384超节点的缺点是功耗更高,为NVL72系统的4.1倍,但电力问题并非中国面临的限制因素。

  华为 副总裁、公共事业军团CEO李俊风在10月下旬一场峰会上说,CloudMatrix 384超节点在两三年前就已经开始规划,今年顺利推出,表现非常不错。 华为 接下来将推出更大规模的超节点,以解决美国对华单芯片制裁的问题。

  “现在全世界能够提供人工智能算力的只有中国和美国,而且我们现在不需要美国。最近 英伟达 CEO说(在中国的AI芯片)市场份额从95%降到0,(这是)因为包括 华为 和其他AI芯片公司可以自己提供。”李俊风表示。

  有了超节点,并不意味着放弃此前的横向扩展(scale-out)架构。前述 华为 的《报告》还提到,面临万亿参数规模的超大型模型训练需求,超节点可通过叠加scale-out组网,将多个超节点单元组合成一个更大规模的集群。其运作方式是,将模型训练任务负载拆解至多个超节点并行执行,从而缩短训练周期,提升模型训练效率。

  林清源认为,在先进制程被卡在7纳米节点的背景下,不同国产AI芯片的单颗性能差距将日渐缩小,后续考验的是芯片厂商的集群组网能力。 华为 的组网能力从其已发布的技术文档来看有许多创新点,后续则等待芯片制造产能的释放,向市场推出真正的产品完成商业化验证。

  昆仑芯超节点产品。图:杨柳

  大规模AI算力集群建设依靠芯片厂商的系统化能力积累,除了高门槛的通信优化,还包括散热、故障修复等方面的实力。

  “为什么看起来不错的一款芯片,在训练上用就是一件很困难的事?” 百度 智能云AI计算首席科学家王雁鹏在11月中旬一场昆仑芯的论坛上指出,硬件的稳定性是其中一大挑战。推理场景下,一台机器就能运行一个推理实例。即使发生故障,影响范围也仅限于当时所服务的少量用户。训练任务则截然不同。当前主流大模型的训练规模往往达到万卡级别,训练过程高度同步,意味着任何一块芯片出现故障,整个集群都必须暂停并重新启动。

  王雁鹏表示,硬件稳定性问题不可避免,因为晶体管的集成度高、功耗高,随之带来故障率的攀升。即便是 英伟达 的GPU,也存在故障的可能。由于国产芯片的质量控制能力尚无法与 英伟达 匹敌,故障率在国产AI芯片上被放大。因此,在集群上线运行之前,需要进行完善的故障检测。

  集群还有可能在运行过程中出现“静默故障”,也就是没有任何一块芯片报错,但是训练结果出错。如果无法精准定位到具体出故障的卡上,“整个集群可能就完蛋了。”王雁鹏说,集群必须做到在出现故障时能够快速自愈和恢复,如此才能获得一个相对稳定的算力平台。

  在训练与推理市场“抢蛋糕”

  尽管市面上出现形形 色色 的训推一体AI芯片,但真正能用于大模型训练的非常稀少。林清源说,当厂商打出“训推一体”的标签,很多时候可以直接将其等同为推理芯片。所谓的训练,通常只能用于小模型训练或者模型的后训练(post-training),而非大模型的预训练(pre-training)环节——预训练奠定模型的基础,后训练则通过微调使模型适应特定任务。

  此前有云厂商人士告诉记者,国产AI芯片用于大模型训练任务难度很高, 华为 昇腾几乎是唯一一可用于大模型训练的芯片。但Bernstein今年7月的一份报告提到,即便是 华为 昇腾当前的主打型号910C,大部分应用仍然是推理,只有 科大讯飞 会在910C上运行一些训练任务。此外,910C也可以用于一些模型蒸馏和微调任务。

  基于国产算力开展大模型训练,需付出额外的算力成本与时间代价。今年3月, 科大讯飞 董事长刘庆峰接受南都等媒体采访时透露,2024年10月, 科大讯飞 便完成深度推理模型的技术路线验证。然而,为了在国产算力平台上进行训练,公司不得不花费额外两个月时间来进行适配工作。所以,使用全国产算力训练模型的代价,不仅体现在国产AI芯片的使用成本更高,也体现在训练消耗的时间更长,拖慢了模型发布的进度。

  百度 是继 华为 之后,近期公开宣称已将自研芯片集群用于大模型训练的厂商。王雁鹏在前述昆仑芯论坛上提到,昆仑芯现已支持了54个模型的训练和60个模型的推理。他重点提及,包括视频生成模型“ 百度 蒸汽机”在内的三款多模态模型,是在5000卡或6000卡的昆仑芯集群上完成训练。下一步, 百度 会在昆仑芯P800芯片集群上尝试最先进模型的训练。

  即便有了可供模型训练的国产芯片,AI模型公司是否有意愿采用依然有待观察。对此,徐直军接受媒体群访时类比称:“就像谈恋爱,不谈的话,你怎么知道对方的优缺点。合适不合适,你要谈一下,要用一下,在用的过程中有问题解决问题。”

  面对大模型训练这块难啃的市场,许多国产AI芯片厂商涌入模型推理领域。一方面,推理芯片的设计难度和数据处理规模相对较低;另一方面,AI应用的日益普及,带动推理算力需求高涨。根据市场调研机构IDC于10月21日发布的数据,2025年上半年的中国GenAI IaaS服务市场中,推理场景占比上升至42%,训练场景占比则降低至58%。预计未来,随着企业内部多模态生成与实时推理场景的持续丰富,推理基础设施将随着AI Agent市场的发展成为AI IaaS的核心分支。

  根据 百度 智能云混合云部总经理杜海的判断,国产芯片已经可以满足当前最先进模型的推理使用。比较先进一点的国产推理芯片,基本上能配置96G的显存。其中,至少能有86G的容量用来存放模型的权重。那么,一台8张卡的单机,就能提供大概688G的显存容量,而 DeepSeek R1-671B模型的权重大概在600G左右。因此,一台单机就可以直接运行这样一款先进模型。如果将单机扩至更大的集群,国产推理芯片有能力承载万亿参数级别模型的使用。

  当前,推理芯片市场的竞争呈现碎片化特征,不仅有所谓训推一体的芯片厂商,也有专门面向推理场景的企业,如商汤芯片业务拆分出来的曦望公司。在技术路线上,推理芯片市场不仅存在 海光信息 、沐曦、壁仞这些GPGPU(通用GPU)玩家,ASIC(专用集成电路)的厂商也表现抢眼。如寒武纪、 华为 、阿里平头哥等均属于ASIC阵营。ASIC芯片厂商可以针对特定的推理任务进行深度优化,具备能效与成本上的优势。

  互联网厂商如何直面推理芯片市场的激烈竞争?昆仑芯高级产品总监萧放在前述昆仑芯论坛上表示,昆仑芯可以聚焦特定场景做针对性的差异化设计,在架构层面引入适配的特殊工艺,形成性能优势与性价比优势。另外,还可以和 百度 算法团队密切合作,及时了解其对算法发展的前瞻性判断,从而在芯片设计的长周期过程中提前预判算法演进趋势。

  互联网大厂本身的云业务和AI业务,更是为自研芯片提供了最直观的内部需求。 百度 集团执行副总裁沈抖在11月13日的 百度 世界大会上透露,昆仑芯P800芯片在 百度 内得到了充分验证,现在绝大多数的推理任务都跑在P800之上。

  背靠中国头号云厂商 阿里云 的平头哥,也因此被一些市场人士看好。“大的云厂商,自己做的芯片一定是有市场的, 谷歌 就是一个很好的案例。”林清源认为,大厂自研AI芯片的下游需求是非常明确的。即使不对外出售自研的芯片,将其并入云服务的生意中让外部客户来使用,也等效于在卖芯片。此外,相较于外购第三方芯片,使用自研芯片避免了为外部供应商的高毛利买单,从而节省很大一笔成本。

  昆仑芯等大厂旗下芯片公司,实际上并不满足于内部使用。例如,今年8月21日,昆仑芯对外宣布中标中国移动集采项目十亿级订单,该项目面向推理型的AI通用计算设备。林清源表示,如果大厂的自研芯片进入外部市场去“卷”,要么得拥有特别突出的性能,要么刚好它们为某个场景做的深度优化适合外部市场需求,除此之外就只能单纯地去比拼性价比了。

上一篇:
马云双到驻湘部分兵工单位调研
下一篇:
金价三连涨叠加税收新政,黄金市场迎来“洗牌局”
Title