文章详细-3个月连融5亿，这家公司手握2026年具身智能流量密码

　　作者|毛心如

　　今年，具身智能领域什么词最火？VLA（视觉-语言-行动模型）一定能占领一席之地。

　　无论是行业还是学界，对 VLA 的关注都来到了新高度。根据公开信息统计，在今年的三大机器学习顶会之一，ICLR，VLA 模型相关投稿量从去年的个位数飙升至 164 篇，足足增长了 18 倍。

　　这一技术路线因其能实现从视觉感知到动作执行的端到端映射，被视为实现通用机器智能的捷径，吸引了大量研发投入。

　　然而，在表层共识之下，一场关于技术终局的深刻思辨早已暗流涌动。

　　早在今年 8 月的 2025 世界机器人大会上，王兴兴直言不讳地称当下火热的 VLA 模型是相对比较傻瓜式的架构，并表示保持比较怀疑的态度。

　　这一炸裂观点在业内引发了广泛热议，而其背后的逻辑更值得深究。

　　他认为如果模型只是表面地把视觉、语言和行动拼接起来，却没有稳定的世界表示与预测能力，这样的系统在真实世界交互时会暴露出短板，例如对数据质量和多样性的过度依赖、对长期规划和因果推理能力不足等。

　　因此，王兴兴倾向于将更多资源投向世界模型路线。

　　这一判断也呼应了多位业内人士的观点，即世界模型有望缓解具身智能在数据稀缺与泛化困难上的核心瓶颈，极可能在 VLA 之后，成为 2026 年的核心技术趋势。

　　事实上，这场关于终极智慧的博弈不仅存在于人形机器人行业，在智能驾驶，这个被视为具身智能先行区的赛道，像特斯拉、小鹏等头部玩家们也在端到端、VLA、世界模型三条线路里探索、权衡。

　　技术路线的选择，很可能决定未来 5 年的产业格局。

　　最近，专注世界模型的初创公司极佳视界获得了 2 亿元的 A2 轮融资，此前，极佳视界已分别完成 Pre-A、Pre-A+、A1 连续三轮融资，3 个月内连续完成了 4 轮累计 5 亿元 A 轮系列融资。

　　投资方包括中金资本、国中资本等传统机构以及华为哈勃这样的产业资本。

　　值得注意的是，华为哈勃目前在具身智能领域的投资标的较为有限，极佳视界是其中之一。

　　这一投资动作，与华为将世界模型列为「未来智能世界 2035 年十大技术趋势之首」的战略预判不谋而合。

　　目前，极佳视界正在以世界模型为业务核心，同时布局智能驾驶和机器人两条业务线。

　　这家公司的技术选择和商业化路径，恰好提供了一个绝佳样本，让我们得以观察世界模型是否真能成为下一代机器人的通用大脑。

　　一支全栈式顶级团队

　　虽然已至年末，但具身智能行业的融资热度并未消减，少量大额融资与密集多轮融资仍在轮番上演。极佳视界显然属于后者。

　　驱动这一系列资本动作的，是一支在学术、工程、产业和算法四个维度均配备顶尖人才的复合型创始团队。

　　这种覆盖全链条的全栈式配置，在具身智能初创公司中尤为罕见。

　　黄冠：创始人兼 CEO，连续创业者，曾在微软、地平线等企业从事算法开发工作

　　朱政：首席科学家，清华博士后，超 70 篇顶会论文；圈内公认学术大牛

　　毛继明：工程副总裁，曾担任百度 Apollo 仿真和工程负责人

　　孙韶言：产品副总裁，曾担任阿里云总监、地平线数据闭环产品线总经理

　　陈新泽：算法负责人，AI 世界冠军得主极佳科技创始人&CEO 黄冠

　　具身智能领域的竞争，本质上是顶尖人才的竞争。

　　从技术角度讲，极佳视界的团队架构呈现出一种高维跨界特征，有效地弥合了传统 AI 研究中视觉感知、物理理解和机器人控制三者之间的鸿沟。

　　从公司运营角度讲，这种顶尖学术与大规模工业落地经验的组合，也构成了极佳视界的竞争优势。

　　基于这种复合能力，极佳视界选择了一条看似更难、却更利于构筑长期护城河的商业化路径：在智能驾驶与通用具身智能两大战场同时推进，并致力于打通从大脑到身体的全栈闭环。

　　除了团队光环，极佳视界的自我造血能力也是资本看好的关键。极佳视界以空间智能相关研发为起点，推出了面向物理空间的数据引擎和面向虚拟空间的内容引擎两个方向的技术。

　　目前其产品包括世界模型平台 GigaWorld、具身基础模型 GigaBrain、通用具身本体 Maker 等全栈软硬件产品。

　　商业化层面，其在自动驾驶世界模型方向已经和多个头部主机厂达成签约合作。

　　在具身世界模型、具身大脑等方向也已和多个具身本体、终端公司达成签约合作，应用于科研教育、数据采集、工业业、服务业等多个场景。

　　搭好了智能大脑的台子，极佳视界也并没有把自己局限在一个软件提供商的角色。

　　随着大模型业务的初步稳定，今年年中，极佳科技开始组建机器人团队，试图将大模型能力应用至轮臂机器人。

　　今年 10 月底，其与湖北人形机器人创新中心达成战略合作，共建全球首个世界模型驱动的虚实结合具身智能数据工厂。

　　11 月底，极佳视界推出首款轮式人形机器人 Maker H01，同时启动规模化量产交付。

　　Maker H01 标准版高度约为 1.6 米，全身拥有 20+自由度，专为家庭、商业服务与轻工业等开放场景设计。目前正逐步在物品取放、巡检接待、实验协助、仓储搬运等真实业务场景落地。Maker H01 的正式发布也标志着极佳视界阶段性完成了行动核心+数据引擎+物理载体的三位一体产品架构。

　　这种从算法、软件到硬件的闭环布局，不仅验证了其世界模型的技术，更意在抢占从智能到智能体的完整生态位，为其长期竞争奠定基础。

　　用世界模型做技术深潜

　　极佳视界的叙事核心，围绕世界模型展开。

　　但世界模型到底是什么？它为什么被认为是下一代机器人大脑的关键？

　　通俗理解，我们可以把世界模型看作一个学习了物理规律的数字沙盘。

　　在这个沙盘里，AI 可以模拟现实世界的运作，比如一个玻璃杯从桌边掉落会摔碎，推动一个箱子需要克服摩擦力。

　　借助这个沙盘，机器人不用在现实世界中经历多次且缓慢的试错，就能预先脑补出各种行动的结果，并学习最优策略。

　　这也正是极佳视界技术范式的精髓，世界模型+行动模型+强化学习的三位一体。

　　在这个体系中，三者分工明确：

　　世界模型负责构建高保真的物理环境，解决机器人在不同场景下的泛化能力问题

　　行动模型作为指挥中枢，负责理解复杂的多模态指令并将其分解为行动序列

　　强化学习则让机器人在虚拟环境中通过反复试错，不断优化行动策略，提升任务的完成精度与鲁棒性

　　在这一架构下，原生世界模型 GigaWorld-0 充当基石与养料，而原生行动模型 GigaBrain-0 则掌控决策核心。

　　GigaWorld-0 通过几何一致、物理准确的建模机制，大规模生成高保真交互数据，实现数据放大效应，让模型训练摆脱了对昂贵且耗时的真实世界数据的依赖。

　　这是极佳视界专为 VLA 模型训练打造的世界模型框架，也是业内首个采用 FP8 精度端到端训练的世界模型。

　　这里值得一提的是，FP8 精度训练作为一种计算效率高、内存占用低、通信带宽需求小的技术，被广泛应用在 Deepseek-V3、GPT-4 等大语言模型训练中，可在保持模型性能的同时大幅提升训练速度。

　　其成功将世界模型生成数据在 VLA 训练中占比提升至 90%，是全球范围内首个实现的模型公司。

　　数据的量变带来了能力的质变。经过生成数据训练的 VLA 模型在新纹理、新视角、新物体位置三大泛化维度上均实现了近 300%的性能提升。

　　在 PBench（Robot Set）基准测试中，GigaWorld-0 以最小参数量达成最高整体性能。这种小参数量+高性能的特性，为后续的工程化落地扫清了成本障碍。

　　GigaBrain-0 则是一款端到端的决策控制模型，专为具身智能体设计。

　　极佳视界团队认为，目前具身智能的瓶颈存在三大挑战，一是高质量数据稀缺，真机采集的成本高、效率低；二是仿真数据存在仿真到现实的误差，难以直接利用；三是传统仿真器的建模误差制约强化学习效果。

　　而有世界模型 GigaWorld-0 加持下的 GigaBrain-0 将有潜力打破这些瓶颈。

　　基于 VLA 架构，该模型融合了图像、深度、文本及本体状态等多模态输入，能够输出结构化的任务规划与运动指令。

　　针对当前机器人在操作精度与推理能力的短板，GigaBrain-0 重点强化了 3D 空间感知与结构化推理能力，提升其在复杂环境中的导航精度与长序列任务执行能力，让机器人拥有更强的泛化性能。

　　在制作咖啡、整理桌面、搬运物品等复杂任务中，其模型性能不仅全面超过了π0，还能跟π0.5 相当。

　　值得一提的是，其端侧部署能力也很强。经深度优化的轻量级变体模型 GigaBrain-0-Small，在 NVIDIA Jetson AGX Orin 平台上的推理延迟仅为 0.13 秒，远低于π的 1.28 秒。

　　而任务成功率却与π0 的 80%持平，这代表着在资源受限设备上，模型依然能进行高效实时推理。这一点直击传统大模型算力需求高、难以部署的痛点。

　　总的来说，GigaBrain-0 的性能优势有三点：

　　训练数据来源更丰富：在纹理、光照、视角变化下表现更鲁棒、泛化性更好

　　架构更深：关键子模块引入更深层建模，操作表现更精细

　　有大小双版本模型：小模型可达大模型 90%效果，且可在端侧 Orin 实现实时推理

　　极佳视界的首席科学家朱政表示，现在 VLA 模型与世界模型越来越呈现合二为一的趋势。

　　但这其中，世界模型的作用显著。除了可以提供数据之外，还可以在 VLA 里加上隐式的未来状态预测和显式的未来视频预测，能够克服行动环节监督太过稀疏的缺点。

　　谁先在机器人大脑拿下话语权

　　无论是今年大热的 VLA 模型，还是被寄予厚望的世界模型，其本质都是具身智能大脑在不同阶段的范式演进。

　　尽管终极范式尚无定论，但世界模型已引发全球产业界和学术界的关注。无论是英伟达的 COSMOS，还是谷歌的 Genie-3，巨头纷纷入场。

　　这背后，是一场关于机器人大脑底层话语权的争夺。

　　目前来看，业内汇聚了三股主要力量参与其中：

　　第一股是具有场景与量产路径的汽车主机厂商，例如特斯拉、小鹏等。

　　他们的优势在于拥有真实的驾驶数据和闭环场景。特斯拉每天有数百万辆车在路上跑，产生的真实驾驶数据是任何初创公司难以企及的。

　　但泛化受限的劣势同样明显：从车端智能迁移到通用机器人，需要解决全新的平衡、操作与复杂交互难题。

　　第二股是海内外的平台级大厂，国内字节、阿里，国外谷歌、英伟达等。

　　这类玩家拥有算力优势、数据体量，推出的模型往往具有更强的泛化能力和多模态理解水平，但大多公司倾向于先在云端形成规模化能力再向边缘延展。

　　第三股是专注具身智能业务的初创公司，如 Figure AI、极佳视界、星动纪元等。

　　具身初创企业们最大的优势在于路径纯粹、业务聚焦，他们没有历史包袱，敢于押注前沿技术路线。

　　然而，资金和场景制约是他们难题。训练一个高质量的世界模型可能需要数万 GPU 小时的算力投入，这对初创公司是巨大的烧钱游戏。

　　同时，他们缺乏自有的大规模硬件生态和真实的数据闭环，也需要高度依赖外部合作伙伴提供落地场景和数据回流。

　　无论三路玩家谁先争得话语权，也都要先解决当前行业发展的三大瓶颈。

　　首先是真实世界的数据缺失，语言大模型的成功源于互联网文本数据的爆发，但具身智能需要具备高维物理信息的真实数据。

　　目前像极佳视界用世界模型试图通过合成数据来破局，但如何减少仿真环境中训练的策略在真实世界部署时性能下降的问题，确保模型在模拟器中学到的行为在真实世界中稳定可靠，是所有玩家面临的挑战。

　　其次是算力与推理成本的挑战，要训练好一个足够聪明能理解世界的模型，需要的算力消耗会远超当前的语言大模型。

　　而且机器人必须在毫秒级时间内做出决策和反映，这意味着算力不能只集中到云端也需要下沉到边缘侧。

　　这就直接推高了具身智能的烧钱门槛。

　　这也正是极佳视界在 3 个月内密集融资 5 亿元的深层逻辑，押注世界模型不只是一场技术竞赛，更是一场资本的耐力赛。

　　对于初创公司而言，能够持续获得机构、产业资本及地方资本的青睐，确保持续的弹药补给，是能在这场马拉松中跑到最后的必要条件。

　　最后是生态层面的挑战，目前「传感器-执行器-模型」的数据闭环规模化搭建仍处于初级阶段。

　　尽管世界模型的出现为数据生成提供了新路径，但如何构建可持续的数据源生态，也是行业需要解决的核心问题。

　　话语权的争夺战才刚刚拉开序幕。未来的胜负手，将取决于两个核心要素：

　　其一，模型通用化程度。谁能率先训练出一个不限于特定硬件或场景的通用模型，谁就掌握了核心话语权。

　　其二，生态构建能力。在未来，具身智能的竞争将不再是单一技术点的较量，而是围绕着模型、数据、硬件和应用场景的生态之战。

　　拥有最广泛的合作伙伴、能够形成最快速的数据飞轮的公司，才有可能在长期竞争中笑到最后。

　　而当机器人的大脑真正具备了通用的物理理解能力，物理世界的 ChatGPT 时刻才会真正降临。

　　原文标题: 3个月连融5亿，这家公司手握2026年具身智能流量密码