文章详细-思必驰要上市了，但AI语音的护城河没了

　　5月25日，思必驰向科创板递交IPO申请。

　　作为国内最早一批AI公司，思必驰已经走过近二十年。但从业绩来看，这家老牌AI公司的增长并不算快。2023年至2025年，公司营收分别为5.39亿元、6.01亿元和6.88亿元，两年复合增长率仅12.98%。

　　某种程度上说，思必驰正处在一个有些尴尬的时间点。

　　过去十几年，语音技术一直是人工智能领域最典型的技术壁垒型赛道。Cerence、SoundHound、思必驰等公司，都受益于这一轮产业红利。

　　但大模型出现之后，行业的底层逻辑正在被改写。OpenAI、谷歌、阿里、字节等巨头，正在把语音能力变成一种基础能力。

　　于是一个问题摆在了所有传统语音公司面前：当语音成为大模型的标配之后，它们还剩下什么价值？

　　今天，我们就来聊聊思必驰，以及传统语音AI公司的未来。毛利率虽高，但仍然很难赚钱

　　从收入结构看，思必驰主要有三块业务：车载业务、智慧办公和智慧物联。

　　其中，车载业务是公司的基本盘。2025年，该业务收入达到2.76亿元，占总营收的40.08%。

　　所谓车载业务，本质上是为汽车厂商提供语音交互解决方案。目前，思必驰已经进入比亚迪、奔驰、大众等多家车企供应链，车载语音装机量市占率达到22%。

　　第二块业务是智慧办公，包括语音转写、会议记录、自由对话等软件服务，以及智能吸顶麦、AI办公本等硬件产品。2023年至2025年，该业务收入从1.8亿元增长至2.43亿元，是近几年增长最快的板块之一。

　　相比之下，智慧物联业务则有所收缩。2023年至2025年，该业务收入从1.97亿元下降至1.69亿元，占总营收比例也从36.63%下降至24.51%。

　　从盈利能力看，思必驰的毛利率并不低。

　　随着软件收入占比提升，公司毛利率从2023年的53.69%提升至2025年的63.24%。

　　但高毛利并没有转化成利润。

　　过去三年，公司分别亏损1.36亿元、1.58亿元和0.8亿元。同期，期间费用率高达76.3%、79.5%和68.7%。

　　而这背后，与国内软件服务行业长期面临的商业化困境有关。

　　思必驰的大部分业务仍然带有较强的项目制属性。无论是车载语音、智慧办公还是物联网方案，每新增一个客户，往往都伴随着额外的研发、适配、测试、部署和维护成本。

　　尤其是在车载场景，不同车企、不同车型甚至不同操作系统之间都存在明显差异，很难像标准化软件一样实现大规模复制。

　　不过这并不是思必驰最大的问题。真正的问题在于，当通用模型的多模态能力足够强，语音供应商的价值又在哪里？大模型，正在吃掉AI语音公司

　　从去年以来，美股软件股开始暴跌。

　　其中，受到冲击最大的板块之一，就是传统语音服务商。

　　2025年以来，SoundHound AI从年内高点22.17美元回落至约8.56美元，跌幅为61.39%；Cerence从27.5美元高点跌至11.87美元，跌幅约56.84%；声网从6.99美元高点回落至4.25美元，跌幅接近39.20%。

　　股价下跌背后，一个越来越明显的共识正在形成：语音技术本身，正在失去独立价值。

　　过去二十年，语音行业一直建立在一条相对清晰的产业链上。

　　传统语音AI的标准链路是典型的模块化流水线：ASR（语音转文字）、 NLU（意图识别）、Dialog Manager（对话管理）、 TTS（语音合成），以及不同的场景需求。

　　过去很多语音 AI 公司有价值，是因为每一层都很难。比如，识别口音、抗噪声、低延迟、唤醒词、车内声场、电话线路压缩音质、多人打断、语音合成自然度，这些都需要长期工程积累。

　　思必驰、云知声、SoundHound、Cerence，都是这一时代的受益者。

　　但大模型出现之后，这套逻辑开始发生变化。一方面，模型智能提升，带来了更强的多模态能力。另一方面，大模型也把这些原本分散的模块重新整合成了一个统一系统。

　　从目前来看，大模型的语音能力正在快速追赶甚至超越传统语音厂商。

　　过去，语音行业最核心的指标是WER（词错误率），即每100个词里识别错多少个词。WER越低，意味着识别准确率越高。

　　传统语音系统在理想环境下通常可以将WER控制在5%以内，但一旦进入车载噪音、电话线路、多人对话等复杂场景，错误率往往会明显上升。

　　比如，2025年思必驰方案在新闻播报等相对干净场景下，WER约为4.8%；而在车载噪音环境下，则上升至12.3%。

　　相比之下，OpenAI开源的Whisper Large-v3不仅在标准测试集上实现了更低的错误率，在会议、电话、多人讨论等真实场景中，也表现出较强的稳定性。

　　背后的原因并不复杂。

　　传统语音公司长期依赖高质量标注数据。这类数据虽然精准，但获取成本高、规模有限，很多企业积累十几年的行业语料，总规模也不过数千到数万小时。

　　而大模型可以利用公开视频、播客、电话录音、会议记录、字幕数据以及用户反馈进行训练。以Whisper为例，其训练数据规模达到约68万小时，远远超过传统语音系统。

　　更大的数据规模，不仅让模型接触到了更多真实世界的复杂场景，也让其具备了更强的上下文理解能力。

　　过去的语音系统更像是在识别关键词，而大模型能够结合前后语境理解用户真正想表达的内容。即便出现停顿、口误或表达不完整，也能通过上下文完成纠错和补全。

　　换句话说，传统语音模型是在实验室里成长起来的，而大模型是在真实世界里成长起来的。

　　这种变化正在快速传导到产业层面，并带来了一个问题：

　　如果OpenAI、Google、Amazon、字节跳动和阿里都能够提供低延迟、高准确率的语音交互能力，那么客户自然会问：为什么还需要单独采购一家语音供应商？

　　某种程度上说，语音能力本身就越来越像一种基础设施，而不是独立产品。

　　这样的趋势已经开始出现。

　　2023 年 OpenAI 就与梅赛德斯-奔驰达成合作，将 ChatGPT 接入其 MBUX 车载语音系统。谷歌也开始用Gemini 全面替代原有 Google 助手，并逐步将其内置到 Android 手机、Google TV、智能手表等终端中。

　　国内同样如此。豆包进入特斯拉中国区车载系统，通义千问则逐步接管天猫精灵背后的语音能力，并向智能家居终端延伸。

　　这些变化也给思必驰带来了一个更严峻的问题：

　　当语音逐渐从独立产品变成基础能力，那传统语音AI公司还剩下什么价值？