【[AI语音 AI思考] 为什么服务几亿用户的互联网大厂,语音团队只有几个人?】萍聚社区-德国热线-德国实用信息网人工智能

我爱免费 发表于 2025-10-27 20:24

[AI语音 AI思考] 为什么服务几亿用户的互联网大厂,语音团队只有几个人?

作者：微信文章

近年来，语音技术一度被推上风口，不少企业纷纷投入资源自研相关能力。然而从实际应用和商业回报来看，语音为产品带来的真实收益，往往远低于管理者最初的预期。如果用一句话总结原因，那就是：
语音为产品带来的收益，远低于决策者在办公室里的预期！

详细来说，有以下5个原因：

文字是互联网的基石，图像内容更丰富，语音仅仅停留在应用层，而且应用相对较少绝大部分应用语音只是替代文本做一种交互决策者过高估计语音技术的成熟度和对产品的收益。语音带不来，或者带来很少的收益增加，投入又很大，投入产出比低。云服务成熟，开源模型兴起和技术门槛的降低，但这并非核心问题。
互联网仍是以文字为主导的，语音作为应用层的补充

当前互联网的内容生态和信息交互，仍以文本为核心。无论是网页、应用还是各类信息服务，其底层大多依赖于自然语言处理技术。互联网中海量的信息，多以文字形式沉淀，即便多媒体内容也常常转化为文本进行处理和分析。从学术研究和行业会议来看，语音相关的高水平会议数量有限，ICASSP，Interspeech都算是CCF B和C类会议，影响力也相对较弱，当然每年的AI顶会如ICML，NeurIPS，以及ACL，都能看到几篇音频相关文章，但是毕竟是少数。而几乎每家互联网公司都离不开搜索、广告、推荐等以文本为核心的技术团队。这种局面并非偶然，而是由信息传播和处理的本质所决定的。

语音多作为输入替代，并非刚需

目前语音在大多数场景下的作用，仅仅是替代键盘进行输入。例如语音输入法、智能音箱、车载语音助手等，其核心功能是在特定场景下提供交互便利，而非创造新的交互范式。值得注意的是，特定场景，因为语音输入存在明显的场景局限性。大部分场景并非技术原因。例如在办公环境下，语音输入可能干扰他人；在嘈杂环境中识别率会大幅下降。因此，语音更多是“锦上添花”的功能，而非用户不可或缺的刚需。

决策者过高估计语音技术和对产品的影响

可以看到近几年，很多公司大张旗鼓的组建语音技术团队，不到两年的时间，又开始大范围的裁员，为什么呢？
当初为什么组建？后来为什么裁掉？

首先回答第一个问题，大部分公司的产品或者技术负责人是不了解语音技术的，再加上大量真真假假的宣传，想当然的认为语音已经到达了一个非常成熟的地步，产生“我们可以做的更好”的错觉，因此往往会过高的估计语音技术的能力，过分夸大人类语音交互的作用和人机语音交互的作用。如果此时团队处于上升期，决策者往往会组建自己的团队进行自研。其实，无论是人类还是人机交互，其核心一直都是理解，而不在于交互的形式。

那为什么后面每次裁员的时候语音都是首当其冲？是因为他们发现了下一个关键原因：↓↓↓
语音技术的ROI很低

当亲自投入后会发现，从商业角度考量，语音技术在大多数业务中带来的收益增长有限，而研发和维护成本却十分高昂，导致其ROI明显偏低。对于绝大多数公司和业务来说，语音技术都是一个鸡肋一般的存在，“食之无味，弃之可惜”。例如，不少企业的电话客服系统仍基于十多年前的技术，却足以支持业务正常运转。即便团队通过技术升级将识别率提升十多个百分点，业务端往往难以感知其价值，或者说没有带来直接的收益，因为真实的业务往往链条都很长，一个单点技术升级难以带来系统性的提升。在这种情况下，持续投入自研语音能力，对多数公司而言并不划算。
现状是，不能没有人去维护这系统的正常运转，但确实又没有必要在上面投入太高的成本。
云服务和开源

随着云服务成本下降和开源语音模型的成熟，比如WeNet社区积极推动的开源模型和数据，让语音模型的训练和部署门槛大幅降低，开箱即用。即便不了解技术细节，企业也能通过调用API或微调开源模型，快速实现不错的效果。然而，这并未改变语音在大多数产品中的辅助定位。如果企业在立项初期便能理性评估数据隐私、技术边界与业务收益，就能避免“组建-裁撤-再组建”的循环，这是对企业负责，更是对员工负责
作者：AI语音 AI思考（公众号，小红书同名）

智能语音方向博士，前大厂语音资深语音算法专家，现语音应用创业者，不定期更新一些语音、职场和创业思考，欢迎关注交流。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

[AI语音 AI思考] 为什么服务几亿用户的互联网大厂,语音团队只有几个人?