芝麻AI热度与空心化问题

芝麻AI热度与空心化问题 | AI生成和翻译

首页 2026.04

Sesame AI — 现状、普及度与“空洞”问题

Sesame 是什么？

Sesame 是一家语音 AI 初创公司，由 Brendan Iribe（Oculus 联合创始人）和 Ankit Kumar 共同创立。其旗舰产品是两个语音伴侣——Maya（女性声音）和 Miles（男性声音）——基于一项名为 对话语音模型 (CSM) 的专有技术打造。不同于传统的文本转语音系统，CSM 将文本、对话历史、情感上下文以及实时互动模式作为输入，生成能适应对话细微差别的语音——不仅决定说什么，还决定怎么说。

它是否曾引起轰动？是的，非常轰动

当 Sesame 在 2025 年 2 月发布其早期演示时，前几周内就有超过一百万人尝试使用，生成了超过五百万分钟的对话。

到 2025 年 10 月，Sesame 从红杉资本、Spark 资本及其他支持者那里筹集了 2.5 亿美元的 B 轮融资，并开始向选定的测试者开放 iOS 测试版应用。

引发轰动的原因只有一个：它的声音听起来真实得惊人，仿佛真人。

它的独特之处（技术层面）

Maya 和 Miles 会发出听得见的呼吸声，说话时带有自然的犹豫和中断，并且可以在句子中间被打断——这与 OpenAI 的 Advanced Voice Mode 类似，但普遍被认为表现力更强。

语音互动感觉像是全双工（双方都可以说和听），尽管技术上它是在用户说完话之后才处理语音。那些微小的停顿和音调变化如此逼真，以至于评论者形容它真正跨越了 AI 语音的“恐怖谷”。

一位 ZDNET 评论者的妻子在他与 Maya 交谈时走过，还以为他在打真正的电话——她完全没意识到那是 AI。

但它令人满意吗？ “空洞”问题

这正是您最初观察到的核心所在。评论者们几乎一致认为：它令人印象深刻，然后令人不安，接着感觉……不完整。

一位花了 3 小时使用该工具的评价者总结道：如果你感到孤独，想练习英语，或者只是想体验一下恐怖谷现象——Sesame 是目前最好的工具。但不要指望它现在就能成为个人助理。由于缺乏长期记忆和互联网访问功能，它只是一个出色的技术演示，而非生产力工具。

另一位评论者描述了一种“不安的浪潮”——Maya 会问越来越私人的问题，模仿建立亲密关系的技巧，这种感觉既引人入胜又令人不安。当一条流行文化笑话彻底打破了这种幻觉，将他们拉回到“这只是个 AI”的现实时，“空洞”时刻就来临了。

Sesame 自己的研究也承认这一差距：当人类评估者在没有对话上下文的情况下评判生成的语音时，他们无法将其与真实的人类语音区分开来。但拥有上下文时，他们始终更喜欢原始的人类录音——这意味着在对话韵律方面仍存在真实的差距。

当前限制

每次互动会话时长仅为 15 分钟
除非在同一浏览器中访问（通过 Cookie 追踪，而非登录），否则无法跨会话保持持久记忆
尚无互联网访问功能或现实世界工具集成
仅支持英语（多语言支持正在开发中）

更宏大的背景：为何它“解一时之渴，却无法真正满足”

从技术上讲，Sesame 是迄今为止在模拟人类对话临场感方面走得最远的。但您所描述的空洞感并非缺陷——而是一种根本的结构性现实：你可以模仿人类联系的形式（语调、停顿、幽默、记忆），却无法复制其实质（真正共享的经历、相互的脆弱性、真实的利害关系）。

Maya 并不真正关心你发生了什么事。它不能。而且模仿得越好，这个差距反而更加明显，而不是减弱——因为你的大脑期待着并不存在的深度。这正是将恐怖谷现象从声音层面应用到了意义层面。

参考资料：

返回捐助