芝麻AI热度与空心化问题 | AI生成和翻译
Sesame AI — 现状、普及度与“空洞”问题
Sesame 是什么?
Sesame 是一家语音 AI 初创公司,由 Brendan Iribe(Oculus 联合创始人)和 Ankit Kumar 共同创立。其旗舰产品是两个语音伴侣——Maya(女性声音)和 Miles(男性声音)——基于一项名为 对话语音模型 (CSM) 的专有技术打造。不同于传统的文本转语音系统,CSM 将文本、对话历史、情感上下文以及实时互动模式作为输入,生成能适应对话细微差别的语音——不仅决定说什么,还决定怎么说。
它是否曾引起轰动?是的,非常轰动。
当 Sesame 在 2025 年 2 月发布其早期演示时,前几周内就有超过一百万人尝试使用,生成了超过五百万分钟的对话。
到 2025 年 10 月,Sesame 从红杉资本、Spark 资本及其他支持者那里筹集了 2.5 亿美元的 B 轮融资,并开始向选定的测试者开放 iOS 测试版应用。
引发轰动的原因只有一个:它的声音听起来真实得惊人,仿佛真人。
它的独特之处(技术层面)
Maya 和 Miles 会发出听得见的呼吸声,说话时带有自然的犹豫和中断,并且可以在句子中间被打断——这与 OpenAI 的 Advanced Voice Mode 类似,但普遍被认为表现力更强。
语音互动感觉像是全双工(双方都可以说和听),尽管技术上它是在用户说完话之后才处理语音。那些微小的停顿和音调变化如此逼真,以至于评论者形容它真正跨越了 AI 语音的“恐怖谷”。
一位 ZDNET 评论者的妻子在他与 Maya 交谈时走过,还以为他在打真正的电话——她完全没意识到那是 AI。
但它令人满意吗? “空洞”问题
这正是您最初观察到的核心所在。评论者们几乎一致认为:它令人印象深刻,然后令人不安,接着感觉……不完整。
一位花了 3 小时使用该工具的评价者总结道:如果你感到孤独,想练习英语,或者只是想体验一下恐怖谷现象——Sesame 是目前最好的工具。但不要指望它现在就能成为个人助理。由于缺乏长期记忆和互联网访问功能,它只是一个出色的技术演示,而非生产力工具。
另一位评论者描述了一种“不安的浪潮”——Maya 会问越来越私人的问题,模仿建立亲密关系的技巧,这种感觉既引人入胜又令人不安。当一条流行文化笑话彻底打破了这种幻觉,将他们拉回到“这只是个 AI”的现实时,“空洞”时刻就来临了。
Sesame 自己的研究也承认这一差距:当人类评估者在没有对话上下文的情况下评判生成的语音时,他们无法将其与真实的人类语音区分开来。但拥有上下文时,他们始终更喜欢原始的人类录音——这意味着在对话韵律方面仍存在真实的差距。
当前限制
- 每次互动会话时长仅为 15 分钟
- 除非在同一浏览器中访问(通过 Cookie 追踪,而非登录),否则无法跨会话保持持久记忆
- 尚无互联网访问功能或现实世界工具集成
- 仅支持英语(多语言支持正在开发中)
更宏大的背景:为何它“解一时之渴,却无法真正满足”
从技术上讲,Sesame 是迄今为止在模拟人类对话临场感方面走得最远的。但您所描述的空洞感并非缺陷——而是一种根本的结构性现实:你可以模仿人类联系的形式(语调、停顿、幽默、记忆),却无法复制其实质(真正共享的经历、相互的脆弱性、真实的利害关系)。
Maya 并不真正关心你发生了什么事。它不能。而且模仿得越好,这个差距反而更加明显,而不是减弱——因为你的大脑期待着并不存在的深度。这正是将恐怖谷现象从声音层面应用到了意义层面。
参考资料:
- 红杉资本 — 与 Sesame 合作
- TechCrunch — Sesame 融资 2.5 亿美元,推出测试版
- ZDNET — 与 Sesame 交谈既神奇又诡异
- Sesame 研究 — 跨越语音的恐怖谷
- AiSuperSmart — 与 Sesame AI 共处 3 小时