本篇文章是翻译自Julie Zhuo在2025年5月12日的内容,供学习讨论
i.
ChatGPT 于2022年11月30日从 OpenAI 推出,在短短两个月内就势如破竹地打破了消费者应用的各项记录。对许多人来说,这感觉就像魔法一般。
但 ChatGPT 真正神奇的地方究竟是什么?当然,关于它的智能程度,也就是回答的质量,已经有很多讨论。它的表现水平从高中生到大学生,现在甚至达到了初级员工的水平!它能源源不断地生成睡前故事和营销文案!它还能提供富有同情心的倾听。
但作为消费者产品,ChatGPT 真正的魔力远不止于其百科全书般的知识储备。
它的界面——一个全世界任何人都能立即上手使用的对话文本框——悄无声息地开启了用户体验设计的新时代。
遗憾的是,对话界面也正是当今 AI 设计创新陷入停滞的领域。让我们深入剖析它的优势与不足。
ii.
小时候,我把小说当作一日三餐般汲取。但你要是给我一本 VCR 编程手册或 BASIC 函数编写指南,那简直是最糟糕的阅读体验。
要知道,我其实挺有技术天赋的。在父母眼中,我就是个能对电子设备施魔法的小巫师。突然间,妈妈就能看她的肥皂剧了,爸爸也能播放珍贵的度假录像了。
但我是怎么做到的呢?其实就是琢磨设备,试各种随机操作。如果那样不行,我就看看示例。技术手册让我两眼放空,看起来就像天书一样。
几年后,当我初学线性代数时,又遇到了同样的困惑。我眉头紧锁,努力让大脑做各种思维体操。倒不是概念太难理解,而是那些字母、符号和术语的表达方式让人困扰。有一天,教授用箭头图解释状态机,我顿时茅塞顿开。原来,我是个视觉学习者!
明白这一点后,生活变得容易了很多。我开始把方程式看作天平,把树看作分支箭头,把想法看作天空中的星座。宜家的组装说明书对我来说再简单不过,乐高积木就是我的精神玩具。
我们的大脑都是独特而奇妙的。我的伴侣更倾向于通过听觉而非视觉来学习。我的合伙人非常善于将复杂主题归结为基本的数学方程。我喜欢生动的比喻,但有位同事却觉得我的比喻令人困惑。
现实是既甜蜜又苦涩的:我们人类渴望表达自己并被理解,但即便使用同一种母语,我们说的也是不同的"语言"。遗憾的是,我们还没有发明读心术。
那么下一个最好的选择是什么?有效的翻译。
有效的翻译是设计师的圣杯。
整个设计学科可以浓缩为一门手艺:将创造者的意图翻译成能实现预期目标的用户体验。
这正是 AI 技术闪光的地方。
iii.
什么构成了卓越的用户界面?
最强大的经验法则很简单:使用起来感觉理所当然。
理所当然的东西无需解释。就好像使用说明书已经预装在用户大脑里了。
某种程度上确实如此,因为最直观的用户界面往往利用了用户已有的知识。
当标签页导航首次出现时,人们觉得使用起来很自然,因为它模仿了物理文件夹。

窗口显示三个标签页,位于格式工具栏下方。一个标签显示关闭按钮。添加按钮位于标签栏右端。
像下面这样的数字按钮让人感觉点击很自然,因为它们用深度和阴影渲染,就像真实的物理按钮。

iPhone 比之前几代的手机 (带上下按钮或滚轮) 和电脑 (需要鼠标输入) 更容易使用,因为我们习惯于直接操控,遵循现实世界的物理定律。

而由 ChatGPT 普及的 AI 聊天界面之所以使用起来感觉自然,是因为它建立在每个数字公民都已熟悉的两种交互方式之上:
- 自然语言对话——我们从两岁起就一直在练习的技能。
- 短信/消息界面——每天发送250亿条消息。每天!所以这种模式早已深深印在我们脑海中。

有时设计师会竭力让用户界面显得新颖、简约或简单。这是错误的目标。新颖性、极简主义或简单性只是直观性的良好启发式指标,但不要把手段当作目的。
支撑 ChatGPT 的技术早在2022年11月30日之前就已推出,只是被包装在不同的界面中。当时很少有人关注。
为什么 ChatGPT 会爆红?因为它有着明显的聊天界面,每个人都直觉地知道如何使用。
iv.
"有了锤子,什么都像钉子。"
任何成功创新的问题在于,它就像点亮了一块霓虹招牌 ("嘿,这招管用!"),很快变成一整栋霓虹建筑,接着爆发成整个拉斯维加斯大道,吸引每个追梦者蜂拥而至。
跟风者成群结队。我们的大脑变得像过拟合的糟糕数据模型:设计用对话界面!图像和视频用对话界面!编程用对话界面!新闻用!游戏也用!
现今的对话聊天界面存在5个主要问题。让我们逐一深入分析。
1.空白页问题
Gartner 在数据领域曾有名言:"80%的价值在于问对问题。"
早在 ChatGPT 时代之前,互联网就充满了获取答案的途径。
YouTube、Khan Academy、Coursera 和 Wikipedia 提供几乎每个学科的免费知识。然而成人学习的平均水平几乎没有提升——OECD 调查显示,在许多发达国家,每年参与任何结构化学习的成人不到10%。
空白页上的空白聊天框违反了高质量用户体验的第一原则:用户不清楚自己能做什么。
空白页面把学习使用方法的负担推给了用户。
这对于早期采用者和高主动性人群 (也就是每个阅读此文的人) 来说不是问题,他们享受探索的乐趣和发现的快感。
但对更广大的用户群体来说,空白页面令人畏惧,也显示了设计的懒惰。
空白页面让用户想起 Google 搜索,后者的设计理念是成为通往其他目的地的高效路由器。创始人认为人们在 Google 搜索上花费的时间应该越少越好,这与当今 AI 公司的目标相去甚远。
对话聊天界面的用户体验应该帮助人们了解如何最大化地利用它。
关键使用场景的模板在哪里?能让用户从社区学习的"热门提示"和精选示例在哪里?继续之前对话的建议在哪里?
目前,Twitter 充当着 AI 服务使用手册的角色;服务本身有巨大机会抓住这一点来提升用户参与度和发现性。
如果社交媒体平台的成功教会了我们什么,那就是给用户一些可以回应的内容比展示空白页要有效得多。
2.迭代问题
你知道什么很酷吗?让 AI 智能体创建一个浣熊大战游戏,在10分钟内就能得到可运行的成果。
你知道什么很糟糕吗?试图优化那个浣熊游戏以匹配你脑海中的愿景。
如果你想把浣熊图像换成更可爱的,或者试试不同的游戏标题 (标题屏幕上显示"Raccoon Rodeo"还是"Battle of the Bandits"更好看?),又或者想试验游戏是从角色选择还是战场选择开始,对话界面就显得极其笨拙。
没有什么美好的东西是一蹴而就的。优秀创作者的旅程充满了反复打磨的艰辛历程。对话用户界面擅长快速达到70%的完成度,但在提供精细化迭代控制方面表现糟糕。
比如,如果我想为游戏尝试不同的标题,我希望能直接选中标题开始输入各种想法,或者点击浣熊角色来替换不同的图像。
向我的智能体输入指令"你能把标题从X改成Y吗?"或"你能让浣熊更可爱一些吗?"然后等待它们执行更改,这种体验令人沮丧地缓慢。(更不用说——有时它们还会改变游戏中我根本没想改动的其他元素!)
我们发明"所见即所得" (WYSIWYG) 按钮、选择器和输入控件是有道理的。我们不应该抛弃这些。有时候,点击按钮快速将边框半径从10改到12再改到16来看看效果,比打字描述要快得多。
我很高兴看到带有文档和代码的可编辑画布开始成为一种趋势 (尽管我确实讨厌"模式"概念)。我预计我们会看到更多AI提供多种变体供创意优化的应用。
对话界面与传统界面相结合,创造出能在整个创意探索过程中实现更快迭代的"美丽后代",这方面还有很大机会。
3.输入输出问题
文本是很棒的媒介,因为对许多人来说使用书面语言很直观,而且有数千年的先例让语言变得丰富、富有表现力和清晰。
文本是受限的媒介,因为打字和点击太糟糕了。一图胜千言。"看到就知道"是最高法院大法官定义猥亵内容时能想到的最佳表达。
对人类来说,说出指令比打字要快。眼睛扫描回应比听声音朗读同样内容要快。
然而,默认假设是输入和输出模式应该相同。如果我在开车,或者房间里有多个人,我希望语音输入和输出,这个假设成立。但如果我在独自进行生产性工作 (大部分时间都是如此),为什么不默认选择更高效的输入/输出模式?
如果AI服务能理解用户的意图,什么是理想的输入输出模式就变得更加明了。
想让团队对构建方向达成一致?跳过需求文档和长篇大论,直接制作原型。
想帮用户重新装饰房间?让用户通过情绪板而非文字描述来表达想法。
想让用户开心起来?温暖的声音比屏幕上的文字更能传达支持和关怀。
在我们把对话界面应用到所有东西之前,让我们问问自己:我们想要实现什么?什么是达成这个目标最直观的输入输出方法?
4.能力边界问题
你有过那种什么都知道的朋友吗?善意但对任何事都有意见,却对自己真正擅长或不擅长的领域没有清醒认识?
问他们政治,他们会自信满满地说出解决方案。向他们抱怨问题,他们会告诉你怎么解决。
明智的人了解自己的能力边界。他们能准确预测在哪些方面比你懂得更多,在哪些方面自己是无知的。
当今的对话式AI给人的感觉更像是无知而非明智;它不知道自己不知道什么。
当你要求AI智能体产出超出其能力范围的内容时,它不会告知用户:"这超出了我目前的能力。"经过反复尝试和修正后,智能体也不会建议:"让我们退一步尝试不同方法;这个路径似乎行不通。"
AI不知道自己的置信度是90%、60%还是20%,它还无法分析信息源的可信度,也不会坦承:"我不确定。我倾向于X观点是因为...但我对...存疑。"
表现最佳的人类团队对彼此的专长领域有清晰认识。因为我的工程背景,我最适合选择使用哪个数据库。如果你问我注册页面的设计问题,我会推荐你咨询设计师。
在人类世界中,我们知道良好的反馈机制不仅能改善个人工作,还能让人了解自己的优劣势。有了这种认知,人们就能更好地选择合适的工作范围,在任务超出能力时寻求帮助。
总有一天,如果AI达到超级智能 (superintelligence) 水平,就不会有任何领域比我们这些渺小的人类知道得少。但那一天还没到来。
在此之前,为什么不设计出具备边界意识和清晰认知的系统?毕竟,真诚能建立信任。
5.个性化问题——黄金机遇
这是让我最兴奋的一点,因为这是用户体验的下一次跃进。
"我包容万象,"Walt Whitman如是说,这个显而易见的真理击中人心。我们所有人在不同情境下展现不同的面貌——我们对待伴侣、堂表亲戚、同事或街上陌生人的方式都不相同。
人际互动是复杂而动态的,是每个参与者独特大脑的化学反应,也是群体共同历史和特定情境的产物。
科技世界已经拥抱了个性化,从TikTok的"为你推荐"到Instagram精准得可怕的广告,再到Netflix的"接下来观看",建立了一个推荐引擎的时代。
个性化的下一阶段不仅仅是选择展示什么内容,而是如何塑造内容的呈现方式。
如果服务知道我是视觉学习者,喜欢比喻,偏好直接了当的风格,那就翻译信息以最好地连接我的大脑。
如果我询问流体力学的解释,给我一个交互式图表。如果我在决策中纠结,把它与我最喜欢的电影情节联系起来。如果我要求论文批评,看在上帝的份上,不要给我"三明治式赞美"。
了解我!询问我的偏好!问我问题不是因为算法要优化我的使用时长,而是因为它在努力更智能地为我提供卓越体验。
有一个我惊讶尚未得到更多关注的低门槛领域是AI辅助的用户引导。我说的不是那种大家都急于跳过的繁琐向导;我想象的是与新团队成员第一次愉快会面的感觉。
当然,AI服务可以静默观察用户的反应和行为,随时间学习如何个性化——我们人类也这样做,但我们最直接的方法是询问相关的情境问题。如果老板说"嘿,我需要你做X",我们可能会追问"为什么X很重要?"或"X的成功标准是什么?"了解这些能让我们更可能做出符合甚至超越老板期望的工作。
如今,许多AI聊天机器人几乎无法区分。没有主动指导,我得到的答案与其他人得到的几乎没有区别。这里的机会巨大。
通过更好的提问和倾听,通过对我们奇特而独特大脑的更深理解,下一代产品和服务能将其翻译效力提升10倍,无论是学习、生产力、娱乐还是支持方面。
v.
对话界面确实神奇,但让我们不要停留在炒作站,忘记了追求质量的列车在AI技术突破助推下正朝着更直观的交互体验继续前进。
有效翻译的圣杯就在不远处等待。是的,这正是创新的美好时代。