大家好,我是德曼,欢迎来到我的毕业回顾系列第二篇(EP2)。

过去两三年,AI 的发展节奏非常快,从 GPT-3.5 到多模态大模型,从“会说话”到“能动手”,每一次模型升级都带来了应用方式的变化。而我,也在这个浪潮中,经历了几次不同的 AI 实践。

这篇文章,我想聚焦三个具体案例,回顾从 2022 年底 GPT-3.5 发布以来,我亲身使用或接触到的三个“AI 工具场景”,聊一聊我观察到的,AI实践的瓶颈、进步和未来。


📘【 Part 1】从课堂自救到工具组合:耶鲁法律课上的 AI 实践

2023 年暑假,我在耶鲁大学选修了一门法律课程《What is Law》。这门课的 workload 非常大:每周三节课,每节课前需要阅读 10 篇左右的 PDF,每篇 20-40 页。对于一个此前从未接触过英美法体系的商科生来说,单是阅读就已经是挑战。而更大的问题,是教授带着浓重的德语口音加口罩授课,我常常听得云里雾里,记不下笔记,也跟不上节奏。

当时我选择了一种“工具拼接式”的解法来做课堂笔记:

  • 使用 Otter App 录音,并同步生成转写文档;
  • 再用 ChatGPT-3.5 对转写内容分段总结,整理成结构化笔记;
  • 最后,将输出粘贴进 飞书文档,再调整格式、加超链接。

回顾当时的工作流,我整理了一份“AI 笔记生产线”:

工作层级 工具组件 功能描述 痛点与限制
录音层 Otter App(iPhone) 录音转写一体,自动同步 长时间录音发热、耗电,来电会中断
转录层 Otter 转写 + Word 手动切割 自动转写后手动拆分 法律术语识别差,由于token限制,需要手动切割长文本,影响连贯性
处理层 ChatGPT-3.5 总结笔记内容 记忆功能缺陷,需要不断优化和重复输入prompt
输出层 飞书文档 汇总整理,加目录与链接 格式调整耗时,效率低

可以看到,2023年夏,AI工具尚未形成“一站式”处理链条,模型本身的能力也存在一定缺陷,需依赖多个App协作补足模型能力的缺口,降低了工作的效率。

这个使用案例中的困难,其实具有相当的普遍性。因此,越来越多的科技厂商开始关注AI录音与整理场景的深度优化。例如,三星、讯飞听见、飞书等平台都陆续推出了带有语音转写、智能摘要甚至AI助理功能的产品,试图构建更完整的闭环。

在早期的 AI 应用中,用户面临的最大挑战之一是“碎片化困境”:他们无法在一个统一的平台上完成一个完整任务,而是需要在多个工具之间反复切换,拼接流程,才能完成笔记整理、转录、摘要等工作。
——我在耶鲁课堂上的 AI 实践反思

而有趣的是,我2023年暑假的面临的痛点,在我2024年寒假的一段实习中,找到了答案。


🎙 【Part 2】闭环的力量:我对 Plaud AI 成功案例的思考

2024 年寒假,我在一家 AI 硬件创业公司——Plaud AI 实习。这家公司主打的核心产品是一款便携的 AI 录音笔——Plaud Note,正是我在耶鲁时渴望拥有的那种“更进一步的 AI 工具”。我也从产品侧,亲历了解决方案的落地过程,见证了AI工具短短一年内的飞跃式进化。

Plaud Note 的使用流程非常顺滑:

  1. 按下录音机按钮,即刻开始录音;
  2. 录音完成后,打开手机端配套App,音频会自动同步;
  3. 用户可选择预设的system prompt模板,例如“会议纪要整理”、“课堂笔记提炼”、“访谈摘要提取”等;
  4. 系统随后会自动完成转录+摘要+结构化输出+思维导图生成的全过程,几乎实现了零操作负担。

An image to describe post

这与我一年多前在耶鲁“拼接工具”的做法相比,形成了鲜明对比。

对比维度 2023年暑假手动工作流 2024年Plaud AI产品方案
工具整合度 多工具组合,流程碎片化 一体化硬件+软件闭环,流程自动化
Prompt适配 每段内容需人工编写Prompt 支持预设Prompt模板,一键切换内容处理模式
上下文理解能力 GPT-3.5需分段输入,缺乏记忆 支持连续语境理解与摘要,多轮对话保持上下文连贯
输出形式 飞书笔记粘贴+排版 自动生成结构化摘要、标签分类、思维导图等多种形式输出
易用性与稳定性 易中断,流程易被打断 专为录音设计的硬件,按钮即录,断点自动恢复

Plaud 做到了:在一个产品内打通多个功能模块,形成完整闭环,不再依赖用户跳出 App 手动拼接操作。

2024 年 7 月,Plaud 推出的首款产品——Plaud Note,成功登顶亚马逊畅销榜榜首,全网销售额突破 1000 万美元,成为 AI 硬件赛道中的明星案例。

把AI嵌入生活的关键,不在于模型多强,而在于流程是否丝滑,是否可以实现日常学习/办公的无感集成。
——对Plaud产品成功的思考

这一成功案例也让我重新回望 2023 年在耶鲁课堂上的 AI 使用痛点,并开始深入思考:

  1. 彼时的AI工具链,是如何一步步被优化、补全,甚至实现“闭环”的?
  2. 成功的AI创业者们,又抓住了什么机会?

关于第二个问题,我将会在我后续的创业专题中进行分享,接下来我想着重讲讲,我对第一个问题的答案。

从碎片到闭环:Plaud Note 与AI工具链的进化思考

回顾 2023 年我在耶鲁课堂的 AI 使用经历,当时最大的痛点,其实不在模型“不聪明”,而在于整个工具链“不连贯”。

一方面,技术上存在诸多硬伤:模型无法处理长文本、缺乏上下文记忆、需要频繁手动切割内容;另一方面,软件层面的适配也非常薄弱:录音、转写、总结、整理各自为政,用户必须手动搬运信息、切换平台,整个过程既费时又容易中断。

简而言之,当时的 AI 工具,更像是一堆“聪明但孤立的小工具”,而不是一个真正能协同作业的智能系统。

如今,这些问题正在从两个方向被逐步化解:

1. 技术进步

  • 多模态模型的出现,让用户可以直接通过语音,文件,图片与 AI 交互;
  • 模型如 DeepSeek 显著降低了 Token 成本,鼓励了第三方软件的适配;
  • RAG(检索增强生成)与上下文扩展能力,让一次性处理长文档成为可能。

2. 软件适配

  • 各类 App 之间开始逐步打通 API;
  • AI 工具开始具备与日历、邮箱、备忘录等系统级应用的联动能力;
  • 不再是“单机版小助手”,而是真正的数字工作伙伴。

在这两个方向中,我认为:软件的适配性,才是制约 AI 广泛落地的关键瓶颈。

哪怕像 Plaud 这样领先的产品,仍然难以彻底解决“系统之外”的最后一步:

Plaud Note 为例——即便它已能在 App 内完成录音、转录、摘要、生成代办或会议提醒等操作,但用户仍需手动将这些内容导入Apple Calendar、Google Calendar、Outlook等系统日历工具,或复制到邮件、备忘录等其他 App,这个过程至今仍是许多用户抱怨的痛点。

最后一公里的断裂”,让许多用户仍感割裂与不便,阻碍了 AI 工具从“智能辅助”向“无感集成”的进化。
——对Plaud产品局限性的思考


☕ 【Part 3】YOYO助手点咖啡——聪明的AI,为什么做不了事?

在案例二中,我提到:软件适配性的局限,是制约AI落地的关键瓶颈。而这个问题,在我与一家国内互联网公司的解决方案架构师交流时,得到了进一步的印证。他提到荣耀YOYO助手的一个案例:在发布会上,用户只需说一句“帮我点一杯瑞幸美式”,手机 AI 助手便自动打开美团,完成下单。整个过程看起来流畅又智能,仿佛 AI 已经取代用户完成了操作。

An image to describe post

但在真实体验中,事情远没那么顺利。系统响应缓慢、页面误识别、操作卡顿……YOYO 助手并不是真的“帮你点了一杯咖啡”,更像是一个“模仿人类操作流程的脚本机器人”。问题的关键,不在于技术,而在于它没有权限真正控制 App 内部的服务流程。

背后的核心矛盾:谁来主导“服务入口”?

从技术上说,目前主流手机 AI 助手大多采用“视觉路线”:通过无障碍权限和录屏,模仿人类操作 App 的全过程——识别屏幕元素、寻找按钮、模拟点击。这一方案虽然看起来“万能适配”,但问题也很明显:依赖界面加载、路径冗长、易出错。

而真正理想的方式,是通过 API 调用 App 服务。比如如果美团开放订单接口,YOYO 助手就可以无需模拟操作,直接调出菜单、价格、店铺并完成下单。但现实是——美团并不愿意开放这个权限。

背后的核心问题,是流量入口的重构与利益冲突

AI 助手通过系统层的语音交互尝试直接调用服务,从而绕过 App 本身。这种趋势从用户角度看是体验升级,但从平台角度来看,则意味着核心控制力的弱化。

对美团来说,这种入口变革带来两大直接挑战:

  1. 商业利益受损
    用户跳过美团 App 界面,自然也绕过了开屏广告、首页推荐和优惠券弹窗。这些原本承载广告转化和商业变现的触点直接被 AI 助手“截胡”,而据相关数据,美团 2024 年广告营收占比接近 15%,一旦流量入口被转移,平台的盈利模型将受到直接冲击。

  2. 生态控制权弱化
    App 不再是用户完成任务的起点,AI 助手成了新的服务调度中枢。这意味着,美团逐渐从“平台”退化为“服务接口”,丧失了对用户路径、消费决策链路和数据反馈的主导权。

简而言之,这是一次由 AI 助手发起的流量再分配,也是一次平台生态话语权的重构。

美团的应对:自建 AI 闭环,不开放 API

面对这种结构性挑战,美团没有选择开放 API,而是加速在 App 内构建自己的 AI 能力。例如推出“点仔”“问小袋”等智能助手模块,在美团 App 内完成场景识别、智能推荐、路径规划等任务,尽可能把用户留在自有生态内完成闭环。

换句话说,YOYO 助手再“聪明”,也只能绕着 App 做事;而 App 平台则通过“造自己的 AI”来保住主导权。这其实已经不是谁更懂用户,而是谁能掌控用户使用的路径与界面。

AI助手的“聪明”,不仅仅是技术上的问题,更是生态规则上的博弈。
无论是YOYO助手还是Plaud产品,哪怕模型再先进,如果无法获得关键权限,AI最终也只能是我们人类某一段路程上“聪明的陪跑者”,无法变成“真正的参与者”。
——对YOYO助手案例的思考

所以说,未来 AI 能否真正“动手做事”,关键或许不在于模型的推理能力,而在于它能否被允许——被商业生态接纳、被平台规则容纳、被制度框架授权。
算力决定上限,合作决定边界。
这正是我从 YOYO 助手这个案例中得到的最大启发。


📌 下期预告(EP3):我将分享我是如何利用低代码开发平台(Dify/Coze),构建评论归类 AI Agent ,我会涉及从 Prompt 设计到工作流搭建,打造一个“定制化”的轻量 AI 工作助手的全过程。敬请期待!


关于「毕业输出挑战」🚩

受弋零的启发,我从 2025 年 4 月开始发起了自己的「毕业输出挑战」。计划在最后一个月,用 14 篇文章系统整理过去几年积累的思考、观察与知识体系,在输入—内化—输出之间,构建一个正向循环。

我选择以 Newsletter 的形式发布内容,是希望以一种更专业、结构化的方式来进行长期分享。同时,我也会在小红书上不定期发布部分内容切片,触达更多感兴趣的读者。

欢迎你在阅读过程中随时反馈:无论是内容勘误、观点补充,还是你的灵感火花,我都会认真参考并在后续内容中持续优化。

如果你喜欢这样的内容,也欢迎订阅邮箱更新,获得更完整的阅读体验。