其他动态 ✦

产品推荐 ✦

NotebookLM:更新后支持中途加入播客沟通

NotebookLM 超级大更新,你现在可以加入到播客主持人的对话中去。这个功能非常牛批,实际上是一种播客创作,这一刻这个播客具备了作者性,可被消费。同时播客的创作成本又低了无数倍,因为你不需要录制复杂的背景和常见知识,我写了一篇内容大概介绍了一下。另外还有交互界面的更新还有推出NotebookLM会员,会有更多总结和音频生成额度。
An image to describe post

Patchwork:Midjourney团队的故事创建工具

Midjourney 这个新工具太好玩了。Patchwork 可以帮你用 LLM 和 MJ 构建一个生动的世界,一旦 MJ 的视频模型完成,这个就会变成一个视频生成工具,而且你还可以通过传送门和别人的世界连接起来,生成新的故事。就是这个界面也太糙了。
An image to describe post

Deta Surf:浏览器、文件管理器和AI的结合

Deta Surf 是一个专为行动者和梦想者设计的浏览器。用户可以通过它保存强化的截图、PDF 文件、YouTube 视频、文件等内容,并能够迅速找到并自动整理这些内容。Surf 的个性化助手能够快速处理多个标签页、小时的播客和数千页的内容。用户可以通过简单的操作,如画一个矩形并提问,与浏览器中的内容进行交互。
An image to describe post

Remy:睡眠管理和跟踪

Remy的智能睡眠管理应用软件,它基于睡眠科学和行为科学,通过追踪用户的睡眠债务、警觉度、生理节律等关键指标,为用户提供个性化的作息建议,包括最佳起床、小憩、喝咖啡、工作、运动和放松的时间。该应用还能指导用户建立健康的生活习惯,如保持固定睡眠时间、晨走晒太阳、科学的睡前仪式等。根据统计,81%的用户在使用两周后睡眠质量得到改善,表现为更容易醒来、注意力更集中、记忆力增强等多方面的健康提升。

An image to describe post

Remento:为家人撰写传记的人工智能

Remento 提供了一种新颖的方式来捕捉和保存家庭成员的生活故事。用户可以通过选择提示问题,引导家人讲述他们的故事,并通过 Remento 的 Speech-To-Story™ 技术将录音转换成书本中的文字故事。这本书不仅包含文字,还可以通过扫描书中的 QR 码来听原始录音,这样家族的声音永远不会被遗忘。Remento 的服务包括一本精美的硬皮封面书籍、一年无限制的故事提示、随时下载录音、无限协作者以及美国境内免费邮寄。
An image to describe post

精选内容 ✦

Ilya 罕见发声:我们所熟知的预训练将会终结

Ilya 在 2024 年 Neurips 大会上的演讲,老哥这20分钟的演讲给本来就摇摇欲坠的LLM与训练,又埋了把土,不过虽然预训练可以做的事情不多了,但是SFT上可以做的事情还挺多,最近Gemini 2的表现给了很多人信心。我的总结。演讲大致介绍了:

  • 深度学习的演进
  • 为什么预训练已经达到上限
  • 未来的发展方向
  • 对超级智能的思考

自动识别全球 Claude 使用趋势的系统:Clio

Anthropic 推出了一个可以自动识别全球 Claude 使用趋势的系统 Clio同时还公布了一些有意思的 Claude 使用数据:前三的主要使用场景:前端开发、内容创作、学术研究不用语言的用例差别很大,给出了西班牙语、中文和日语相较于平均值出现更高的主题。

Semianalysis 上周发了一篇长文详细分析了现在 AI 扩展规律是否失败和原因。特别是澄清了关于 Claude 3.5 Opus 训练失败的传闻为什么是错误的。其他的还有AI扩展规律的现状与误解、新的扩展维度、数据挑战与解决方案、新的评估基准。

关于 Claude 3.5 Opus 的"失败"说法

文章明确指出关于 Claude 3.5 Opus 表现不佳的说法是 FUD(恐慌、不确定性和怀疑),Opus 确实达到了预期的扩展效果,性能表现良好,Anthropic 完成了 Opus 的训练,且模型表现符合扩展规律。

为什么没有发布 Opus?

这是一个战略性决策,而非技术失败,Anthropic 选择将 Opus 用作"教师模型",而不是直接发布,主要考虑是基于成本效益分析。

AI 虚拟陪伴一年谈

文章解释了大语言模型的原理,以及 AI 在泛娱乐场景中的应用,包括角色扮演大模型的发展。作者分析了人类的基本需求,如社交、情感体验、荷尔蒙需求和叙事需求,并讨论了 AI 如何满足这些需求。例如,AI 可以提供社交需求,而且不会带来人类社交时的压力和攀比心理。同时,AI 也能够满足荷尔蒙需求,尽管在国内这方面的应用受到限制。此外,AI 互动故事作为一种新的内容消费形态,也能够满足用户的情感体验和叙事需求。

文章指出,尽管 AI 虚拟陪伴在记忆力、成本、模仿能力和多模态交互方面存在问题,但已有的解决方案和技术进步为未来的发展提供了希望。

FlexOS.work 对 AI 平台进行了调查,揭示了全球领先的 AI 营销工具。报告指出,视觉设计和内容辅助工具在全球范围内非常受欢迎,尤其是在亚洲市场。研究还发现,图像生成器和编辑器类别在 50 个 AI 营销工具中占据了主导地位,拥有约 70% 的总流量。此外,AI 营销视频工具也受到了显著关注,成为第三受欢迎的类别。AI 写作工具的数量最多,短篇内容创作工具尤其受到欢迎。报告还指出,AI 营销工具在亚洲,特别是印度市场的采纳率非常高。

鱼眼:不同抽象级别的信息

作者 Amelia Wattenberger 通过对比鱼眼镜的视觉效果,阐述了如何将这种多层次的视角应用于文本信息的展示。她首先通过描述鱼的不同缩放视角,以及地图和文本的不同层次的例子,说明了不同的抽象层次可以提供不同的信息和视角。
作者提出,如果能够同时展示文本的不同层次,就像鱼眼镜同时提供焦点和背景一样,将大大提高信息的理解和学习效率。

作者进一步讨论了在学习和获取知识时,上下文的重要性,并强调了在获取信息时,不仅要关注细节,还要将其放在更广泛的背景中考虑。

使用人工智能的 15 个时机和 5 个禁忌

文章首先强调了 AI 在特定任务中的实用性,例如需要大量创意生成、专家可以快速评估 AI 输出的工作、总结大量信息、文档间的内容翻译、帮助克服工作中的障碍、提供多样化的解决方案、在编程和其他研究表明 AI 有帮助的领域、提供不同视角的初步反馈、辅助创业活动、提供特定视角的模拟反馈、处理无实际意义的仪式性工作、以及提供第二意见等方面。

同时,文章也指出了 AI 不适用的场景,包括需要个人学习和思考新知识的场合、需要极高准确性的工作、不理解 AI 失败模式的情况、当努力本身是目标时、以及 AI 在某些任务上表现不佳的情况。

最后,文章强调了 AI 使用的智慧,即 AI 最有用的场景往往是我们已经是专家并能够识别其错误的领域,但在我们成为专家的深入工作中,AI 却可能不那么有帮助。

AI需要新的UI来完成

Des Traynor 在 X 上发起了一个讨论,旨在汇总和探讨生成式 AI 所需的新型用户界面(UI)的例子,并强调这些 UI 对未来的相关性。他提到了几个具体的例子和趋势,包括:

  • 需要 UI 来处理大量混乱的文本或音频输入,并可视化由此产生的操作,例如 Day_ai_app 的解决方案。
  • 随着我们使用概率性技术构建确定性工作流程(反之亦然),我们需要显示任何破碎的逻辑,例如 Attio 的一些很好的设计。
  • 生成问题答案时,需要可视化答案来源以便进行验证和修正,Intercom Copilot 展示了这一点。
  • “直接输入” 类型的 UI 将更加简洁美观,例如 MyMind 展示的结果。
  • 我们将频繁使用文本和提示,需要方法来可视化哪些片段对于什么目的是相关的,Mrncst 提供了一个很好的模拟。
  • “视觉提示” 可能会成为 UI 中的输入机制,因为有时候草图比描述草图更容易。
  • 用户创作时需要更丰富的输入指导,以便更具表现力,例如 MsFeldstein 和 Jsngr 的工作。

重点研究 ✦

训练LLMs在连续潜在空间中进行推理

大型语言模型(LLM)的推理被限制在"语言空间"中,它们通常通过思维链(CoT)来表达推理过程以解决复杂的推理问题。然而,我们认为语言空间可能并不总是最适合推理。例如,大多数词语标记主要是为

文本连贯性而非推理必需,而一些关键标记则需要复杂的规划并给LLM带来巨大挑战。

为了探索LLM在不受限制的潜在空间而非自然语言中进行推理的潜力,我们提出了一个新范式Coconut(连续思维链)。我们利用LLM的最后隐藏状态作为推理状态的表示(称为"连续思维")。我们不把它解码成词语标记,而是直接在连续空间中将其作为后续输入嵌入反馈给LLM。

用于合成数据生成的多代理框架

通过函数或工具扩展大型语言模型(LLM)与环境交互的能力,促使了agent范式的出现。在工业界,由于领域数据稀缺、客户专有数据的法律限制、快速变化的业务需求以及需要对新型助手进行原型设计等原因,训练LLM并不总是可行的。Agent通过依靠底层LLM的零样本推理能力,利用工具来探索和推理客户数据并响应用户请求,为上述问题提供了一个优雅的解决方案。

然而,这里存在两个问题:(I)获取大规模的客户查询用于agent测试是耗时的,以及(II)高度依赖agent用于响应用户查询的工具调用序列(或轨迹)可能导致意外或错误的行为。为了解决这些问题,我们提出了MAG-V,这是一个多agent框架,首先生成模仿客户查询的问题数据集;其次,从响应中反向工程出替代性问题用于轨迹验证。

Anthropic:Best-of-N 越狱

发现了一种简单、通用的方法,可以越狱(绕过)前沿人工智能模型的安全功能,并且适用于文本、视觉和音频。

该算法通过对输入进行重复采样和变换,如文本的随机打乱、大小写变换等,直到引发有害响应。实验结果表明,Best-of-N Jailbreaking 在闭源语言模型上取得了高攻击成功率,例如在 GPT-4o 上达到了 89%,在 Claude 3.5 Sonnet 上达到了 78%。该方法同样有效于突破现有的开源防御措施。

此外,该算法也能够扩展到视觉语言模型(VLMs)和音频语言模型(ALMs),使用特定于模态的变换技术。研究还发现,随着采样的增加,攻击成功率 ASR 随着样本数量 N 的增加而显示出类似幂律的行为。Best-of-N Jailbreaking 还可以与其他黑盒算法(如优化的前缀攻击)结合使用,从而进一步提高攻击成功率,最高可达 35% 的增幅。

微软发布Phi-4

微软最新发布的 Phi-4 是一款具有 14B 参数的小型语言模型,它在复杂推理任务上表现出色,尤其是在数学问题解决方面。Phi-4 通过使用高质量的合成数据集、有机数据的精选以及后训练创新,超越了相似和更大型模型在数学相关推理能力上的表现。该模型目前在 Azure AI Foundry 上通过微软研究许可协议 (MSRLA) 提供,并将在 Hugging Face 上市。

驯服多模态联合训练,实现高质量视频到音频合成

MMAudio 项目旨在通过多模态联合训练实现高质量的视频到音频合成。该项目的关键创新在于同步模块,它能够将生成的音频与视频帧对齐。

单示例推理已经可以使用,而训练代码将会添加。MMAudio 能够处理视频和 / 或文本输入,并且支持多种预训练模型,包括不同尺寸和采样率的流量预测网络、VAE 和声码器。

看了一下自动配音的效果非常好。


你可以在这里找到我:
| 即刻 | 推特 | Quail订阅 | 微信公众号:歸藏的AI工具箱 |邮箱:[email protected] | 微信号:op7418

也可以分享给更多的朋友,让大家都有机会了解这些内容,扫描下面右侧二维码加我好友,我拉你进会员交流群。

An image to describe post