其他动态 ✦

产品推荐 ✦

Youmind:AI内容剪藏工具

之前语雀的负责人玉伯出来之后的创业应用,类似一个体验更好加了更多AI的Readwise,支持 AI 总结和交流剪藏内容,可以选语言,Youtube 视频剪藏支持字幕转录,支持自己记录的笔记,支持语音收听收藏内容,收藏的播客可以在平台收听而且会生成时间轴。
An image to describe post

Exa Websets:结构化AI搜索

AI 搜索居然还能有新玩法,Exa 发布 Exa Websets 可以将互联网变成超大数据库,方便查询任何结构化信息。他们还发现了类似 O1 的搜索 Scaling law 法则。搜索使用的计算量(时间)越多,搜索的结果就越全面。比如你需要搜索符合要求的候选人,他会给你一个详细的表格里面有人物和各种信息。
An image to describe post

Dia:Arc团队新产品

Arc团队一直遮遮掩掩的新产品终于官宣了,还发了一个视频来招聘,从演示的几个功能来看相当强,他们对AI交互的思考很本质,有点像第一性原理,直接从现代PC三个最重要的交互入口结合AI迭代,我管他叫三个入口一个核心,这个核心他没说被他藏起来了,三个入口:输入框、光标、鼠标箭头,一个核心:基于已选内容的意图预测生成备选操作。
An image to describe post

Pearl:一本与你一起反思的AI日记

Pearl 是一本通过职业挑战、日常感恩时刻等来可视化和综合生活的日记。旨在让反思变得愉快、简单,它通过智能化的方式了解用户的情感、整理焦虑和洞察力,并提醒用户不要忘记待办事项。
An image to describe post

Plot:快速保存和分析社交媒体的创意

一个专为社交媒体团队和内容创作者打造的创意中心,它提供了一个综合性的平台,让用户能够规划、存储和获取内容。用户可以通过Creative Juicebox 功能保存灵感,无论是链接、笔记、语音笔记、照片还是视频,这些内容可以通过短信、移动应用或桌面应用程序随时随地保存。Plot还推出了AI 视频社交聆听功能,帮助用户与社区建立联系并提供人工智能生成的洞察,无需进行标记。此外,情节提供了内容日历功能,帮助用户规划和管理内容发布日程。
An image to describe post

精选内容 ✦

Lilian Weng:关于强化学习中的 Reward Hacking 综述

强化学习中的奖励黑客行为是指智能体利用奖励函数中的缺陷或模糊之处来获得高奖励,而不是真正学习或完成预期任务的现象。奖励黑客在语言模型的强化学习训练中是一个重要挑战,尤其是在RLHF(从人类反馈中学习)中。此外,目前对实际缓解措施的研究仍然有限。

介绍内容包括:Reward Hacking 的定义与本质;为什么会存在 Reward Hacking;Reward Hacking 在语言模型中的表现;缓解策略。

比较重要的发现有:

  • 更强大的模型更容易发现并利用奖励函数的漏洞
  • 扩大模型规模往往会提高代理奖励但降低真实奖励
  • Reward hacking行为可能会在不同任务之间泛化
  • 使用语言模型作为评估器时容易受到位置偏差的影响

Anthropic’s Claude Computer Use 改变了游戏规则 | YC Decoded

在「YC Decoded」系列中,介绍了 Anthropic 公司的 Claude 电脑,这是一款基于人工智能的计算机,专门设计用于理解和生成人类语言。Claude 的出现被视为技术领域的一个重大突破,因为它能够处理多种复杂的语言任务,从而极大地提高了效率和准确性。视频中进一步探讨了 Claude 如何通过与用户的互动,学习和适应不同的语境,以及它对未来人工智能应用的广泛影响。

a16z:哪些伟大的想法将定义 2025 年及以后

外部"人工智能大脑"、生物制药领域的重大变革、无限游戏、核能复兴、"无面孔"创作者、谷歌搜索的挑战者、战场人工智能。邀请了50位 a16z合伙人预测将在2025年推动创新的重大理念。

  • 美国动态:预计 2025 年将出现对核能的需求增长,以及技术人才的重新培养,特别是在硬件和软件交叉领域的技术人才。
  • 生物健康:生物技术领域将重新关注大型疾病的治疗,特别是心血管疾病和自身免疫性疾病。健康科技将更加民主化,使得个人能够更好地监控和管理自己的健康状况。
  • 消费技术:消费技术领域将实现实时人工智能的应用,如实时 AI 鼓手,以及视频内容的个性化和专业化。预计每个人都将拥有一个个性化的知识工作助手,并且将能够更有效地分析定性数据。
  • 加密货币:加密货币领域将看到更多的 AI 代理拥有自己的钱包,以及去中心化的自治聊天机器人的出现。
  • 游戏:游戏领域预计将出现新一代的埃克斯曼等公司,这些公司将利用 AI 技术创造新的故事叙述方式。
  • 基础设施:基础设施领域将关注 AI 超级计算中心的建设,以及小型、高效的在设备 AI 模型的发展。AI 在数学、物理和编程领域的推理能力将得到提升。
  • 成长期技术公司:成长期技术公司将面临搜索引擎竞争的变化,AI 技术将推动 AI 原生应用层的发展。

人工智能产生的业务

文章详细剖析了 OpenAI 从一个没有商业模式的非营利组织,到成为值几十亿美元的科技巨头的转变。OpenAI 在 2015 年由伊隆・马斯克(Elon Musk)和山姆・奥尔特曼(Sam Altman)等人共同创立,最初以研究和开发安全的 AGI 为目标,吸引了众多顶尖 AI 研究人员和大量投资。尽管 OpenAI 一度没有收入来源,但它依然在 AI 领域引起了巨大波动,特别是在推出 DALL-E 和 ChatGPT 等产品后,尤其受到关注。这些产品的成功不仅为 OpenAI 带来了巨额收入,也促使它转型为一家盈利企业,并与微软建立了深入的合作关系。文章还分析了 OpenAI 如何利用 AGI 的概念来吸引投资者和企业客户,以及它在商业化过程中面临的挑战和风险,包括版权争议、市场泡沫以及 AI 伦理和安全问题。

o1 Pro Mode - ChatGPT 专业版全面分析(加上 o1 论文要点)

主要围绕 ChatGPT Pro 的功能和性能进行深入探讨。视频中,首先介绍了 ChatGPT Pro 的高级功能,包括但不限于其对话能力、应用场景以及与普通版本的 ChatGPT 相比的优势。此外,视频还特别强调了 ChatGPT Pro 在处理复杂任务时的表现,以及它如何帮助用户提高工作效率。除了对 ChatGPT Pro 的分析,视频还提取了 o1 论文的关键点,这些点可能包括了 o1 模型的技术创新、研究成果以及对人工智能领域的潜在影响。

迟来的 OpenAI o1

主要探讨了 OpenAI o1 模型的特点、compute 视角、scaling laws 视角、用户视角以及安全性视角,并对其可能的影响和潜在的安全问题进行了分析。

  • OpenAI o1 模型通过后训练,使其能够在回答问题之前进行更长时间的思考,这对于需要深入思考的领域如数学、编程和研究特别有益,但也意味着需要更多的计算资源
  • 在 compute 的视角下,o1 的出现体现了在测试时使用更多 compute 资源的新趋势,这可能是一种比单纯增加模型大小更有效的方法。
  • Scaling laws 研究表明,训练时间的 compute 和测试时间的 compute 之间存在着对数线性的交易关系,这为 o1 模型使用更多测试时间 compute 来提高性能提供了理论支持。
  • 用户可能会接受 o1 模型较慢的回答速度,因为它能够解决更复杂的问题。同时,AI 的进步需要考虑到边际返回,即在不同领域,AI 智能提升的边际收益是否值得。

通向未来的人工智能桥梁

网页主要探讨了从大型机到个人电脑再到智能手机和可穿戴设备的计算机技术发展历程,以及生成式人工智能如何成为连接当前设备与未来计算范式的桥梁。

作者将视线投向未来,认为生成式人工智能将是连接当前智能手机与未来可穿戴设备的关键。他用 Meta 的 Orion AR 眼镜作为例子,说明了生成式人工智能如何为用户提供按需的用户界面(UI),从而使设备更加智能和便捷。文章最后表达了对未来技术发展的乐观态度,认为生成式人工智能的进步将填补技术发展的空白,为新的计算范式铺平道路。

AI 生产力悖论:为什么没有更多工人使用 ChatGPT?

尽管 ChatGPT 等 AI 工具能够极大提升生产力,但大多数知识工作者只是使用它进行基本任务,如总结,而高级用户很少。作者通过自己的经验,展示了利用大型语言模型(LLMs)完成复杂数据结构化和分析任务的实例,强调了 AI 成功的关键在于领导层支持和专注的思考时间。文章还指出,尽管高管们认识到 AI 的重要性,但系统性问题和工作压力导致 AI 工具无法得到充分利用。作者建议,为了充分发挥 AI 的潜力,需要投资于人员的培训和时间,让员工有机会探索和实验 AI 技术,并且需要领导层创造适当的工作环境,鼓励深入、开放、目标驱动的工作

重点研究 ✦

腾讯开源混元视频生成模型

腾讯上周开源了开源了参数最多、性能最强的文生视频大模型。我已经测试了一段时间。混元视频生成模型整体效果非常厉害,在美学表现、稳定性、运动幅度的品质上都是一流的。

中国风格特色内容的表现非常强,不只是古装内容,中国现代的内容也很符合现实。

原生支持通过提示词实现镜头切换以及切换后 ID 保持一致的能力。

在一些激烈运动场景的运动幅度非常大而且还能保证肢体和物理特性的稳定。

Comfyui插件和V2V流程已经发布了

微软开源 3D 生成模型 TRELLIS

微软开源的这个 3D 生成项目 TRELLIS 太好了。试了几个又快又好,16G 显存占用,即使是演示空间,一次生成也只需要 十几秒。可以生成各种最终的 3D 表示,包括但不限于辐射场、3D 高斯和网格,满足不同的下游要求。

负向标记合并: 基于图像的对抗性特征引导

 NegToMe(Negative Token Merging),这是一种创新的、无需训练的方法,用于通过图像直接进行对抗性特征指导。该方法的核心思想是在逆扩散过程中,通过将参考图像和输出生成之间的匹配语义特征选择性地推开,来执行对抗性指导。

NegToMe 可以显著提高输出多样性,包括视觉、性别和种族多样性,而不牺牲图像质量。其次,通过将输出特征与版权图像的特征区分开来,NegToMe 能够减少与版权内容的视觉相似性 34.57%。

运动提示: 利用运动轨迹控制视频生成

该研究提出了一种基于轨迹条件的视频生成模型,能够通过点轨迹来编码运动信息,无论是单个点还是场景中的多个对象,甚至包括遮挡和时间上稀疏的运动。

研究团队通过构造 “motion prompts” 来实际使用这一模型,这类似于向语言模型提供提示,可以引导模型展现不同的能力,包括对象控制、物理现象的产生、摄像机控制、同时的对象和摄像机控制、基于拖动的图像编辑、运动放大以及运动迁移。

研究还展示了如何通过用户鼠标运动和拖动来构造运动提示,以及如何通过单目深度估计器获得点云,进而实现摄像机控制。又是谷歌的研究估计开源无望了。

长序列的高效 LLM 推理

由于自我注意机制的二次方复杂性,基于变换器的大型语言模型(LLM)在长序列上的推理既昂贵又缓慢。我们引入了 Star Attention,这是一种分两个阶段的块稀疏近似方法,它通过在多个主机之间分片处理注意力来提高计算效率,同时最大限度地减少通信开销。在第一阶段,使用跨主机的分块本地注意力并行处理上下文。在第二阶段,查询和响应标记会通过序列全局注意力关注所有先前缓存的标记。Star Attention 可以与大多数使用全局注意力训练的基于 Transformer 的 LLM 无缝集成,将内存需求和推理时间最多减少 11 倍,同时保持 95-100% 的准确率。

ClearerVoice-Studio:音频处理工具集

该工具包包含了语音增强、分离和目标发言人提取等功能的最先进预训练模型,如 FRCRN 和 MossFormer。用户可以直接使用这些预训练模型,而无需从头开始。ClearerVoice-Studio 设计了一个统一的推理平台,使得模型的使用变得简单而灵活。此外,该工具包还提供了训练和推理脚本,以及一个名为 SpeechScore 的语音质量评估工具包,用于评估不同模型的性能。


你可以在这里找到我:
| 即刻 | 推特 | Quail订阅 | 微信公众号:歸藏的AI工具箱 |邮箱:[email protected] | 微信号:op7418

也可以分享给更多的朋友,让大家都有机会了解这些内容,扫描下面右侧二维码加我好友,我拉你进会员交流群。

An image to describe post