其他动态 ✦
- ChatGPT Plus 桌面版用户可以体验的新功能。可以直接查看编程应用程序的内容,提供更好的解答。
- Runway API 更新:添加了关键帧支持;新增了具有更高并发限制的自助服务层级;支持多用户组织以优化管理员管理。
- 谷歌推出 gemini-exp-1114 模型,在LLM竞技场超过了O1,数学、困难提示、创意写作、视觉都排第一,API已经提供。
- iOS 端的 Gemini 已经上线了,iOS 用户现在可以单独使用 Gemini。
- Greg 休假结束了,回到了他忠诚但少了很多人的Open AI,看看会有啥变化。
- Ilya 在接受路透社采访时表示AI 模型预训练阶段的规模化效果已经遇到了瓶颈,之后Sam发推说那堵墙不存在。
- OpenAI 正准备推出一款代号为“Operator”的新型人工智能代理,它可以使用计算机代表人采取行动,例如编写代码或预订旅行。
- 郭明錤表示,苹果计划在 2026 年推出首款智能家居相机,配备 Apple Intelligence 和 Siri。
- 表现非常好的抠图模型 BRIA 发布2.0版本,不过不能商用。
图像及视频作品推荐✦
- Silverside AI 用AI为可口可乐做的怀旧版本广告。
- Runway 也和艺术家合作了一个高水平的动画,环境部分用AI生成,角色动画人工绘制,整体很像拾荒者统治。
- 土耳其老师根据学生未来想成为的职业,生成对应职业 AI 照片打印出来给他们。
- 一个很有潜力的视频玩法:用历史上的著名画作生成视频。之前应该很多人玩过,不过现在技术好了,可以继续玩。
- V2V 的另一个非常好的用法,转换一些画质没那么好的游戏视频。《深海迷航》本身的画质是很差的,但是用了 V2V 之后表现力一下高了一大截。
产品推荐 ✦
Hello Patient:医疗行业AI助理
Hello Patient 一个自动化的医疗行业 AI 助手。能够自动化电话和短信通信,在适当的时间与每一个患者和推荐来源进行交流。并且能够与 EHR、CRM 和 PMS 系统无缝集成。医疗行政确实浪费了非常多的人力和资源。AI 更适合安排预约、时间安排、医保查询等工作,即使不用来治病提效也是巨大的。

Anthropic 的提示词工具更新
对我们各种任务最实用的提示词,还是推荐用 Anthropic 的提示词工具生成。过于普适性的提示词肯定没办法胜任所有任务。他们对提示词生成器做了大幅更新,现在可以自动生成带有思维链的提示词了。
- 思维链推理:添加了专门的部分,供 Claude 在做出响应之前系统地思考问题,以提高准确性和可靠性。
- 示例标准化:将示例转换为一致的 XML 格式,以提高清晰度和处理能力。
- 丰富示例:通过与新结构化提示相一致的思维链推理来增强现有示例。
- 重写:重写提示以澄清结构并纠正任何小的语法或拼写问题。
- 预填充添加:预填充助手消息以指导 Claude 的操作并强制执行输出格式。

Context:强大的AI办公助理
产品可以自动从邮件中发现任务,自动检索互联网信息,多内容核对数据,然后生成文档,之后用工具生成对应的 PPT完成任务。
基本上就是实习生每天在做的事情,感觉以后这类文本工作都会被 AI 完全替换掉。链接几乎所有的文档和云盘工具,自动分析数据生成内容,创建文档、表格和 PPT 办公三件套的内容。

精选内容 ✦
Runway CEO 关于现代图形学和AI视频异同的讨论
Runway CEO 是这波 AI 视频所有公司中想的最清楚的一个。其他产品都是模型是模型产品是产品,像是出现 bug 的机器人,左脚画圆右脚踢。
现代图形学是先解决了控制问题再解决的渲染质量问题。AI 发展则反其道而行之,先端到端的解决了渲染质量问题,我们面前的是控制问题。
正如计算机图形学最终解决了渲染问题,AI 也一定能解决控制问题。核心不是是否可以解决,而是我们准备如何解决。
AI 生成内容是否能够提供与传统计算机图形学同等水平的可预测性和精确性,这正是 AI 生成内容能否成为创意表达基础工具的关键所在。
我们的目标是实现**实时、低成本,并且具备尽可能直观和通用的精确控制能力。**这一次,控制能力虽然最后才能实现,但它终将到来。
Anthropic CEO 接受了 Lex Fridman 长达五个小时的访谈
Anthropic CEO 接受了 Lex Fridman 长达五个小时的访谈。里面的信息非常丰富,老哥真的实诚。
内容包括:AGI 何时到来;Scaling Hypothesis的定义以及是否结束;Anthropic的产品策略;LLM可解释性研究;AI发展时间线的介绍和预测等。
我自己转录了内容整理了一些上面的要点,感兴趣也可以看看。
a16z RIP to RPA: 智能自动化的崛起
智能自动化的机会巨大,涉及的市场包括 800 万个操作和信息柜员职位,以及 2500 亿美元的商业流程外包市场。智能自动化的未来可能会集中在两个领域:一是横向的 AI 启用者,提供广泛应用的基础功能;二是纵向的自动化解决方案,针对特定行业构建端到端的工作流程。网页以医疗和物流行业的例子展示了智能自动化的具体应用,如 Tennr 在医疗领域自动化参照管理流程,Happyrobot 和 Vooma 在物流领域自动化订单处理和货运跟踪。
AI 创业公司最大的陷阱:专注服务其他 AI 创业公司
Codeium 负责人的专访,详细介绍到了如何用你的人工智能产品赚钱。
Anshul Ramachandran 分享了 Codeium 如何在十个月内从零增长到超过 1000 万美元的年度复合增长率(ARR),以及 enterpriseready.io 在推荐企业级产品时可能遗漏的考虑。他强调,AI 初创公司应该从一开始就构建能够在最恶劣的企业环境中使用的产品,特别是针对非科技企业,因为他们通常有更多的开发者和更严格的限制。Anshul 提出了三个论点:选择长期的 AI 产品策略、如何让产品脱颖而出以及如何用 AI 产品赚钱。他认为,要在生成式 AI 世界中持续赚钱,公司必须成为企业基础设施本地化的公司,这意味着能够处理企业的复杂需求,如安全性、合规性、个性化、分析与 ROI 报告、延迟、规模等。
研究了200,000 个AI生成的搜索关键词后我们学到了什么
Semrush 对 100,000 个移动和 100,000 个桌面关键词进行了研究,发现 AI 概览主要出现在低搜索量(小于 1000 次月搜索)和信息性查询的关键词中。研究还揭示了 AIOs 的内容长度和链接数量的变化,以及 AIOs 中 URL 与顶部 10 个有机搜索结果之间的重叠率。结果表明,即使在顶部有机搜索结果中,也不能保证出现在 AIOs 中,且 AIOs 中的 URL 与有机搜索结果的重叠率不高。此外,研究指出,PPC 广告在 AIOs 出现的搜索结果页(SERP)上的存在率很低,且 AIOs 中很少包含顶部 3 个有机搜索位置的 URL。
被集体忽视的 3 万亿美元 AI 商机
市场分析家关注的 AI 基础设施的投资数字(6000 亿美元)似乎远远超出了实际收入潜力,很多人担心投资过度。然而,作者认为这种观点恰恰相反,实际上是大大不足的投资。文章通过数据显示,AI 生成的个性化音视频广告的市场潜力是巨大的,预计将大幅扩展现有的数字广告市场。
数据显示,随着用户规模的扩大,个性化广告的优势呈现出显著的复合效应。例如,在达到 1000 万用户时,性能提升了 15 倍。此外,AI 生成的个性化广告可能会显著降低创意制作成本,进一步扩大市场规模。
文章预测,到 2030 年,个性化广告市场的规模将达到 1.5 万亿至 3 万亿美元之间,这一估计比当前的 2024 年关于 AI 基础设施的担忧更为阔远。
3 个人工智能用例:上帝、实习生和齿轮
探讨了人工智能的三种用例:超智能实体(Gods)、受监督的副驾驶(Interns)和专注于单一任务的函数(Cogs),并对它们的特点、应用场景和发展前景进行了分类和分析。
Gods代表的是通用人工智能(AGI),它们需要巨大的模型和资源投入,目前只有少数实体在追求这一领域,但其潜在的影响巨大。
Interns是与专家合作的 AI 副驾驶,它们在专业领域内提供了显著的增值,帮助专家提高效率和能力。
Cogs是作为系统中的齿轮存在的 AI,它们高度专业化,专注于执行单一任务,通常运行成本较低,在企业中的应用非常广泛。
Toys是一种次要的 AI 用例,主要用于娱乐,对错误容忍度高,改进的重点在于用户界面。
Bolt.new 大师班:如何构建AI应用程序
一个非常详细的视频教程,教你零基础使用Bolt构建应用,包含三个案例和一些基础知识。
比较 Bolt.new 与 Cursor 的 AI 开发,如何利用 Bolt.new AI 功能进行代理项目,Bolt.new 编码和自动化分步指南。
项目包括:AI价值评估工具、LinkedIn 帖子生成器、事实检查器文章生成器、基本代理工具和服务。
人工智能的力量:扩大数据中心容量,满足日益增长的需求
麦肯锡详细的博客文章介绍了人工智能需求不断增长带来的数据中心市场机遇。
随着 AI,特别是生成式 AI(gen AI)的普及,对数据中心的需求激增,预计到 2030 年,全球数据中心能力需求将以 19% 至 22% 的年增长率增长,可能导致供应短缺。为了满足这一需求,数据中心的整个价值链上的公司和投资者都有机会参与,但他们需要理解 AI 时代的数据中心需求。大约 70% 的需求是为了能够承载高级 AI 工作负载的数据中心
AI 工作负载对数据中心的设计和运营带来了新的要求,包括位置选择、电力基础设施、机械和电气系统设计的变化。数据中心的位置选择越来越受到可靠电力供应的限制,而且随着 AI 芯片的发展,数据中心的电力密度也在不断增加。为了应对这些挑战,数据中心运营商正在采用液冷系统和更高效的电力分配系统。
设计认知架构: 从零开始的代理工作流模式
一篇技术指南,旨在帮助 AI 研究人员和实践者理解和实现 8 种重要的代理工作流模式。这些模式包括反思模式、网络访问模式、语义路由模式、并行委派模式、动态分片模式、任务分解模式、动态分解模式和 DAG 编排模式。每种模式都通过使用大型语言模型(LLMs)和智能代理来提高 AI 系统的功能,例如自我校正、知识扩展、任务协调、并行处理、可扩展性、动态适应和复杂任务的分解与协作。
重点研究 ✦
Magic Quill:整合的AI图片编辑工具
MagicQuill 是一个集成的图像编辑系统,旨在帮助用户快速实现创意。系统提供了一个简洁而功能强大的界面,允许用户通过少量笔触表达想法,如插入元素、擦除物体或改变颜色等。系统的核心是一个多模态大型语言模型(MLLM),它能够实时预测用户意图,无需手动输入提示。此外,系统采用了增强的双分支插件模块来提升噪声泛化先验的性能,从而实现精确的编辑控制。
系统具备三种类型的魔法笔触工具:添加笔触用于引导提示添加细节和元素;减少笔触可以移除不满意的部分或根据提示重新绘制区域;颜色笔触可以精确地对图像进行上色
字节图像编辑模型SeedEdit
豆包大模型团队公布了通用图像编辑模型SeedEdit。支持通过自然语言对生成的图片进行修改,比如换装、美化、转换风格,再指定区域添加或者删除元素等操作。
试了一下效果挺好的,图片编辑门槛已经低到离谱了,你可以像指挥设计师一样指挥豆包,而且豆包还不会像设计师一样改烦了骂你。
目前已经在豆包PC端及即梦网页端开启测试。生成图片后鼠标 Hover 点击继续编辑输入文本体验。
谷歌开源获得化学诺奖的蛋白质结构建模工具 AlphaFold 3
谷歌居然开源了获得化学诺奖的蛋白质结构建模工具 AlphaFold 3。科学家们现在可以下载软件代码并将 AI 工具用于非商业应用。现在任何人都可以下载 AlphaFold3 软件代码并用于非商业用途。但只有具有学术背景的科学家才能根据要求获取模型权重。
FrontierMath 一个新的强大数学基准测试
FrontierMath 一个新的强大数学基准测试。包含与60多位数学家一起构建了数百个原创数学问题。目前最强的 LLM 也只能解决不到 2% 的问题。感觉随着 LLM 推理越来越重要,现有基准数据污染越来越严重,我们确实需要更好的数学测试集。
陶哲轩、Timothy Gowers、Richard Borcherds等菲尔兹奖得主都认为这些问题很有挑战性。FrontierMath 涵盖了现代数学的大多数主要分支——从数论中的计算密集型问题到代数几何和范畴论中的抽象问题。
Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 Pro。即使有更长的思考时间(10,000 个Token)、Python 访问权限以及运行实验的能力,成功率仍然低于 2%。
FrontierMath 具有三个关键设计原则:1) 所有问题都是新的且未发布的,防止数据污染,2) 解决方案可自动验证,实现高效评估,3) 问题是“猜测性的”,在没有适当推理的情况下解决问题的机会很小。
大语言模型时代小语言模型的全面综述
小语言模型(SLM)因其低推理延迟、成本效益、高效开发、易于定制和适应性而越来越受到青睐。这些模型特别适合资源有限的环境和领域知识获取,解决了LLMs的挑战,并且非常适合需要本地化数据处理以保护隐私、最小推理延迟以提高效率以及通过轻量级微调获取领域知识的应用程序。
对 SLM 不断增长的需求刺激了广泛的研究和开发。然而,目前还缺乏对SLM的定义、获取、应用、增强和可靠性等相关问题的全面调查,这促使我们对这些主题进行详细的调查。
SLM 的定义差异很大,因此为了标准化,我们建议根据 SLM 执行专门任务的能力和资源受限环境的适用性来定义 SLM,并根据紧急能力的最小规模和资源约束下可持续的最大规模设定边界。 对于其他方面,我们提供了相关模型/方法的分类,并为每个类别开发了通用框架,以有效地增强和利用 SLM。
你可以在这里找到我:
| 即刻 | 推特 | Quail订阅 | 微信公众号:歸藏的AI工具箱 |邮箱:[email protected] | 微信号:op7418
也可以分享给更多的朋友,让大家都有机会了解这些内容,扫描下面右侧二维码加我好友,我拉你进会员交流群。
