AIGC Weekly #98 | AIGC Weekly

其他动态 ✦

X 上的 Grok 能力大幅更新，终于不是残废了，更新内容包括长上下文理解、图像理解、联网搜索、内连引用来源、总结对话并且理解X上的帖子、PDF上传等。
Runway 现在支持扩展视频，通过在视频周围生成新的内容来更改视频长宽比，另外你可以给第一帧的参考图像，另外V2V功能支持20秒视频了。
Anthropic 宣布与 AWS 合作深化，Amazon 通过新的 40 亿美元投资，将总投资增至 80 亿美元，成为 Anthropic 的主要云服务和训练合作伙伴，同时保持为少数股东的地位。
Hotshot也发布了V2V功能，可以将上传的视频转换为其他风格或者更改视频内容。
之前LTX Studio的公司开源了一个可以在H100上实时生成视频的2B DiT视频生成模型LTXV。生成的视频规格是 768x512 分辨率、24 FPS。
Bolt 现在支持链接自己的Netlify账号，直接将项目部署到绑定的域名上。
InstantX 训练的 FLUX IPadapter 模型也开源了，之前试过效果不错。
可灵 1.5 模型终于支持运镜控制和运动笔刷了。运动笔刷只支持 5 秒视频生成。
Heygen App 上线了。支持创建虚拟头像、翻译已有的视频、通过虚拟头像创建内容。
Claude 现在支持链接谷歌文档，直接读取文档内容。
V0 更新了跟 Bolt 类似的功能：创建并运行全栈 Next.js 和 React 应用程序、一次性创建多个文件、链接并部署到 Vercel 项目、使用 Vercel 项目环境变量，而且还支持选中UI指定位置修改。
Perplexity 现在对美国股票都有非常详细的分析。比如收益计算，实时的资讯同步，类似企业的股票信息。还有相关问题、资产负债表等。
Suno v4 正式发布了，具有更好的音频、更清晰的歌词和更动态的歌曲结构。
网页版的 ChatGPT 高级语音向所有付费用户推出了。
Groq 把 Llama 3 70B 的推理速度拉倒了 3200 Token每秒。三个月前的Llama 8B 是 750 Token 每秒。
ComfyUI 更新了 0.3 版本。有几个交互的改动非常实用：比如Alt + 从任何链接拖动以创建重新路由点、组现在可以像节点一样选择、复制、删除和锁定。
谷歌发布 Gemini-exp-1121 模型，编码性能显著提高、更强的推理能力、更强的视觉理解能力。
Open AI 发布 gpt-40-2024-11-20 模型，模型的创意写作能力得到了提升。
HailuoAI/MiniMax 海外自助 API 网站上线。
Deepseek发布DeepSeek-R1-Lite-Previe推理模型，IME 和 MATH 基准测试中表现出了类似 o1-preview 的性能。
苹果正在开发一款名为 “LLM Siri” 的更智能版本的苹果助手，预计将在 2026 年发布，旨在通过使用先进的大型语言模型来提升与用户的交互和复杂任务处理能力。
TikTok 推出了 Symphony Creative Studio，这是一款 AI 视频生成工具，它能够从有限的用户输入中快速生成视频。该工具包括多个功能，如 Generate & Remix Videos、Avatar Videos、Generate Avatar 和 Translate & Dub Videos 等，以支持不同的使用场景。用户可以将产品信息或 URL 转换为 TikTok 风格的内容，添加数字化人物旁白，或者将现有视频翻译成新语言。

图像及视频作品推荐✦

Kaku Drop 架空飴使用 Sora 为Open AI做的视频，是他一贯的美少女风格。
一个Vidu 1.5的2D视频演示，在动画表现上Vidu确实很强。

产品推荐 ✦

Hero：AI 日常助理

Hero 是一款专为 iPhone 用户设计的日常助手应用程序，它将日历管理、待办事项、笔记、天气查询、杂货订购和搜索等功能集成在一个平台上。用户可以通过 Hero 轻松地与伴侣、家人和朋友协调日程，分享提醒和笔记，以及通过语音快速创建事件和提醒。此外，应用程序还集成了 Perplexity，提供实时的人工智能搜索答案，也支持写完标题后直接生成具体的Todo和笔记。

An image to describe post

Notclass：搜索视频或者播客

这个产品把YouTube碎片化了，当你搜索的时候不止会给你list，而且在点开的时候还会直接跳转到你讲解你问题的视频时间戳。

An image to describe post

Spur fit：健身领域的 AI SAAS

Spur.fit 是一个为健身教练、营养师和健康专业人士提供人工智能辅导系统的平台，旨在通过定制化的锻炼和营养计划、可穿戴设备集成以及个性化品牌应用等功能，提高教练的工作效率，增强客户的参与度和训练体验。

An image to describe post

Postiz：AI驱动的聚合媒体运营工具

Postiz 是一个集合了多种功能的社交媒体管理平台，它提供内容创建辅助、发布调度、团队协作、市场曝光和数据分析等服务，旨在帮助用户高效地管理社交媒体账户。平台支持多种热门社交媒体渠道，如 Facebook、Instagram、TikTok、YouTube 等，并提供 AI 内容辅助和 AI 图像生成工具，以提高内容创作的效率。

An image to describe post

精选内容 ✦

马斯克和 Sam 诉讼期间披露的所有电子邮件整理

有人整理了马斯克和 Sam 诉讼期间披露的所有电子邮件。里面涉及了 Open AI 早期的很多信息，非常有价值。涉及 OpenAI 的成立、资金筹集、合作伙伴关系、AI 安全和控制等问题。

Sutskever 在给 Musk 的邮件中写道："我们担心，当公司在向通用人工智能 (AGI) 迈进的过程中，你可能会违背目前的承诺，保持对公司的绝对控制。"
Musk 强烈反对早期与 Microsoft 的合作，称："不沦为 Microsoft 的营销傀儡，这值得超过 5000 万美元。"
Altman 向 Musk 透露，DeepMind 试图通过挖走人才来阻止 OpenAI 的成立。
Altman 曾考虑发行加密货币为 OpenAI 筹集资金。Musk 对此持反对态度，认为这样做会让 OpenAI 在业界彻底失去信誉。

如何使用 Claude Computer Use 来构建一个 AI 代理

文章首先介绍了 2025 年将成为 AI 代理的年份，强调了 AI 代理的简单性和普及性。作者提供了一个分步指南，包括安装 Docker Desktop、检查 Docker 是否工作、创建 Claude API 密钥、确保 Claude 账户有信用、将 API 密钥导出到终端、运行 Claude Computer Use 代码，以及如何使用和监控 Claude Computer Use。文章还展示了 Claude Computer Use 的用例和实例，如在 LinkedIn 上抓取关注者数量、评估建筑项目视频、添加音乐到播放列表等。

大语言模型简介

真的是简介这个视频只有8分钟，但是讲的简单而且清晰，给5岁孩子介绍大语言模型。

你存在于长上下文中

Steven Johnson 在网页上分享了他对大型语言模型，特别是 Gemini Pro 1.5，在创建基于历史书籍《The Infernal Machine》的互动冒险游戏中的应用的见解。

他指出，这种游戏的创建依赖于三个要素：原始文本、大型语言模型以及一个指导游戏进行的提示词。Johnson 通过玩这个游戏，反复体验了 1911 年约瑟夫・福洛特（Joseph Faurot）使用前沿法医科学解决索赫卧室谜案的历史事件。

他强调，这种技术能够将线性叙事转化为沉浸式体验，对教育和娱乐都有重大影响。Johnson 还分析了语言模型的记忆系统，区分了长期参数记忆和短期上下文窗口记忆。

他特别提到了上下文窗口大小的显著增加，这一进步超出了模型参数量的增加，使得模型能够处理更长的文本，进行更复杂的任务，如维护两个并行的叙事线索，以及回答关于整个书籍的问题。

此外，他还探讨了长上下文窗口如何使得模型更准确地检索信息，减少幻觉，以及如何通过 “源头依赖”（source-grounding）和 “检索增强生成”（retrieval-augmented generation, RAG）技术实现个性化。

我们的大脑是向量数据库：这就是为什么这对使用人工智能很有帮助

主要探讨了人类大脑如何像向量数据库一样运作，以及这种相似性如何在使用人工智能时变得有用。

人的大脑天生以向量的形式思考，向量数据库使用数学坐标来映射概念、意义和关系，类似于 GPS 使用数字定位地点。这种搜索方式不仅寻找确切的匹配，还寻找模式和关系，正如我们的大脑在回忆失落的车钥匙时所做的那样。

为了在这个由 AI 增强的未来中茁壮成长，我们需要发展三个核心技能：阅读、写作和查询。这些技能的应用在 AI 沟通中需要一个根本性的转变。阅读需要理解人类和机器的上下文；写作转变为精确、结构化的沟通，以便机器能够加工；而查询 —— 可能是最关键的新技能 —— 涉及学会以结合人类直觉和机器效率的方式导航庞大的基于向量的信息网络。

向量通信的掌握不仅仅是学习新软件或记住提示模板，而是要理解信息是如何连接和相关的，即以向量的形式思考，正如我们的大脑天生做的那样。

用户体验设计中的创造力：人工智能如何帮助和阻碍创新

文章由 Dr Maria Panagiotidi 撰写，提到了新的研究表明 AI 在 UX 设计中的创造性应用。文章首先定义了 UX 设计中的创造力，包括重新框架问题、产生新想法、结合不同概念以及创新用户体验。

接着，文章回顾了 AI 与创造力相关的早期研究，指出 AI 可以作为创造性合作伙伴，提供创意灵感，并促进人类与 AI 的协作创造。

Doshi 和 Hauser（2024）的实验结果显示，AI 辅助可以提高个人创造力，特别是对于本身创造力较低的人，同时 AI 辅助的作品在专业性和享受性上得到提升，尽管整体上可能会降低多样性。文章最后提供了一些建议，如使用 AI 作为创造性伙伴、避免过度统一化、利用 AI 进行学习和技能提升、平衡速度与原创性，以及促进人类与 AI 的团队合作。

在 torchtune 中将 Llama3.1 8B 蒸馏成 1B

作者详细介绍了如何利用模型蒸馏技术，将大型语言模型 Llama3.1 8B 的规模缩小一倍，即从 80 亿参数缩减到 10 亿参数，同时尽可能保持模型的性能。作者首先介绍了 torchtune 库的基本概念和它在模型训练和调优中的应用。然后，作者通过实验展示了如何使用 torchtune 进行模型蒸馏的过程，包括定义蒸馏任务、选择合适的 teacher 和 student 模型、设置蒸馏策略和超参数，以及评估蒸馏后模型的性能。

形状、对称和结构：数学在机器学习研究中不断变化的角色

探讨了数学在现代机器学习中的作用变化，强调数学不仅仅是提供理论保证，还在模型训练和性能解释、架构设计以及处理数据的对称性和结构中发挥着重要作用。随着机器学习领域对数据和计算资源的规模化增长，数学的角色正在进化，涉及更多的数学分支，如拓扑学、抽象代数和几何学，以及在理解深度学习模型内部工作机制和设计更加健壮的模型架构中的应用。

重点研究 ✦

SAMURAI：SAM 2 的增强版本分割模型

SAMURAI：SAM 2 的增强版本分割模型。可以有效地预测对象运动并细化蒙版选择，从而实现稳健、准确的跟踪。解决了SAM 2在快速移动或自遮挡对象的拥挤场景时跟踪内容丢失的问题。

苹果发布AIMv2：大视觉编码器的多模态自回归预训练

提出了一种新的大规模视觉编码器预训练方法，特别是针对图像和文本的多模态设置。目标是构建一种简单、可扩展且在各种下游任务中表现卓越的通用视觉编码器。

相关工作包括El-Nouby等人提出的类似LLM预训练的方法，以及DINOv2等基于对比学习的视觉模型。这些方法在各自的领域中展示了显著的性能，但在多模态任务中的表现仍有待提高。

阿里巴巴发布Marco-o1：走向开放式解决方案的开放推理模型

它不仅专注于数学、物理等有标准答案的学科，还更加强调开放式解决方案。该模型通过链式思维（CoT）微调、蒙特卡罗树搜索（MCTS）、反射机制和创新推理策略进行了优化，以适应复杂的现实世界问题解决任务。

Marco-o1 的亮点包括使用开源 CoT 数据集和自主开发的合成数据对基础模型进行微调，通过 MCTS 扩展解空间，实施新颖的推理行动策略和反思机制，以及将大型推理模型首次应用于机器翻译任务。该模型在 MGSM（英文）和 MGSM（中文）数据集上的准确率分别提升了 +6.17% 和 +5.60%，并在翻译俚语表达方面表现出色。

Open AI：人工和AI一起推进红队建设

OpenAI 发布了两篇关于红队技术的新论文，展示了他们在人工智能安全评估方面的进步。这些努力包括与外部专家合作的手动红队测试和自动化红队测试方法。

OpenAI 还详细说明了他们设计有效红队测试的方法，包括选择红队成员、确定测试模型版本、提供测试接口和指导文档，以及整理测试数据进行评估。此外，他们提出了自动化红队测试的新技术，旨在提高攻击的多样性和有效性。尽管红队测试对于评估 AI 风险至关重要，但它也有局限性，如随着模型的演变而变化的相关性、信息风险的产生以及人类智商提升的需求。

阿里的游戏实时生成模型 The Matrix

The Matrix 项目是一个创新的世界生成系统，它实现了与电影《黑客帝国》相似的无限沉浸式交互式虚拟世界。该系统具备帧级精度的用户交互响应、AAA 级游戏的视觉效果以及无限的生成能力。它通过学习 AAA 游戏和现实世界视频的数据，能够在多种环境中实时生成视频，包括汽车在荒漠、城市、森林等不同地形的行驶。The Matrix 利用 GameData Platform 收集和处理数据，并提供了一个开源数据集，以促进未来研究的进步。

图形用户界面代理的黎明：使用Claude 3.5 Computer Use的初步案例研究

策划和组织了一系列精心设计的任务，涵盖各种领域和软件。对这些案例的观察表明，Claude 3.5 Computer Use 在端到端语言到桌面操作方面具有前所未有的能力。在这项研究的同时，我们还提供了一个开箱即用的代理框架，用于部署基于 API 的 GUI 自动化模型，并且易于实施。我们的案例研究旨在通过详细分析展示 Claude 3.5 计算机使用的功能和局限性的基础，并提出有关计划、行动和批评的问题。

FinRobot：利用大型语言模型进行股票研究和估值的人工智能代理

FinRobot，这是第一个专门为股权研究设计的人工智能代理框架。

FinRobot 采用多智能体思维链 (CoT) 系统，集成定量和定性分析，以模拟人类分析师的综合推理。该系统围绕三个专门代理构建：Data-CoT 代理，它聚合不同的数据源以实现稳健的财务集成； Concept-CoT Agent，它模仿分析师推理以生成可行的见解； Thesis-CoT Agent 将这些见解综合成连贯的投资论文和报告。

FinRobot 提供全面的公司分析，并辅以精确的数值数据、适合行业的估值指标和现实的风险评估。其动态更新的数据管道确保研究保持及时和相关，无缝适应新的金融信息。与现有的自动化研究工具（例如 CapitalCube 和 Wright Reports）不同，FinRobot 提供的见解可与主要经纪公司和基础研究供应商的见解相媲美。

也可以分享给更多的朋友，让大家都有机会了解这些内容，扫描下面右侧二维码加我好友，我拉你进会员交流群。

An image to describe post