AIGC Weekly #93 | AIGC Weekly

其他动态 ✦

Midjourney David 官宣了新的图像编辑器将在下周上线。支持上传外部图像基于图像的深度信息来生成新的图片。
Heygen 新功能支持让虚拟人加入 zoom 会议。这样虚拟人用来整理会议纪要进行总结当主持人都很不错，你甚至可以自己跟自己开会。
Twitter 最近更新的用户条款显示，他们会利用用户数据训练模型，内容可以与第三方共享，用于人工智能开发，新协议会从11月15号生效。
Suno 移动应用可以通过图片和视频当做提示词生成音乐，同时在移动应用也出现了基于上下滑视频和音频结合的内容信息流，看起来他们野心真的很大。
Pika 继续出 AI 视频特效，现在支持揉碎、溶解、放气和让内容消失。
为 B 端企业提供 AI Agents 服务的 decagon ai 公司获得 6500 万美元的 B 轮融资。这家公司现在的总融资金额已经达到 1 亿美元。他们的网站也很好看，可以参考一下。
OpenAI正在与Crusoe Energy Systems合作在德州部署一个 10 万张 B200 的超级计算机集群。这个集群初期将使用 206 兆瓦的可再生能源，相当于约 10 万个普通家庭的用电需求，将在 2025 年上半年投入使用。
Kimi 居然更新了语音通话模式，最好的一个设计是可以在语音界面展示字幕，还有独特的情景模式，目前应该还在灰度。
Sam 的另一个项目 Worldcoin，更名为World，并且发布新的虹膜认证工具以及应用内的聊天工具等小程序。

有趣的AI内容 ✦

坤导（闲人一坤）在《山海奇镜》之后的新作好像是跟星爷公司合作的《无名特工队》即将上线，这次是AI动画风格，感兴趣可以看看。
让半夜的自己出现在中土世界变成一个精灵，用到的工具有，iPhone 拍摄、Sky glass app、Viggle AI、Runway、Udio。
新的爆款 FLUX Lora 预定，可以生成动漫和现实混合的图片，我用生成的图片做了个视频也被各种海外博主来回转。
这个Ethos 餐厅说自己是奥斯汀市排名第一的餐厅。在 ins 上有 7.2 万的粉丝，但是他们所有展示的食物和场地照片都是AI生成的。
这个海螺做的视频好玩。把经典影视内容所有的武器都变成冰淇淋。
Flux Ghibsky Illustration 又一个非常好的 FLUX Lora。有一点吉卜力的风格，但是会有丰富的细节，饱和度很高，生成的图片很梦幻。

产品及模型推荐 ✦

陌生人闹钟

思路清奇的赵纯想最新作品，每天早晨，一个陌生人叫你起床。多管线的AI裁判，不知疲倦地负责监督声音，避免性别欺诈、声纹不一致性（变声器）和一切不友好、无意义内容。

把AI用在审核上真是好用法，直接解决陌生人社交最基本的信任问题。
An image to describe post

BiLin搜索：沉浸式翻译团队新作

沉浸式翻译团队的新产品 AI 搜索 Bilin 很有意思。完全不做总结，只是提供多语言的搜索结果，拓展信息面。专注于解决某个语言的互联网内容不够的问题，其实已经很够用了。国内很多 AI 搜索质量差的问题是国内能搜到的数据就不行。
An image to describe post

Reiden：快捷键副驾驶

这个很有意思，软件会在后台实时运行，然后识别你使用软件的低效时间段，并建议键盘快捷键以提高效率。通过智能键盘快捷键最大限度地减少压力，减少对鼠标的依赖并降低重复性压力损伤的风险。
An image to describe post

Reworkd：AI自动针对网页生成爬虫代码

Reworkd 是一个提供无需编码、无需维护的大规模网页数据提取解决方案的平台，它通过 AI 技术自动化整个数据提取流程，并提供深入的分析和维护服务，帮助企业有效地获取和使用网页数据。

该服务支持自动化数据提取、自我修复的爬虫、不产生幻觉的 AI 代码生成、处理任何数据类型（文本、图像、文档）的能力、深入的分析仪表板，以及实时监控和管理数据提取工作的状态。
An image to describe post

精选内容 ✦

红杉：生成式人工智能（AI）进入了 “思维推理” 时代

红杉文章，随着生成式 AI 技术的发展，研究正在从快速预训练响应转向在推理时进行更深层次的推理。

AI 的推理能力的提升，促使了从预训练模型到深层次推理的转变，这种转变类似于 AlphaGo 在棋盘游戏中的思维过程。AI 正在从简单模仿人类模式的行为，向能够在复杂新颖情境中进行深思熟虑的推理思维迈进。这种推理能力的提升，对于 AI 的未来发展具有深远的影响，可能会导致 AI 技术在服务市场中的应用迅速扩展。

在 AI 技术栈中，基础模型层的凝固和推理层的竞争，为 AI 投资和应用提供了新的机遇。尽管存在一些挑战，如构建价值函数和编码领域特定的认知架构，但是 AI 原生应用正在出现，这些应用通过自动化和智能化的方式，为各行各业提供服务，从而创造和扩展市场。

对于现有的软件即服务（SaaS）公司，AI 的推理能力可能会带来破坏性的变革，因为 AI 原生应用不仅能够提供软件，还能够提供服务，这可能会导致 SaaS 公司的商业模式和市场定位发生变化。

使用思维机器的五种新思维方式

Dan Shipper 在其文章中探讨了人工智能时代对我们思维方式的影响，提出了五种新的思维方式，以适应与思维机器合作的新现实。

本质与序列：在人工智能之前，我们需要将问题简化为其本质，而在人工智能时代，我们更关注导致特定事件发生的底层序列。
规则与模式：从寻找规则转变为寻找模式，后者不能简化为简单的规则。
过程与直觉：从依赖过程和规则转变为依赖直觉和序列，以建立无法简化为规则的应用程序。
雕塑与园艺：创造性工作变得更像园艺，即创造条件让想法自然生长，而不是雕塑，即逐步塑造想法。
解释与预测：从追求解释转变为追求预测，特别是在复杂领域，预测比解释更能推动进步。

Cursor dethrones Copilot：8 条实用的 Cursor 实用技巧

Beta Acid 介绍了如何使用 Cursor 工具提高开发效率，并分享了一些实用技巧和最佳实践。

比如：

为任务选择合适的 LLM 模型至关重要，对于日常开发，推荐使用 Anthropic 的 Claude 3.5 Sonnet；对于更深入的架构规划，可以使用 Open AI 的 o1 模型。
通过自定义文档和规则，可以让 Cursor 更好地适应项目需求。添加自定义文档可以提供更好的上下文，而 .cursorrules 文件可以帮助标准化团队的代码风格和偏好。

Impact 应用程序被描述为 “数字世界的志愿消防队”，它通过发送推送通知和提供 AI 生成的文本，组织支持者在社交媒体上进行协调性的真实行为，以对抗不真实的信息和操纵行为。
Impact 的工作原理是通过向支持者发送推送通知，指导他们回应特定的社交媒体帖子，并提供 AI 生成的文本以便复制粘贴，从而淹没回复区域以推广特定的政治信息。

国内饭圈粉圈数据女工的利器啊，但是感觉这么做有点危险，肯定会被打击。

如何构建 AI 搜索（第 1 部分）

详细介绍了构建一个类似 Perplexity 的 AI 搜索引擎的步骤，特别是如何通过 LLM（如 Claude）生成相关查询、获取搜索结果、提取内容以及生成带有引文的回答。

作者 Charlie Guo 提出了一个多部分系列的方法，首先将其作为一个无头 Python 脚本来实现，没有 UI。他强调了主要的挑战，包括生成相关的搜索结果和创建准确的引文。

文章中还包含了一系列的 Python 函数示例，用于实现各个组件，如请求搜索结果、生成相关查询、提取 URL 内容以及流式处理 LLM 的响应。

如何合成高质量数据

详细讨论了合成数据的重要性和应用价值，特别是在大型语言模型（LLMs）的训练中。

作者 Nathan Cooper 首先解释了为什么合成数据在 AI 训练中变得重要，即它能够提供无限量、高质量且多样化的训练数据。

文章接着详细介绍了合成数据的关键要素：质量和多样性，并探讨了如何平衡这两个方面，以及如何通过 LLMs 生成具有高质量和多样性的数据集。

还演示了如何使用claudette库来实验这些概念，并通过实例展示了如何生成和评估英语和西班牙语的翻译对。

NotebookLM 是 Google 的 ChatGPT 时刻吗？

海外独角兽翻译的红杉美国的 Pat Grady 和 Sonya Huang ****对 NotebookLM 的核心开发团队成员的访谈，翻译质量很高，比听效率高点，原始视频在这里。

团队成员除了讨论 NotebookLM 的诞生背景、关键技术原理外，也分享了他们观察到的 NotebookLM 的一系列 use case。关于如何打造一款 AI- native 产品，NotebookLM 团队也有着有趣的理解：

上下文是 LLM 交互的一个重要特点，只有基于上下文才能创造粘性极高的用户体验；
今天 AI 应用的开发处于“拟物化”的阶段，和 iOS 早期一样，这是因为还有大量用户才刚开始接触到 AI，开发者需要通过用户熟悉交互或者场景来让他们习惯和 AI 互动；
Claude Artifacts 的动态 UI 也许是 AI 交互的未来形态之一。