其他动态 ✦

图像及视频作品推荐✦

产品推荐 ✦

Hero:AI 日常助理

Hero 是一款专为 iPhone 用户设计的日常助手应用程序,它将日历管理、待办事项、笔记、天气查询、杂货订购和搜索等功能集成在一个平台上。用户可以通过 Hero 轻松地与伴侣、家人和朋友协调日程,分享提醒和笔记,以及通过语音快速创建事件和提醒。此外,应用程序还集成了 Perplexity,提供实时的人工智能搜索答案,也支持写完标题后直接生成具体的Todo和笔记。

An image to describe post

Notclass:搜索视频或者播客

这个产品把YouTube碎片化了,当你搜索的时候不止会给你list,而且在点开的时候还会直接跳转到你讲解你问题的视频时间戳。

An image to describe post

Spur fit:健身领域的 AI SAAS

Spur.fit 是一个为健身教练、营养师和健康专业人士提供人工智能辅导系统的平台,旨在通过定制化的锻炼和营养计划、可穿戴设备集成以及个性化品牌应用等功能,提高教练的工作效率,增强客户的参与度和训练体验。

An image to describe post

Postiz:AI驱动的聚合媒体运营工具

Postiz 是一个集合了多种功能的社交媒体管理平台,它提供内容创建辅助、发布调度、团队协作、市场曝光和数据分析等服务,旨在帮助用户高效地管理社交媒体账户。平台支持多种热门社交媒体渠道,如 Facebook、Instagram、TikTok、YouTube 等,并提供 AI 内容辅助和 AI 图像生成工具,以提高内容创作的效率。

An image to describe post

精选内容 ✦

马斯克和 Sam 诉讼期间披露的所有电子邮件整理

有人整理了马斯克和 Sam 诉讼期间披露的所有电子邮件。里面涉及了 Open AI 早期的很多信息,非常有价值。涉及 OpenAI 的成立、资金筹集、合作伙伴关系、AI 安全和控制等问题。

  • Sutskever 在给 Musk 的邮件中写道:"我们担心,当公司在向通用人工智能 (AGI) 迈进的过程中,你可能会违背目前的承诺,保持对公司的绝对控制。"
  • Musk 强烈反对早期与 Microsoft 的合作,称:"不沦为 Microsoft 的营销傀儡,这值得超过 5000 万美元。"
  • Altman 向 Musk 透露,DeepMind 试图通过挖走人才来阻止 OpenAI 的成立。
  • Altman 曾考虑发行加密货币为 OpenAI 筹集资金。Musk 对此持反对态度,认为这样做会让 OpenAI 在业界彻底失去信誉。

如何使用 Claude Computer Use 来构建一个 AI 代理

文章首先介绍了 2025 年将成为 AI 代理的年份,强调了 AI 代理的简单性和普及性。作者提供了一个分步指南,包括安装 Docker Desktop、检查 Docker 是否工作、创建 Claude API 密钥、确保 Claude 账户有信用、将 API 密钥导出到终端、运行 Claude Computer Use 代码,以及如何使用和监控 Claude Computer Use。文章还展示了 Claude Computer Use 的用例和实例,如在 LinkedIn 上抓取关注者数量、评估建筑项目视频、添加音乐到播放列表等。

大语言模型简介

真的是简介这个视频只有8分钟,但是讲的简单而且清晰,给5岁孩子介绍大语言模型。

你存在于长上下文中

Steven Johnson 在网页上分享了他对大型语言模型,特别是 Gemini Pro 1.5,在创建基于历史书籍《The Infernal Machine》的互动冒险游戏中的应用的见解。

他指出,这种游戏的创建依赖于三个要素:原始文本、大型语言模型以及一个指导游戏进行的提示词。Johnson 通过玩这个游戏,反复体验了 1911 年约瑟夫・福洛特(Joseph Faurot)使用前沿法医科学解决索赫卧室谜案的历史事件。

他强调,这种技术能够将线性叙事转化为沉浸式体验,对教育和娱乐都有重大影响。Johnson 还分析了语言模型的记忆系统,区分了长期参数记忆和短期上下文窗口记忆。

他特别提到了上下文窗口大小的显著增加,这一进步超出了模型参数量的增加,使得模型能够处理更长的文本,进行更复杂的任务,如维护两个并行的叙事线索,以及回答关于整个书籍的问题。

此外,他还探讨了长上下文窗口如何使得模型更准确地检索信息,减少幻觉,以及如何通过 “源头依赖”(source-grounding)和 “检索增强生成”(retrieval-augmented generation, RAG)技术实现个性化。

我们的大脑是向量数据库:这就是为什么这对使用人工智能很有帮助

主要探讨了人类大脑如何像向量数据库一样运作,以及这种相似性如何在使用人工智能时变得有用。

人的大脑天生以向量的形式思考,向量数据库使用数学坐标来映射概念、意义和关系,类似于 GPS 使用数字定位地点。这种搜索方式不仅寻找确切的匹配,还寻找模式和关系,正如我们的大脑在回忆失落的车钥匙时所做的那样。

为了在这个由 AI 增强的未来中茁壮成长,我们需要发展三个核心技能:阅读、写作和查询。这些技能的应用在 AI 沟通中需要一个根本性的转变。阅读需要理解人类和机器的上下文;写作转变为精确、结构化的沟通,以便机器能够加工;而查询 —— 可能是最关键的新技能 —— 涉及学会以结合人类直觉和机器效率的方式导航庞大的基于向量的信息网络。

向量通信的掌握不仅仅是学习新软件或记住提示模板,而是要理解信息是如何连接和相关的,即以向量的形式思考,正如我们的大脑天生做的那样。

用户体验设计中的创造力: 人工智能如何帮助和阻碍创新

文章由 Dr Maria Panagiotidi 撰写,提到了新的研究表明 AI 在 UX 设计中的创造性应用。文章首先定义了 UX 设计中的创造力,包括重新框架问题、产生新想法、结合不同概念以及创新用户体验。

接着,文章回顾了 AI 与创造力相关的早期研究,指出 AI 可以作为创造性合作伙伴,提供创意灵感,并促进人类与 AI 的协作创造。

Doshi 和 Hauser(2024)的实验结果显示,AI 辅助可以提高个人创造力,特别是对于本身创造力较低的人,同时 AI 辅助的作品在专业性和享受性上得到提升,尽管整体上可能会降低多样性。文章最后提供了一些建议,如使用 AI 作为创造性伙伴、避免过度统一化、利用 AI 进行学习和技能提升、平衡速度与原创性,以及促进人类与 AI 的团队合作。

在 torchtune 中将 Llama3.1 8B 蒸馏成 1B

作者详细介绍了如何利用模型蒸馏技术,将大型语言模型 Llama3.1 8B 的规模缩小一倍,即从 80 亿参数缩减到 10 亿参数,同时尽可能保持模型的性能。作者首先介绍了 torchtune 库的基本概念和它在模型训练和调优中的应用。然后,作者通过实验展示了如何使用 torchtune 进行模型蒸馏的过程,包括定义蒸馏任务、选择合适的 teacher 和 student 模型、设置蒸馏策略和超参数,以及评估蒸馏后模型的性能。

形状、对称和结构: 数学在机器学习研究中不断变化的角色

探讨了数学在现代机器学习中的作用变化,强调数学不仅仅是提供理论保证,还在模型训练和性能解释、架构设计以及处理数据的对称性和结构中发挥着重要作用。随着机器学习领域对数据和计算资源的规模化增长,数学的角色正在进化,涉及更多的数学分支,如拓扑学、抽象代数和几何学,以及在理解深度学习模型内部工作机制和设计更加健壮的模型架构中的应用。

重点研究 ✦

SAMURAI:SAM 2 的增强版本分割模型

SAMURAI:SAM 2 的增强版本分割模型。可以有效地预测对象运动并细化蒙版选择,从而实现稳健、准确的跟踪。解决了SAM 2在快速移动或自遮挡对象的拥挤场景时跟踪内容丢失的问题。

苹果发布AIMv2:大视觉编码器的多模态自回归预训练

提出了一种新的大规模视觉编码器预训练方法,特别是针对图像和文本的多模态设置。目标是构建一种简单、可扩展且在各种下游任务中表现卓越的通用视觉编码器。

相关工作包括El-Nouby等人提出的类似LLM预训练的方法,以及DINOv2等基于对比学习的视觉模型。这些方法在各自的领域中展示了显著的性能,但在多模态任务中的表现仍有待提高。

阿里巴巴发布Marco-o1:走向开放式解决方案的开放推理模型

它不仅专注于数学、物理等有标准答案的学科,还更加强调开放式解决方案。该模型通过链式思维(CoT)微调、蒙特卡罗树搜索(MCTS)、反射机制和创新推理策略进行了优化,以适应复杂的现实世界问题解决任务。

Marco-o1 的亮点包括使用开源 CoT 数据集和自主开发的合成数据对基础模型进行微调,通过 MCTS 扩展解空间,实施新颖的推理行动策略和反思机制,以及将大型推理模型首次应用于机器翻译任务。该模型在 MGSM(英文)和 MGSM(中文)数据集上的准确率分别提升了 +6.17% 和 +5.60%,并在翻译俚语表达方面表现出色。

Open AI:人工和AI一起推进红队建设

OpenAI 发布了两篇关于红队技术的新论文,展示了他们在人工智能安全评估方面的进步。这些努力包括与外部专家合作的手动红队测试和自动化红队测试方法。

OpenAI 还详细说明了他们设计有效红队测试的方法,包括选择红队成员、确定测试模型版本、提供测试接口和指导文档,以及整理测试数据进行评估。此外,他们提出了自动化红队测试的新技术,旨在提高攻击的多样性和有效性。尽管红队测试对于评估 AI 风险至关重要,但它也有局限性,如随着模型的演变而变化的相关性、信息风险的产生以及人类智商提升的需求。

阿里的游戏实时生成模型 The Matrix

The Matrix 项目是一个创新的世界生成系统,它实现了与电影《黑客帝国》相似的无限沉浸式交互式虚拟世界。该系统具备帧级精度的用户交互响应、AAA 级游戏的视觉效果以及无限的生成能力。它通过学习 AAA 游戏和现实世界视频的数据,能够在多种环境中实时生成视频,包括汽车在荒漠、城市、森林等不同地形的行驶。The Matrix 利用 GameData Platform 收集和处理数据,并提供了一个开源数据集,以促进未来研究的进步。

图形用户界面代理的黎明: 使用Claude 3.5 Computer Use的初步案例研究

策划和组织了一系列精心设计的任务,涵盖各种领域和软件。对这些案例的观察表明,Claude 3.5 Computer Use 在端到端语言到桌面操作方面具有前所未有的能力。在这项研究的同时,我们还提供了一个开箱即用的代理框架,用于部署基于 API 的 GUI 自动化模型,并且易于实施。我们的案例研究旨在通过详细分析展示 Claude 3.5 计算机使用的功能和局限性的基础,并提出有关计划、行动和批评的问题。

FinRobot: 利用大型语言模型进行股票研究和估值的人工智能代理

FinRobot,这是第一个专门为股权研究设计的人工智能代理框架。

FinRobot 采用多智能体思维链 (CoT) 系统,集成定量和定性分析,以模拟人类分析师的综合推理。该系统围绕三个专门代理构建:Data-CoT 代理,它聚合不同的数据源以实现稳健的财务集成; Concept-CoT Agent,它模仿分析师推理以生成可行的见解; Thesis-CoT Agent 将这些见解综合成连贯的投资论文和报告。

FinRobot 提供全面的公司分析,并辅以精确的数值数据、适合行业的估值指标和现实的风险评估。其动态更新的数据管道确保研究保持及时和相关,无缝适应新的金融信息。与现有的自动化研究工具(例如 CapitalCube 和 Wright Reports)不同,FinRobot 提供的见解可与主要经纪公司和基础研究供应商的见解相媲美。


你可以在这里找到我:
| 即刻 | 推特 | Quail订阅 | 微信公众号:歸藏的AI工具箱 |邮箱:[email protected] | 微信号:op7418

也可以分享给更多的朋友,让大家都有机会了解这些内容,扫描下面右侧二维码加我好友,我拉你进会员交流群。

An image to describe post