An image to describe post
7 月 18 日,OpenAI 发布了 GPT-4o mini,一款便宜轻量级的多模态大型语言模型。 它支持文本和图像,比 Gemini Flash、Claude Haiku 和 GPT-3.5 Turbo 更准确、更快、更便宜。
DeepL宣布实施一个大型语言模型,专门用于语言翻译和语法检查。 语言学家对DeepL的翻译输出的评价是Google Translate的1.3倍,是ChatGPT-4的1.7倍,是Microsoft Translate的2.3倍。
我们将介绍并解释过去一周感兴趣的生成式 AI 技术,我们将介绍 Mem0 和 Qwen2-Audio,前者是一种记忆函数,可以长时间记录 AI 与用户之间的交互内容,并将 LLM 对用户的反应个性化,后者是一种擅长理解语音的大型语言模型。

Qwen2-Audio

An image to describe post

阿里巴巴集团开发出擅长语音理解的大型语言模型“Qwen2-Audio”
阿里巴巴集团的Qwen团队推出了一款大规模的口语模型Qwen2-Audio。 该模型是语音处理和自然语言处理的混合体,可以接受各种形式的语音输入,并生成高级语音分析和对语音指令的适当文本响应。
在Qwen2-Audio的开发中,研究团队摒弃了使用复杂层次标签的传统方法,转而采用利用自然语言提示的简化过程。 这种新方法大大增加了模型的多功能性,并获得了更灵活的遵循指令的能力。 我们还显著增加了用于预训练的数据量,以扩展模型的知识。
Qwen2-Audio提供两种不同的语音交互模式。 语音聊天模式允许用户完全通过语音自由地与模型进行交互,而无需输入文本。 另一方面,在语音分析模式下,用户可以提供语音数据和文本指令的组合,进行深入的语音分析。
在性能评估中,Qwen2-Audio在许多方面都表现出色。 在 AIR-Bench 测试中,它在理解和响应语音、环境声音、音乐和复合语音方面优于 Gemini-1.5-pro 等先前型号。 自动语音识别在LibriSpeech数据集中实现了1.6%的低WER(单词错误率),在CoVoST2数据集的多个语言对中,语音翻译的表现优于之前的模型。 此外,它还在情感识别和语音分类任务中实现了高精度。
An image to describe post

Qwen2-Audio Technical Report
论文地址:https://arxiv.org/abs/2407.10759v1
GitHub 地址:https://github.com/QwenLM/Qwen2-Audio

IMAGDressing-v1

An image to describe post
用于产品展示的装扮虚拟换装技术“IMAGDressing-v1”
在线购物领域,虚拟 trion (VTON) 技术正在迅速发展。 然而,到目前为止,VTON技术主要是为消费者设计的,它一直无法充分满足卖家从多个角度展示他们的服装的需求。
为了应对这一挑战,一个研究团队开发了一种新的“虚拟敷料”(VD)技术。 VD技术旨在生成一个人的肖像图像,其面部,姿势,背景等可以随意改变,以对抗固定的衣服。
研究团队开发的“IMAGDressing-v1”模型在捕捉服装的最小特征方面表现出色。 此外,文本输入可用于控制背景和其他场景,同时适当反映服装的特性。 此外,IMAGDressing-v1 可以与 ControlNet 和 IP-Adapter 等扩展插件结合使用,以进一步提高生成图像的多功能性和可控性。
作为这项研究的一部分,我们还发布了IGPair,这是一个包含超过300,000双服装和穿着图像的大型数据集。 此数据集包含高分辨率影像和详细说明。
实验结果表明,IMAGDressing-v1的性能优于现有的先进技术。 特别是,它因其能够在各种场景中生成自然的人像图像而备受推崇,同时保留了服装的精细特征。

IMAGDressing-v1:可定制的虚拟着装
论文地址:https://arxiv.org/abs/2407.12705v1
GitHub 地址:https://github.com/muzishen/IMAGDressing

Mem0

An image to describe post
Mem0,一种用于个性化 AI 的记忆功能,可记录与 AI 的交互,并从为用户优化的响应内容中学习
Mem0 是为大型语言模型 (LLM) 开发的个性化 AI 内存功能。 该系统通过与用户的对话收集信息并不断学习,从而不断发展。 Mem0 的核心功能是通过 AI 自动管理内存。 除了组织和关联信息外,它还学习用户的使用模式以提高内存质量。
这样就可以提供针对每个用户优化的信息,并根据个人的兴趣和习惯做出响应。 你使用它的次数越多,它就会变得越聪明,你就能提供的相关信息就越多。 此外,Mem0 在不同的应用程序中保持一致的内存,提供无缝的体验。
Mem0 的一些常见用例包括个性化学习助手、客户支持 AI 代理、医疗保健助理、虚拟伴侣和游戏 AI。 这些应用程序利用长期记忆来记住用户的偏好、过去的交互和进度,以提供更加个性化和有效的体验。

Mem0: The Memory Layer for Personalized AI
论文地址:
GitHub 地址:https://github.com/mem0ai/mem0

Shape of Motion

An image to describe post
谷歌和其他公司开发了一种名为“运动形状”的技术,可以将图像转换为移动的3D环境
“运动形状”是一种从单个视频生成运动图像的 3D 模型的技术。 虽然在重建静态 3D 环境方面取得了进展,但从单个视频重建移动 3D 场景是一项非常困难的挑战。
运动形状的特点是 3D 空间表示为许多小 3D 点(3D 高斯溅射)的集合,这些点随时间移动和旋转以再现运动。 这种方法可以有效地表示和操纵具有复杂运动的 3D 环境。
它还有效地集成了来自不同来源的互补线索,例如单目深度图和远程 2D 跟踪(在较长时间内跟踪视频中对象或特定点的运动),以提供动态场景的全球一致表示。
研究团队评估了合成和真实世界的视频数据集。 因此,Shape of Motion在远距离2D/3D跟踪精度和动态场景的新视角合成质量方面都明显优于现有方法。

Shape of Motion: 4D Reconstruction from a Single Video
论文地址:https://arxiv.org/abs/2407.13764
GitHub 地址:https://github.com/vye16/shape-of-motion/