AIGC Weekly #138 休战期

封面提示词 Seedream 4.0：神秘梦幻风格，展现神明世界里，一位长发飘飘的神明单手持剑立于狂风之中，狂风大作，速度，风卷残叶，巨大龙卷风各样有形的气流如利刃般顺着神明的视线方向席卷而去，空间在风的吹动下扭曲成奇异的形状，画面偏暗，利用侧光突出气流的线条和神明的轮廓。比例 9:16。

上周精选✦

谷歌发布端侧嵌入模型 EmbeddingGemma

谷歌在端侧模型的投入相当坚定啊，发布了可以在端侧运行的嵌入模型 EmbeddingGemma。

模型只有 0.3B 大小，支持在硬件设备上构建RAG或者语义搜索应用。

在 Massive Text Embedding Benchmark (MTEB) 中，在 500M 以下的开源多语种文本嵌入模型中排名最高。基于 Gemma 3 架构，EmbeddingGemma 在 100 多种语言上训练，经过量化后小到可在少于 200MB RAM 上运行。
小巧、快速且高效，提供可自定义的输出维度（通过 Matryoshka 表示从 768 到 128）和 2K 令牌上下文窗口，可在手机、笔记本、台式机等日常设备上运行。
小巧、快速且高效，提供可自定义的输出维度（通过 Matryoshka 表示从 768 到 128）和 2K 令牌上下文窗口，可在手机、笔记本、台式机等日常设备上运行，而且不需要联网

An image to describe post

国内大厂发力

上周国内大厂大概都得知了海外几个巨头没有发布计划，于是扎堆发布自家模型的进展。

阿里 Qwen3-Max-Preview 模型发布：阿里的旗舰模型，总参数超过 1T，而且不开源，性能更强、知识更广、更擅长对话、具有代理任务能力并更善于遵循指令，预告正式发布会有更大惊喜。

智谱推出 GLM-4.5 Claude Code 包月计划：智谱出的这个 Claude Code 编码套餐的形式很好啊，直接给包月的 API 套餐，而且还不需要自己开发产品，基础套餐 3 美元很值了，不知道国内有没有更便宜的。

美团发布 Longcat 开源 LLM：MoE 模型总参数 560B，激活参数平均 27B，能根据上下文自适应激活参数数量。在 20T 数据上训练，数据处理包括：长上下文扩展，预处理有抽取、过滤和去重，在千亿参数量下，还能用低成本实现100 tokens/秒的推理速度，非常经济了可以说。

快手开源 8B 支持视频理解 VLM：这款8B体量的多模态模型不仅支持图像识别，还具备强大的视频理解能力，适合本地部署用于视频标注和内容识别。实际测试显示，模型能够准确描述视频画面内容、查找分镜时间并生成分镜内容描述，短视频理解方面在Video-MME子集测试中获得81.2分，超过GPT-4o等同类模型，视频定位能力可将目标物出现时间精确到0.1秒级别，视觉推理能力能理解复杂行为动机。

月之暗面发布 Kimi K2 0905 更新：从公告来看这次升级将上下文提升到了 256K，在编码 Agent 下 Coding 能力也有所提升，前端代码美观度有所提升，我测试了两个案例模型能力确实有提升。
An image to describe post