上周基本都在放假,发布内容相当有限。还用 Blot 做了一个用来给小红书长文排版图片生成的工具,支持 Markdown,支持自定义内容位置,支持手动分页,后面还会加更多样式和模板,感兴趣可以试试。
上周精选✦
DeepSeep V3 发布并且开源
国产模型上周都趁着海外没有发布,突击发布了一波,不过基本就是开源这两家。
DeepSeek V3 真的很强,在基准测试上追上了 GPT-4o 和 Claude 3.5,不过从一些社区测试来看,前端代码生成没有 Claude 3.5 强。
具体参数为:MoE 模型,FP8 格式训练,671B 参数,激活 37B,在 14.8T token 上进行了预训练。
海外社区普遍惊叹他们用 Llama 405B 十分之一的算力成本训练了一个更大更强的模型,Llama 3 405B 使用了 30.8M GPU 小时,而 DeepSeek-V3 看起来是一个更强大的模型,仅使用了 2.8M GPU 小时(计算量减少了约 11 倍)。
DeepSeek V3 依然在充当价格屠夫的角色,每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元,前 45 天维持原价也就是每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未命中),每百万输出 tokens 2 元。
另外 DeepSeek V3 已经可以在 Cursor 中使用
- 将 https://openrouter.ai/api/v1 添加为 OpenAI Base URL
- 使用 deepseek/deepseek-chat 作为模型
- 在聊天中使用(不要在代码编辑器中使用)
模型下载:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
论文:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
体验模型:https://chat.deepseek.com/
阿里开源QVQ多模态视觉推理模型
在Open AI的带领下都转向推理了,通义也开源了QVQ-72B-Preview,视觉推理模型,在圣诞节当天开源的,感觉不如Deepseek的策略,那天是真没人看电脑。
可能是第一个用于视觉推理的开放权重模型。其中 V 代表视觉。它只是读取图像和指令,开始思考,反思,不断推理,最后自信地生成预测。
QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数,显著超越了 Qwen2-VL-72B-Instruct。
可以在这里玩玩:https://huggingface.co/spaces/Qwen/QVQ-72B-preview
模型下载:https://huggingface.co/Qwen/QVQ-72B-Preview