Skip to main content

Search: #多模型

无原创,纯转发
  1. 大模型省钱新招:把长文本变成“图片”传给AI,成本直接减半

    我们在使用大语言模型(LLM)处理长上下文任务时,Token 费用往往会随着对话轮数呈指数级上升。虽然可以通过自动压缩或摘要来减少 Token,但这样经常会丢失关键细节,导致模型“变笨”。

    开发者 Can Bölük 提出了一个脑洞大开但非常有效的解决方案:Snapcompact

    💡 核心思路:把字“画”给AI看

    像素级压缩:将 10,000 Token 左右的长文本,用极小的像素字体(如 6x10)渲染成一张 1568x1568 的 PNG 图片。
    Token 薅羊毛:根据 Anthropic 等主流厂商的计费规则,这张图片仅折合 3,279 个图片 Token。相比直接传递文本,输入成本直降近 70%
    无损还原:测试表明,Claude、GPT-5.5、Gemini 等多模态模型能够近乎完美地“读懂”图中的微缩文字,答题准确率与输入原生文本几乎一致。

    🔬 为什么这个方案可行?
    作者使用开源多模态模型 Qwen2.5-VL-7B 进行了深度探究。通过分析模型内部的隐藏状态发现,模型在处理这类文字图时,内部的表征会迅速向文本表征靠拢。

    为了防止模型“看错”,作者还做了针对性优化:

    1. 对齐视觉网格:让文字排版契合模型的 Patch 切片(如 28x28 像素)。
    2. 行重复与色彩辅助:通过将每行文字重复渲染,让模型读取的置信度直接从 0.39 飙升到 1.00(几乎 100% 准确)。

    总结
    有时候不需要改变模型本身,只需改变上下文的“载体格式”(文本 ➔ 像素图),就能在保持精度的前提下,把长文本账单砍掉一半以上。

    原链接:https://blog.can.ac/2026/06/10/snapcompact/

    #大语言模型 #多模态 #Token优化 #降本增效 #技术前沿 Snapcompact: SoTA Compaction — Instant, Local, Free. Pick 3
  2. Gemma 4 图解指南:Google DeepMind 开源模型家族全面解析

    Google DeepMind 发布了 Gemma 4 系列模型,作者 Maarten Grootendorst(刚入职 Google DeepMind)以丰富的可视化方式详细拆解了这一系列模型的架构设计。

    四款模型,覆盖多种场景

    Gemma 4 E2B — 密集模型,等效 20 亿参数,适合端侧部署
    Gemma 4 E4B — 密集模型,等效 40 亿参数,适合端侧部署
    Gemma 4 31B — 310 亿参数的密集模型
    Gemma 4 26B A4B — MoE 架构,总参数 260 亿,推理时仅激活 40 亿参数,兼顾性能与效率

    所有模型均为多模态,支持图像输入;小模型(E2B/E4B)还额外支持音频输入

    核心架构亮点

    注意力机制优化:

    • 局部注意力(滑动窗口)与全局注意力交替堆叠(5:1 或 4:1),最后一层始终为全局注意力
    • 全局注意力层采用 8 个 Query 共享 1 个 KV 头的分组查询注意力(GQA)
    K=V 技巧:全局注意力层中 Key 等于 Value,进一步压缩 KV 缓存
    p-RoPE:仅对前 25% 维度施加旋转位置编码,避免低频维度引入噪声,提升长上下文处理能力

    视觉编码器:

    • 基于 Vision Transformer(ViT),支持可变宽高比和可变分辨率
    • 通过 2D RoPE 编码 patch 的二维位置信息
    • 引入 soft token budget(70/140/280/560/1120),用户可按任务需求灵活选择分辨率

    MoE 架构(26B A4B):

    • 128 个专家中每次激活 8 个 + 1 个始终激活的共享专家(3 倍大小)
    • 虽然总参数 260 亿,推理速度接近 40 亿参数模型

    Per-Layer Embeddings(E2B/E4B):

    • 每一层都有独立的 token embedding 查找表,存储在闪存而非显存中
    • 让小模型在有限 RAM 下也能获得更强的表达能力,非常适合手机等端侧设备

    音频编码器(E2B/E4B):

    • 基于 Conformer 架构,通过梅尔频谱图提取特征并下采样为 soft token
    • 支持语音识别和翻译等任务

    🔗 https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4

    #Gemma4 #GoogleDeepMind #多模态 #MoE #开源模型 A Visual Guide to Gemma 4
  3. Open Responses:让 LLM 接口真正“可互通”的开放规范

    Open Responses 是一个开源规范与生态,目标是基于 OpenAI Responses API 的理念,建立多模型提供方可互操作的统一接口层。它通过共享 Schema 和配套工具,让开发者能用同一种请求/输出结构,跨不同提供方调用模型、处理流式返回,并组合更复杂的 Agent 工作流。

    为什么需要它?
    现在各家 LLM API 的核心组件越来越相似(消息、工具调用、流式、多模态等),但细节编码方式不同,迁移与兼容成本高。Open Responses 希望把“共同部分”沉淀成稳定规范,减少重复适配。

    它强调的设计方向:

    默认多提供方:一套 Schema 映射多家模型/平台
    更贴近真实 Agent 工作流:统一的流式事件、工具调用模式,以及以“items”作为输出与工具使用的原子单元
    可扩展但不碎片化:核心稳定,同时允许在必要时容纳提供方特性

    如何开始:

    • 阅读规范,理解 items、流式事件、工具使用等核心概念
    • 查看 OpenAPI 参考,掌握完整类型与接口面
    • 用官方的验收测试验证你的 API 实现一致性

    原链接:https://www.openresponses.org/

    #LLM #开放规范 #多模型 #互操作 #API设计
  4. MiniMax M2.1 发布:面向真实复杂任务的多语言编程升级

    MiniMax 发布新一代文本模型 MiniMax M2.1,目标从“可用、低成本”进一步走向“能解决真实世界的复杂任务”,重点补齐多语言工程协作与办公场景执行力。

    这次重点提升了什么?

    多语言编程能力系统增强:覆盖 Rust / Java / Go / C++ / Kotlin / Objective‑C / TypeScript / JavaScript 等,更贴近真实项目的多语言栈协作。
    Web & App 开发更强、更好看:强化原生 Android / iOS 开发,同时提升设计理解与审美表达,支持复杂交互、3D 场景模拟与高质量可视化。
    更适合办公场景的“复合指令”执行:在多约束条件下做端到端任务推进,更强调“按要求完成”而不是只写对代码。
    更简洁、更高效的输出:相较 M2,响应更精炼、速度更快、token 消耗更低,适配持续式 AI Coding / Agent 工作流。
    更强的 Agent / 工具泛化:官方称在多种编码工具与 Agent 框架中表现稳定,并兼容常见的上下文管理约定。
    对话与写作质量同步提升:不仅是“更会写代码”,也更擅长技术文档与日常写作的结构化表达。

    基准与展示

    • 在多项软件工程评测上相对 M2 有明显提升,并强调多语言场景竞争力;同时引入 VIBE(含 Web/Simulation/Android/iOS/Backend)评测体系,用更接近真实运行环境的方式验证“能跑、能交付”。

    如何使用

    API:已上线 MiniMax Open Platform
    产品:基于 M2.1 的 MiniMax Agent 已开放
    开源:模型权重提供本地部署,推荐 SGLang / vLLM 等推理框架

    原文链接:https://www.minimax.io/news/minimax-m21

    #MiniMax #开源大模型 #AI编程 #多语言开发 #Agent工作流
1px