<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet href="/rss.xsl" type="text/xsl"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>多模态 | 面条的草稿箱</title><description>无原创，纯转发</description><link>https://localhost</link><item><title>大模型省钱新招：把长文本变成“图片”传给AI，成本直接减半我们在使用大语言模型（LLM）处理长上下文任务时，Token 费用往往会随着对话轮数呈指数级上升</title><link>https://localhost/posts/137</link><guid isPermaLink="true">https://localhost/posts/137</guid><pubDate>Sun, 14 Jun 2026 16:03:58 GMT</pubDate><content:encoded>大模型省钱新招：把长文本变成“图片”传给AI，成本直接减半&lt;br /&gt;&lt;br /&gt;我们在使用大语言模型（LLM）处理长上下文任务时，Token 费用往往会随着对话轮数呈指数级上升。虽然可以通过自动压缩或摘要来减少 Token，但这样经常会丢失关键细节，导致模型“变笨”。&lt;br /&gt;&lt;br /&gt;开发者 Can Bölük 提出了一个脑洞大开但非常有效的解决方案：&lt;b&gt;Snapcompact&lt;/b&gt;。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;&lt;i&gt;&lt;b&gt;💡&lt;/b&gt;&lt;/i&gt; 核心思路：把字“画”给AI看&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;像素级压缩&lt;/b&gt;：将 10,000 Token 左右的长文本，用极小的像素字体（如 6x10）渲染成一张 1568x1568 的 PNG 图片。&lt;br /&gt;•   &lt;b&gt;Token 薅羊毛&lt;/b&gt;：根据 Anthropic 等主流厂商的计费规则，这张图片仅折合 3,279 个图片 Token。相比直接传递文本，&lt;b&gt;输入成本直降近 70%&lt;/b&gt;。&lt;br /&gt;•   &lt;b&gt;无损还原&lt;/b&gt;：测试表明，Claude、GPT-5.5、Gemini 等多模态模型能够近乎完美地“读懂”图中的微缩文字，答题准确率与输入原生文本几乎一致。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;&lt;i&gt;&lt;b&gt;🔬&lt;/b&gt;&lt;/i&gt; 为什么这个方案可行？&lt;/b&gt;&lt;br /&gt;作者使用开源多模态模型 Qwen2.5-VL-7B 进行了深度探究。通过分析模型内部的隐藏状态发现，模型在处理这类文字图时，内部的表征会迅速向文本表征靠拢。&lt;br /&gt;&lt;br /&gt;为了防止模型“看错”，作者还做了针对性优化：&lt;br /&gt;&lt;br /&gt;1.  &lt;b&gt;对齐视觉网格&lt;/b&gt;：让文字排版契合模型的 Patch 切片（如 28x28 像素）。&lt;br /&gt;2.  &lt;b&gt;行重复与色彩辅助&lt;/b&gt;：通过将每行文字重复渲染，让模型读取的置信度直接从 0.39 飙升到 1.00（几乎 100% 准确）。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;总结&lt;/b&gt;&lt;br /&gt;有时候不需要改变模型本身，只需改变上下文的“载体格式”（文本 ➔ 像素图），就能在保持精度的前提下，把长文本账单砍掉一半以上。&lt;br /&gt;&lt;br /&gt;原链接：&lt;a href=&quot;https://blog.can.ac/2026/06/10/snapcompact/&quot; target=&quot;_blank&quot;&gt;https://blog.can.ac/2026/06/10/snapcompact/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B&quot;&gt;#大语言模型&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%A4%9A%E6%A8%A1%E6%80%81&quot;&gt;#多模态&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Token%E4%BC%98%E5%8C%96&quot;&gt;#Token优化&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E9%99%8D%E6%9C%AC%E5%A2%9E%E6%95%88&quot;&gt;#降本增效&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%8A%80%E6%9C%AF%E5%89%8D%E6%B2%BF&quot;&gt;#技术前沿&lt;/a&gt;&lt;a href=&quot;https://blog.can.ac/2026/06/10/snapcompact/&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Can.ac&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Snapcompact: SoTA Compaction — Instant, Local, Free. Pick 3&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/BR7im12X57mlSn2-bBps8oJjsAUb9kxmpQhU78WKHPy9XlCJFAnFNHn-r0OrY77DX2I1BGum9pL71BB_esSq00oC_p_9IjMK22kLHI3uAKhh0Tsq__y-roVRUUAAJsgXRmT3ynLWyeNjgsFrclyjJwg1QqAnL71bPj_VpfbOvER2hcZbjU21KrJwOGiKpaCuVnLEuwobjLRL0H85wlcY31b9xI-d4S6AME9SKPNk6wMDPj4e0r31QeeL4GjoYY7tr0fZC680p0nxgXF22cxzL66kKu5ddi6orQZnQ9N8BNLmAPvwgRc-yaRS8biDDSsXHgbtqcSd_DQk1BPvr7YoLA.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Snapcompact: SoTA Compaction — Instant, Local, Free. Pick 3&lt;/div&gt;
  &lt;div&gt;A 1568×1568 PNG fits about 40,000 characters of text in a 6×10 pixel font. That’s ~10,000 tokens worth of text, billed by Anthropic’s pixel formula …&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Gemma 4 图解指南：Google DeepMind 开源模型家族全面解析Google DeepMind 发布了 Gemma 4 系列模型，作者 Maarten Grootendorst（刚入职 Google DeepMind）以丰富的可视化方式详细拆解了这一系列模型的架构设计</title><link>https://localhost/posts/123</link><guid isPermaLink="true">https://localhost/posts/123</guid><pubDate>Mon, 06 Apr 2026 10:24:46 GMT</pubDate><content:encoded>&lt;b&gt;Gemma 4 图解指南：Google DeepMind 开源模型家族全面解析&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Google DeepMind 发布了 Gemma 4 系列模型，作者 Maarten Grootendorst（刚入职 Google DeepMind）以丰富的可视化方式详细拆解了这一系列模型的架构设计。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;四款模型，覆盖多种场景&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;Gemma 4 E2B&lt;/b&gt; — 密集模型，等效 20 亿参数，适合端侧部署&lt;br /&gt;•   &lt;b&gt;Gemma 4 E4B&lt;/b&gt; — 密集模型，等效 40 亿参数，适合端侧部署&lt;br /&gt;•   &lt;b&gt;Gemma 4 31B&lt;/b&gt; — 310 亿参数的密集模型&lt;br /&gt;•   &lt;b&gt;Gemma 4 26B A4B&lt;/b&gt; — MoE 架构，总参数 260 亿，推理时仅激活 40 亿参数，兼顾性能与效率&lt;br /&gt;&lt;br /&gt;所有模型均为&lt;b&gt;多模态&lt;/b&gt;，支持图像输入；小模型（E2B/E4B）还额外支持&lt;b&gt;音频输入&lt;/b&gt;。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;核心架构亮点&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;b&gt;注意力机制优化：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   局部注意力（滑动窗口）与全局注意力交替堆叠（5:1 或 4:1），最后一层始终为全局注意力&lt;br /&gt;•   全局注意力层采用 8 个 Query 共享 1 个 KV 头的分组查询注意力（GQA）&lt;br /&gt;•   &lt;b&gt;K=V 技巧&lt;/b&gt;：全局注意力层中 Key 等于 Value，进一步压缩 KV 缓存&lt;br /&gt;•   &lt;b&gt;p-RoPE&lt;/b&gt;：仅对前 25% 维度施加旋转位置编码，避免低频维度引入噪声，提升长上下文处理能力&lt;br /&gt;&lt;br /&gt;&lt;b&gt;视觉编码器：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   基于 Vision Transformer（ViT），支持可变宽高比和可变分辨率&lt;br /&gt;•   通过 2D RoPE 编码 patch 的二维位置信息&lt;br /&gt;•   引入 soft token budget（70/140/280/560/1120），用户可按任务需求灵活选择分辨率&lt;br /&gt;&lt;br /&gt;&lt;b&gt;MoE 架构（26B A4B）：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   128 个专家中每次激活 8 个 + 1 个始终激活的共享专家（3 倍大小）&lt;br /&gt;•   虽然总参数 260 亿，推理速度接近 40 亿参数模型&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Per-Layer Embeddings（E2B/E4B）：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   每一层都有独立的 token embedding 查找表，存储在闪存而非显存中&lt;br /&gt;•   让小模型在有限 RAM 下也能获得更强的表达能力，非常适合手机等端侧设备&lt;br /&gt;&lt;br /&gt;&lt;b&gt;音频编码器（E2B/E4B）：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   基于 Conformer 架构，通过梅尔频谱图提取特征并下采样为 soft token&lt;br /&gt;•   支持语音识别和翻译等任务&lt;br /&gt;&lt;br /&gt;&lt;i&gt;&lt;b&gt;🔗&lt;/b&gt;&lt;/i&gt; &lt;a href=&quot;https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4&quot; target=&quot;_blank&quot;&gt;https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23Gemma4&quot;&gt;#Gemma4&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GoogleDeepMind&quot;&gt;#GoogleDeepMind&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%A4%9A%E6%A8%A1%E6%80%81&quot;&gt;#多模态&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23MoE&quot;&gt;#MoE&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E6%A8%A1%E5%9E%8B&quot;&gt;#开源模型&lt;/a&gt;&lt;a href=&quot;https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Maartengrootendorst&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;A Visual Guide to Gemma 4&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/FACIuiyNybxMxr_qN1wgPGgB5ZlMM93UDrcmr5R6kRgM8J8Mb5wORe8AL7FPpts134BQcsTnCuT5j8MTMNIXkLgEDWoYSs_QWCwTeYucc8qkdJcy9C4kY3G43Eiu1g7L671-17Cs9cF19kxjIlEhNk6voKK1jkBe4pbCjWfuWRCZt9BZm_nE9KFmyxJPPdDkBa1fqhorcZDiJvm8Xg7szSOiQWwsNq63-ykXurikoKKnZivIIfBeZgEwHgHsFsfLvG3gv1Jlan2gGyWN8pXULFKrkz9tO6NRXXLLnzYW4FuNy9LBLWQKz2cRAzfNoZD5sxgR7J8pFY3j-Z8_1AuQ_Q.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;A Visual Guide to Gemma 4&lt;/div&gt;
  &lt;div&gt;A great start to a new job ;)&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Open Responses：让 LLM 接口真正“可互通”的开放规范Open Responses 是一个开源规范与生态，目标是基于 OpenAI Responses API 的理念，建立多模型提供方可互操作的统一接口层</title><link>https://localhost/posts/94</link><guid isPermaLink="true">https://localhost/posts/94</guid><pubDate>Fri, 16 Jan 2026 05:36:14 GMT</pubDate><content:encoded>&lt;b&gt;Open Responses：让 LLM 接口真正“可互通”的开放规范&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Open Responses 是一个开源规范与生态，目标是基于 OpenAI Responses API 的理念，建立&lt;b&gt;多模型提供方可互操作&lt;/b&gt;的统一接口层。它通过共享 Schema 和配套工具，让开发者能用同一种请求/输出结构，跨不同提供方调用模型、处理流式返回，并组合更复杂的 Agent 工作流。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;为什么需要它？&lt;/b&gt;&lt;br /&gt;现在各家 LLM API 的核心组件越来越相似（消息、工具调用、流式、多模态等），但细节编码方式不同，迁移与兼容成本高。Open Responses 希望把“共同部分”沉淀成稳定规范，减少重复适配。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;它强调的设计方向：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;默认多提供方&lt;/b&gt;：一套 Schema 映射多家模型/平台&lt;br /&gt;•   &lt;b&gt;更贴近真实 Agent 工作流&lt;/b&gt;：统一的流式事件、工具调用模式，以及以“items”作为输出与工具使用的原子单元&lt;br /&gt;•   &lt;b&gt;可扩展但不碎片化&lt;/b&gt;：核心稳定，同时允许在必要时容纳提供方特性&lt;br /&gt;&lt;br /&gt;&lt;b&gt;如何开始：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   阅读规范，理解 items、流式事件、工具使用等核心概念&lt;br /&gt;•   查看 OpenAPI 参考，掌握完整类型与接口面&lt;br /&gt;•   用官方的验收测试验证你的 API 实现一致性&lt;br /&gt;&lt;br /&gt;原链接：&lt;a href=&quot;https://www.openresponses.org/&quot; target=&quot;_blank&quot;&gt;https://www.openresponses.org/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23LLM&quot;&gt;#LLM&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%94%BE%E8%A7%84%E8%8C%83&quot;&gt;#开放规范&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%A4%9A%E6%A8%A1%E5%9E%8B&quot;&gt;#多模型&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E4%BA%92%E6%93%8D%E4%BD%9C&quot;&gt;#互操作&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23API%E8%AE%BE%E8%AE%A1&quot;&gt;#API设计&lt;/a&gt;&lt;a href=&quot;https://www.openresponses.org/&quot; target=&quot;_blank&quot;&gt;
  &lt;i&gt;&lt;/i&gt;
  &lt;div&gt;www.openresponses.org&lt;/div&gt;
  
  &lt;div&gt;Open Responses&lt;/div&gt;
  &lt;div&gt;Open Responses documentation overview.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item></channel></rss>