<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet href="/rss.xsl" type="text/xsl"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>降本增效 | 面条的草稿箱</title><description>无原创，纯转发</description><link>https://localhost</link><item><title>大模型省钱新招：把长文本变成“图片”传给AI，成本直接减半我们在使用大语言模型（LLM）处理长上下文任务时，Token 费用往往会随着对话轮数呈指数级上升</title><link>https://localhost/posts/137</link><guid isPermaLink="true">https://localhost/posts/137</guid><pubDate>Sun, 14 Jun 2026 16:03:58 GMT</pubDate><content:encoded>大模型省钱新招：把长文本变成“图片”传给AI，成本直接减半&lt;br /&gt;&lt;br /&gt;我们在使用大语言模型（LLM）处理长上下文任务时，Token 费用往往会随着对话轮数呈指数级上升。虽然可以通过自动压缩或摘要来减少 Token，但这样经常会丢失关键细节，导致模型“变笨”。&lt;br /&gt;&lt;br /&gt;开发者 Can Bölük 提出了一个脑洞大开但非常有效的解决方案：&lt;b&gt;Snapcompact&lt;/b&gt;。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;&lt;i&gt;&lt;b&gt;💡&lt;/b&gt;&lt;/i&gt; 核心思路：把字“画”给AI看&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;像素级压缩&lt;/b&gt;：将 10,000 Token 左右的长文本，用极小的像素字体（如 6x10）渲染成一张 1568x1568 的 PNG 图片。&lt;br /&gt;•   &lt;b&gt;Token 薅羊毛&lt;/b&gt;：根据 Anthropic 等主流厂商的计费规则，这张图片仅折合 3,279 个图片 Token。相比直接传递文本，&lt;b&gt;输入成本直降近 70%&lt;/b&gt;。&lt;br /&gt;•   &lt;b&gt;无损还原&lt;/b&gt;：测试表明，Claude、GPT-5.5、Gemini 等多模态模型能够近乎完美地“读懂”图中的微缩文字，答题准确率与输入原生文本几乎一致。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;&lt;i&gt;&lt;b&gt;🔬&lt;/b&gt;&lt;/i&gt; 为什么这个方案可行？&lt;/b&gt;&lt;br /&gt;作者使用开源多模态模型 Qwen2.5-VL-7B 进行了深度探究。通过分析模型内部的隐藏状态发现，模型在处理这类文字图时，内部的表征会迅速向文本表征靠拢。&lt;br /&gt;&lt;br /&gt;为了防止模型“看错”，作者还做了针对性优化：&lt;br /&gt;&lt;br /&gt;1.  &lt;b&gt;对齐视觉网格&lt;/b&gt;：让文字排版契合模型的 Patch 切片（如 28x28 像素）。&lt;br /&gt;2.  &lt;b&gt;行重复与色彩辅助&lt;/b&gt;：通过将每行文字重复渲染，让模型读取的置信度直接从 0.39 飙升到 1.00（几乎 100% 准确）。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;总结&lt;/b&gt;&lt;br /&gt;有时候不需要改变模型本身，只需改变上下文的“载体格式”（文本 ➔ 像素图），就能在保持精度的前提下，把长文本账单砍掉一半以上。&lt;br /&gt;&lt;br /&gt;原链接：&lt;a href=&quot;https://blog.can.ac/2026/06/10/snapcompact/&quot; target=&quot;_blank&quot;&gt;https://blog.can.ac/2026/06/10/snapcompact/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B&quot;&gt;#大语言模型&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%A4%9A%E6%A8%A1%E6%80%81&quot;&gt;#多模态&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Token%E4%BC%98%E5%8C%96&quot;&gt;#Token优化&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E9%99%8D%E6%9C%AC%E5%A2%9E%E6%95%88&quot;&gt;#降本增效&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%8A%80%E6%9C%AF%E5%89%8D%E6%B2%BF&quot;&gt;#技术前沿&lt;/a&gt;&lt;a href=&quot;https://blog.can.ac/2026/06/10/snapcompact/&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Can.ac&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Snapcompact: SoTA Compaction — Instant, Local, Free. Pick 3&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/BR7im12X57mlSn2-bBps8oJjsAUb9kxmpQhU78WKHPy9XlCJFAnFNHn-r0OrY77DX2I1BGum9pL71BB_esSq00oC_p_9IjMK22kLHI3uAKhh0Tsq__y-roVRUUAAJsgXRmT3ynLWyeNjgsFrclyjJwg1QqAnL71bPj_VpfbOvER2hcZbjU21KrJwOGiKpaCuVnLEuwobjLRL0H85wlcY31b9xI-d4S6AME9SKPNk6wMDPj4e0r31QeeL4GjoYY7tr0fZC680p0nxgXF22cxzL66kKu5ddi6orQZnQ9N8BNLmAPvwgRc-yaRS8biDDSsXHgbtqcSd_DQk1BPvr7YoLA.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Snapcompact: SoTA Compaction — Instant, Local, Free. Pick 3&lt;/div&gt;
  &lt;div&gt;A 1568×1568 PNG fits about 40,000 characters of text in a 6×10 pixel font. That’s ~10,000 tokens worth of text, billed by Anthropic’s pixel formula …&lt;/div&gt;
&lt;/a&gt;</content:encoded></item></channel></rss>