Skip to main content

Search: #技术前沿

无原创,纯转发
  1. 大模型省钱新招:把长文本变成“图片”传给AI,成本直接减半

    我们在使用大语言模型(LLM)处理长上下文任务时,Token 费用往往会随着对话轮数呈指数级上升。虽然可以通过自动压缩或摘要来减少 Token,但这样经常会丢失关键细节,导致模型“变笨”。

    开发者 Can Bölük 提出了一个脑洞大开但非常有效的解决方案:Snapcompact

    💡 核心思路:把字“画”给AI看

    像素级压缩:将 10,000 Token 左右的长文本,用极小的像素字体(如 6x10)渲染成一张 1568x1568 的 PNG 图片。
    Token 薅羊毛:根据 Anthropic 等主流厂商的计费规则,这张图片仅折合 3,279 个图片 Token。相比直接传递文本,输入成本直降近 70%
    无损还原:测试表明,Claude、GPT-5.5、Gemini 等多模态模型能够近乎完美地“读懂”图中的微缩文字,答题准确率与输入原生文本几乎一致。

    🔬 为什么这个方案可行?
    作者使用开源多模态模型 Qwen2.5-VL-7B 进行了深度探究。通过分析模型内部的隐藏状态发现,模型在处理这类文字图时,内部的表征会迅速向文本表征靠拢。

    为了防止模型“看错”,作者还做了针对性优化:

    1. 对齐视觉网格:让文字排版契合模型的 Patch 切片(如 28x28 像素)。
    2. 行重复与色彩辅助:通过将每行文字重复渲染,让模型读取的置信度直接从 0.39 飙升到 1.00(几乎 100% 准确)。

    总结
    有时候不需要改变模型本身,只需改变上下文的“载体格式”(文本 ➔ 像素图),就能在保持精度的前提下,把长文本账单砍掉一半以上。

    原链接:https://blog.can.ac/2026/06/10/snapcompact/

    #大语言模型 #多模态 #Token优化 #降本增效 #技术前沿 Snapcompact: SoTA Compaction — Instant, Local, Free. Pick 3
1px