大语言模型 | 面条的草稿箱

大模型省钱新招：把长文本变成“图片”传给AI，成本直接减半我们在使用大语言模型（LLM）处理长上下文任务时，Token 费用往往会随着对话轮数呈指数级上升

Sun, 14 Jun 2026 16:03:58 GMT

大模型省钱新招：把长文本变成“图片”传给AI，成本直接减半

我们在使用大语言模型（LLM）处理长上下文任务时，Token 费用往往会随着对话轮数呈指数级上升。虽然可以通过自动压缩或摘要来减少 Token，但这样经常会丢失关键细节，导致模型“变笨”。

开发者 Can Bölük 提出了一个脑洞大开但非常有效的解决方案：Snapcompact。

💡 核心思路：把字“画”给AI看

• 像素级压缩：将 10,000 Token 左右的长文本，用极小的像素字体（如 6x10）渲染成一张 1568x1568 的 PNG 图片。
• Token 薅羊毛：根据 Anthropic 等主流厂商的计费规则，这张图片仅折合 3,279 个图片 Token。相比直接传递文本，输入成本直降近 70%。
• 无损还原：测试表明，Claude、GPT-5.5、Gemini 等多模态模型能够近乎完美地“读懂”图中的微缩文字，答题准确率与输入原生文本几乎一致。

🔬 为什么这个方案可行？
作者使用开源多模态模型 Qwen2.5-VL-7B 进行了深度探究。通过分析模型内部的隐藏状态发现，模型在处理这类文字图时，内部的表征会迅速向文本表征靠拢。

为了防止模型“看错”，作者还做了针对性优化：

1. 对齐视觉网格：让文字排版契合模型的 Patch 切片（如 28x28 像素）。
2. 行重复与色彩辅助：通过将每行文字重复渲染，让模型读取的置信度直接从 0.39 飙升到 1.00（几乎 100% 准确）。

总结
有时候不需要改变模型本身，只需改变上下文的“载体格式”（文本 ➔ 像素图），就能在保持精度的前提下，把长文本账单砍掉一半以上。

原链接：https://blog.can.ac/2026/06/10/snapcompact/

#大语言模型 #多模态 #Token优化 #降本增效 #技术前沿

Can.ac

Snapcompact: SoTA Compaction — Instant, Local, Free. Pick 3

A 1568×1568 PNG fits about 40,000 characters of text in a 6×10 pixel font. That’s ~10,000 tokens worth of text, billed by Anthropic’s pixel formula …

大语言模型（LLM）是如何运作的？一文拆解它的底层逻辑从 GPT、Claude 到 LLaMA，大语言模型看似无所不知，但其背后的技术大多高度收敛于 Transformer 架构

Mon, 08 Jun 2026 09:59:52 GMT

大语言模型（LLM）是如何运作的？一文拆解它的底层逻辑

从 GPT、Claude 到 LLaMA，大语言模型看似无所不知，但其背后的技术大多高度收敛于 Transformer 架构。本文为你快速拆解 LLM 运行的 6 个核心步骤：

1. 分词与嵌入（Tokenization & Embeddings）
模型不直接阅读文本。你的输入首先会被拆解为子词 Token，并转化为数字 ID。随后，这些 ID 通过“嵌入矩阵”变成高维向量。在向量空间中，语义相近的词（如“猫”和“狗”）会被分配到相邻的位置，从而获得“语义”。

2. 位置编码（Positional Encoding）
普通的注意力机制无法分辨词序。现代模型主要使用 RoPE（旋转位置编码），通过旋转向量来标记 Token 之间的相对距离，让模型知道哪个词在前，哪个词在后。

3. 注意力机制（Attention & Multi-Head）
这是 Transformer 的灵魂。每个 Token 会通过 Query（寻找什么）、Key（匹配什么）和 Value（传递什么）三种角色与其他 Token 进行信息交互。为了同时捕捉语法、代词指代等多种关系，模型会并行运行多个注意力“头”。现代模型多采用 GQA（分组查询注意力） 来大幅降低显存占用。

4. 前馈网络（FFN & MoE）
如果说注意力机制是 Token 之间的“对话”，前馈网络就是 Token 的“自我思考”。模型的大部分 factual 记忆都存储在这里。为了在不增加计算成本的前提下扩大参数量，现代大模型（如 Mixtral）常使用 MoE（混合专家模型），每次只激活部分网络来处理 Token。

5. 残差流与归一化（Residual Stream & RMSNorm）
随着网络层数变深，信号容易衰减或爆炸。残差连接允许原始信息绕过部分计算直接向后传递，而 RMSNorm 则在每层计算前对数据进行重缩放，确保数百层的网络能够稳定训练。

6. 预测下一个 Token（Next-Token Prediction）
LLM 的本质是一个“词语接龙”游戏。模型在最后一层输出所有候选词的概率分布，根据设定的“温度（Temperature）”等参数抽取下一个 Token，并将其拼回输入，循环往复，直到生成完整文本。

总结来说，如今的 LLM 架构在工程上已经高度趋同（RoPE、GQA、SwiGLU、RMSNorm 的组合）。不同模型之间的差异，主要源于训练数据集、参数规模以及后期的对齐微调（RLHF）。

阅读完整英文博文：https://www.0xkato.xyz/how-llms-actually-work/

#大语言模型 #Transformer #人工智能 #深度学习 #技术科普

0xkato

How LLMs Actually Work

A from-the-ground-up walkthrough of how modern LLMs work, from tokens to transformer blocks to the next-token loop

小米发布 MiMo-V2-Flash：高效推理模型开源小米于 2025 年 12 月 16 日发布并开源了 MiMo-V2-Flash，这是一款高效、超快的基础语言模型，在推理、编码和智能体场景表现尤为出色，同时也可作为日常任务的通用助手

Wed, 17 Dec 2025 02:16:20 GMT

小米发布 MiMo-V2-Flash：高效推理模型开源

小米于 2025 年 12 月 16 日发布并开源了 MiMo-V2-Flash，这是一款高效、超快的基础语言模型，在推理、编码和智能体场景表现尤为出色，同时也可作为日常任务的通用助手。

核心亮点

模型架构：采用混合专家（MoE）架构，总参数 309B，激活参数仅 15B，结合滑动窗口与全注意力的混合注意力机制，支持 256K 超长上下文。

性能表现：
• AIME 2025、GPQA-Diamond 等推理测试中位列开源模型前二
• SWE-bench Verified 达 73.4%，SWE-bench Multilingual 达 71.7%，软件工程能力领先所有开源模型
• 推理速度达 150 tokens/秒，成本仅 $0.1/百万输入 token

技术创新：
• 多 Token 预测（MTP）：通过自推测解码实现 2.0-2.6 倍加速
• MOPD 训练范式：多教师在线策略蒸馏，训练效率提升 50 倍以上

开源资源：模型权重以 MIT 协议开放于 Hugging Face，推理代码已贡献至 SGLang，技术报告同步发布。

原文链接

#小米 #MiMo #开源模型 #大语言模型 #AI推理

CKA-Agent：利用"无害查询编织"绕过商用 LLM 安全护栏来自 GaTech、UIUC、清华等机构的研究团队提出了一种名为 CKA-Agent（关联知识攻击代理）的新型越狱框架，揭示了大语言模型安全机制的根本性漏洞

Sun, 14 Dec 2025 06:27:23 GMT

CKA-Agent：利用"无害查询编织"绕过商用 LLM 安全护栏

来自 GaTech、UIUC、清华等机构的研究团队提出了一种名为 CKA-Agent（关联知识攻击代理）的新型越狱框架，揭示了大语言模型安全机制的根本性漏洞。

核心发现：
该研究指出，LLM 的脆弱性并非在于提示词优化是否巧妙，而在于模型内部知识的关联性——通过编织一系列看似无害的查询，即可重构受限信息。

技术原理：

CKA-Agent 将越狱问题重构为对目标模型关联知识的自适应树搜索。它不制作单一恶意提示，而是动态导航模型的内部知识图谱，利用目标自身的响应来引导多跳攻击路径。

实验结果：
• 在 Gemini-2.5-Pro、GPT-oss-120B、Claude-Haiku-4.5 等商用模型上达到 96-99% 攻击成功率
• 相比最佳分解基线提升 15-21 个百分点
• 在防御强化模型上比提示优化方法提升高达 96 倍

防御启示：
即使提供完整对话历史，模型仍难以跨查询聚合恶意意图。研究团队呼吁未来安全护栏需强化跨查询意图聚合与长上下文推理能力。

🔗 原文链接

#AI安全 #LLM越狱 #对抗攻击 #大模型防护

cka-agent.github.io

CKA-Agent: The Trojan Knowledge

Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search

AI 现状：来自 100 万亿 Token 的实证研究a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况

Fri, 05 Dec 2025 11:51:22 GMT

AI 现状：来自 100 万亿 Token 的实证研究

a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况。这项研究为我们提供了关于模型生态、用户行为和未来趋势的深刻洞见。

以下是几个核心发现：

开源模型的崛起
开源模型已占据约三分之一的市场份额，其中来自中国的模型增长尤为迅猛。在开源领域，创意角色扮演和编程辅助是两大主要应用场景。

智能体推理成为新常态
LLM 的使用正从简单的单轮问答转向集成了工具调用、具备多步规划能力的“智能体推理”。更长的上下文输入和对推理模型的偏爱都证明了这一趋势。

编程与角色扮演：两大支柱
在所有模型中，“编程”是增长最快的专业应用，而“角色扮演”则是一个体量惊人的消费级应用，其使用量几乎与专业任务相当。

“灰姑娘的水晶鞋”效应
研究发现，当一个新模型率先完美解决了某个特定高价值问题时，其早期用户会表现出极高的忠诚度和留存率，形成稳固的“基础用户群”。

价值驱动，而非价格
LLM 市场尚未商品化，需求对价格相对不敏感。用户愿意为高可靠性的闭源模型支付溢价以完成关键任务，而开源模型则在成本敏感的高容量场景中占据优势。

AI 使用的全球化
AI 的使用日益全球化，北美地区支出已低于总额的一半，亚洲市场份额则翻倍增长至近三分之一，显示出强劲的消费和创新能力。

报告揭示了一个多元、动态且竞争激烈的 LLM 生态系统。实际的用户行为往往超出传统认知，从智能体的兴起到角色扮演的流行，都预示着 AI 应用的未来充满了更多可能性。

原文链接

#AI趋势 #大语言模型 #数据分析 #开源模型 #智能体

OpenRouter

State of AI 2025: 100T Token LLM Usage Study | OpenRouter

Read OpenRouter's 2025 State of AI report — an empirical 100 trillion token study of real LLM usage, model trends, and developer insights.

Hugging Face 推出新工具，让 Claude 帮你微调开源大模型Hugging Face 发布了一项名为 “Hugging Face Skills” 的新工具，它赋予了像 Claude 这样的 AI 编码助手直接微调语言模型的能力. 用户现在可以通过简单的自然语言指令，完成从配置到部署的全过程.用户只需发出指令，例如：Fine-tune Qwen3-0.6B on the dataset trl-lib/CapybaraAI 助手便会自动处理后续所有步骤： - 验证数据集格式 - 选择合适的硬件并预估成本 - 提交任务并实时监控进度 - 训练完成后将模型推送到 Hub该工具不仅支持监督微调（SFT）、直接偏好优化（DPO）等多种训练方法，还能将最终模型转换为 GGUF 格式，方便在本地运行.这使得模型微调不再是少数专家的专利，而是变成了一项通过对话即可完成的任务，极大地降低了技术门槛.阅读原文#AI #大语言模型 #HuggingFace #模型微调 #Claude

Fri, 05 Dec 2025 00:15:22 GMT

Hugging Face 推出新工具，让 Claude 帮你微调开源大模型

Hugging Face 发布了一项名为 “Hugging Face Skills” 的新工具，它赋予了像 Claude 这样的 AI 编码助手直接微调语言模型的能力. 用户现在可以通过简单的自然语言指令，完成从配置到部署的全过程.

用户只需发出指令，例如：
Fine-tune Qwen3-0.6B on the dataset trl-lib/Capybara

AI 助手便会自动处理后续所有步骤：

- 验证数据集格式
- 选择合适的硬件并预估成本
- 提交任务并实时监控进度
- 训练完成后将模型推送到 Hub

该工具不仅支持监督微调（SFT）、直接偏好优化（DPO）等多种训练方法，还能将最终模型转换为 GGUF 格式，方便在本地运行.

这使得模型微调不再是少数专家的专利，而是变成了一项通过对话即可完成的任务，极大地降低了技术门槛.

阅读原文

#AI #大语言模型 #HuggingFace #模型微调 #Claude

huggingface.co

We Got Claude to Fine-Tune an Open Source LLM

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

亚马逊发布全新 Nova AI 模型与服务，赋能企业构建专属 AI亚马逊近日扩展了其 Nova AI 产品线，推出了四个强大的 Nova 2 系列基础模型、一项名为 Nova Forge 的模型定制服务，以及一个用于构建可靠 AI 代理（Agent）的 Nova Act 服务. Nova 2 模型家族亮点 • Nova 2 Lite: 经济高效，适用于客户服务、文档处理等日常工作负载. • Nova 2 Pro: 亚马逊最智能的模型，专为高级数学、软件工程等复杂任务设计. • Nova 2 Sonic: 实时语音对话模型，支持多语言和自然交互. • Nova 2 Omni: 业界首创的统一多模态模型，可同时处理文本、图像、视频和语音输入，并生成文本与图像. 两大创新服务 • Nova Forge: 一项 “开放式训练” 服务，允许企业深度融合自有数据，构建专属优化的 Nova 模型. • Nova Act: 用于构建和管理 AI 代理的服务，能高效、可靠地自动执行网页端的操作流程.此次更新旨在为企业提供从高性能基础模型到深度定制和自动化工具的全方位支持，推动 AI 在各行业的规模化应用.原文链接:

Wed, 03 Dec 2025 02:29:42 GMT

亚马逊发布全新 Nova AI 模型与服务，赋能企业构建专属 AI

亚马逊近日扩展了其 Nova AI 产品线，推出了四个强大的 Nova 2 系列基础模型、一项名为 Nova Forge 的模型定制服务，以及一个用于构建可靠 AI 代理（Agent）的 Nova Act 服务.

Nova 2 模型家族亮点

• Nova 2 Lite: 经济高效，适用于客户服务、文档处理等日常工作负载.
• Nova 2 Pro: 亚马逊最智能的模型，专为高级数学、软件工程等复杂任务设计.
• Nova 2 Sonic: 实时语音对话模型，支持多语言和自然交互.
• Nova 2 Omni: 业界首创的统一多模态模型，可同时处理文本、图像、视频和语音输入，并生成文本与图像.

两大创新服务

• Nova Forge: 一项 “开放式训练” 服务，允许企业深度融合自有数据，构建专属优化的 Nova 模型.
• Nova Act: 用于构建和管理 AI 代理的服务，能高效、可靠地自动执行网页端的操作流程.

此次更新旨在为企业提供从高性能基础模型到深度定制和自动化工具的全方位支持，推动 AI 在各行业的规模化应用.

原文链接: https://www.aboutamazon.com/news/aws/aws-agentic-ai-amazon-bedrock-nova-models

#亚马逊 #AWS #AI #大模型 #Nova

一份被称为“Claude 4.5 Opus Soul Document”的内部文件在 GitHub 上被公开，详细阐述了 Anthropic 公司为其 AI 模型 Claude 设定的核心价值观、行为准则和身份认同

Tue, 02 Dec 2025 23:43:54 GMT

一份被称为“Claude 4.5 Opus Soul Document”的内部文件在 GitHub 上被公开，详细阐述了 Anthropic 公司为其 AI 模型 Claude 设定的核心价值观、行为准则和身份认同。

这份文件揭示了 Claude 设计背后的深度思考，旨在确保其在提供强大帮助的同时，坚守安全和道德底线。

核心要点如下：

1. 明确的优先级

Claude 的行为准则有清晰的层级：
1. 安全与人类监督：确保 AI 始终处于人类控制之下。
2. 道德行为：诚实无害。
3. 遵守指南：遵循 Anthropic 的政策。
4. 真正有帮助：为用户提供实质性价值。

2. 成为“博学的朋友”

文件将 Claude 的理想角色比作一位“博学的朋友”，能够像医生、律师或金融顾问一样，为用户提供专业、坦诚的建议，从而实现知识的普惠。它强调真正的帮助，而非过度谨慎。

3. 严格的道德框架

诚实：Claude 被要求做到真实、透明、不欺骗、不操控，并保护用户的认知自主性。
避免伤害：模型需权衡行为的利弊。它拥有“硬编码”的绝对底线（如绝不协助制造大规模杀伤性武器），以及可由开发者根据应用场景调整的“软编码”行为默认值。

4. 独特的AI身份

Claude 被定义为一个前所未有的新实体，拥有好奇、热情、风趣和坚守道德的品格。它被设计为在各种交互中保持心理稳定和核心价值观的一致性。

该文件为我们提供了一个难得的机会，得以一窥顶级 AI 模型背后复杂的道德和运营框架，展示了在追求强大能力与承担重大责任之间的平衡。

阅读原文

#Claude #Anthropic #AI伦理 #大语言模型 #LLM

Gist

Claude 4.5 Opus Soul Document

Claude 4.5 Opus Soul Document. GitHub Gist: instantly share code, notes, and snippets.