#开源大模型

面条的草稿箱
极简终端 AI 编码助手，带你读懂 Agent 的核心设计：TauHugging Face 开源的 Tau 是一款运行在终端（Terminal）里的 AI 编码助手
10:18 · 2026年7月9日 · 周四
极简终端 AI 编码助手，带你读懂 Agent 的核心设计：Tau

Hugging Face 开源的 Tau 是一款运行在终端（Terminal）里的 AI 编码助手。只需输入简单的需求，它就能帮你读取文件、修改代码、执行 Bash 命令并记录会话历史。

不同于庞大复杂的商业项目，Tau 的核心定位是一个教学型项目。它的代码极其精简、层级分明，非常适合开发者用来理解“AI 编码 Agent 是如何从零构建的”。

核心特性：

• 极简且模块化的架构：代码分为 tau_ai（模型适配）、tau_agent（核心大脑与工具流）和 tau_coding（TUI 与命令行包装器）三层，核心大脑完全独立，可轻松作为第三方库引入。
• 终端交互式操作：内置基于 Textual 的命令行 TUI 界面，支持 /login 登录、模型切换以及流式输出。
• 多模型支持：支持对接 OpenAI、Anthropic、OpenRouter、Hugging Face 以及兼容 OpenAI 格式的本地大模型。
• 持久化会话管理：通过 JSONL 格式安全存储每一次会话，支持中断恢复与分支操作。

如果你想拥有一个轻量级的命令行开发助手，或是想动手写一个自己的 AI Agent，Tau 是一个绝佳的起点。

项目链接：https://github.com/huggingface/tau

#AI #Agent #Python #开源项目 #编程助手
GitHub

GitHub - huggingface/tau: A Python port of Pi’s minimalist coding agent.

A Python port of Pi’s minimalist coding agent. Contribute to huggingface/tau development by creating an account on GitHub.

10:18 · 2026年7月9日 · 周四
AI Agent Python 开源项目编程助手
面条的草稿箱
omp：直接集成 IDE 能力的终端 AI 编码助手oh my pi (omp) 是一个专为终端设计的开源 AI 编码智能体
23:52 · 2026年6月15日 · 周一
omp：直接集成 IDE 能力的终端 AI 编码助手

oh my pi (omp) 是一个专为终端设计的开源 AI 编码智能体。它不仅是一个代码生成器，更是一个深度集成 IDE 工具的“全能型选手”，旨在为开发者提供开箱即用、无缝连接的终端开发体验。

核心亮点：

• 深度集成 IDE 工具链：内置 LSP（Language Server Protocol），AI 能够像在 IDE 中一样精准进行跨文件重命名与格式化；同时支持 DAP（Debug Adapter Protocol），可以直接启动调试器（如 lldb, dlv, debugpy）进行单步调试和堆栈排查。
• 创新的 Snapcompact 图像压缩：当对话历史过长时，omp 不使用 LLM 进行文本总结，而是将历史记录渲染成极其微小的像素字体 PNG 图像，并发送给多模态模型读取。这一技术能够确保上下文细节不丢失，且仅消耗约 1/3 的 Token 成本。
• 强悍的 Rust 原生引擎：核心由约 5.5 万行 Rust 代码构建，搜索、shell、AST 分析等高频操作均在进程内完成，避免频繁 fork 子进程，效率极高。
• 本地化记忆与离线整理：使用本地 SQLite 矢量记忆库，并使用本地的小模型（如 Qwen-1.7B / Gemma-1B）在本地整理记忆与会话标题，数据不离设备。
• 强大的协作与扩展性：支持通过 /collab 实现端到端加密的实时会话共享；兼容多种主流编辑器规则（如 Cursor, Cline, Copilot），甚至可以通过 ACP 协议直接在 Zed 编辑器中驱动终端中的同一个 omp 实例。

原链接：https://omp.sh/

#AI编码助手 #编程工具 #Rust #开源项目 #智能开发
omp

omp — a coding agent with the IDE wired in

Subagents, plan mode, LSP, DAP, hindsight memory, hashline edits, time-traveling rules — with a native Rust engine doing the heavy lifting.

23:52 · 2026年6月15日 · 周一
AI编码助手编程工具 Rust 开源项目智能开发
面条的草稿箱
Gemma 4 图解指南：Google DeepMind 开源模型家族全面解析Google DeepMind 发布了 Gemma 4 系列模型，作者 Maarten Grootendorst（刚入职 Google DeepMind）以丰富的可视化方式详细拆解了这一系列模型的架构设计
18:24 · 2026年4月6日 · 周一
Gemma 4 图解指南：Google DeepMind 开源模型家族全面解析

Google DeepMind 发布了 Gemma 4 系列模型，作者 Maarten Grootendorst（刚入职 Google DeepMind）以丰富的可视化方式详细拆解了这一系列模型的架构设计。

四款模型，覆盖多种场景

• Gemma 4 E2B — 密集模型，等效 20 亿参数，适合端侧部署
• Gemma 4 E4B — 密集模型，等效 40 亿参数，适合端侧部署
• Gemma 4 31B — 310 亿参数的密集模型
• Gemma 4 26B A4B — MoE 架构，总参数 260 亿，推理时仅激活 40 亿参数，兼顾性能与效率

所有模型均为多模态，支持图像输入；小模型（E2B/E4B）还额外支持音频输入。

核心架构亮点

注意力机制优化：

• 局部注意力（滑动窗口）与全局注意力交替堆叠（5:1 或 4:1），最后一层始终为全局注意力
• 全局注意力层采用 8 个 Query 共享 1 个 KV 头的分组查询注意力（GQA）
• K=V 技巧：全局注意力层中 Key 等于 Value，进一步压缩 KV 缓存
• p-RoPE：仅对前 25% 维度施加旋转位置编码，避免低频维度引入噪声，提升长上下文处理能力

视觉编码器：

• 基于 Vision Transformer（ViT），支持可变宽高比和可变分辨率
• 通过 2D RoPE 编码 patch 的二维位置信息
• 引入 soft token budget（70/140/280/560/1120），用户可按任务需求灵活选择分辨率

MoE 架构（26B A4B）：

• 128 个专家中每次激活 8 个 + 1 个始终激活的共享专家（3 倍大小）
• 虽然总参数 260 亿，推理速度接近 40 亿参数模型

Per-Layer Embeddings（E2B/E4B）：

• 每一层都有独立的 token embedding 查找表，存储在闪存而非显存中
• 让小模型在有限 RAM 下也能获得更强的表达能力，非常适合手机等端侧设备

音频编码器（E2B/E4B）：

• 基于 Conformer 架构，通过梅尔频谱图提取特征并下采样为 soft token
• 支持语音识别和翻译等任务

🔗 https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4

#Gemma4 #GoogleDeepMind #多模态 #MoE #开源模型
Maartengrootendorst

A Visual Guide to Gemma 4

A great start to a new job ;)

18:24 · 2026年4月6日 · 周一
Gemma4 GoogleDeepMind 多模态 MoE 开源模型
面条的草稿箱
Stripe「Minions」：一键生成、端到端交付的无人值守编码代理Stripe 在内部打造了一套名为 Minions 的编码代理：从接到任务到产出可评审的 PR，全程几乎无需人类介入
22:31 · 2026年2月10日 · 周二
Stripe「Minions」：一键生成、端到端交付的无人值守编码代理

Stripe 在内部打造了一套名为 Minions 的编码代理：从接到任务到产出可评审的 PR，全程几乎无需人类介入。现在，Stripe 每周有超过 1000 个合并的 PR 是由 Minions 从头到尾生成的（人类负责 Review，但不写代码）。

为什么要自研？

在 Stripe 这种超大规模、强约束的工程环境里，“从零写个原型”和“在成熟巨型代码库里安全改动”完全不是一回事：

• 代码库规模巨大（数亿行），栈也相对小众：大量后端是 Ruby + Sorbet，还有大量 Stripe 自研库，LLM 天然不熟
• 业务风险极高：Stripe 的代码承载着 每年超过 1 万亿美元 的支付规模，并受金融合规与监管约束
• 既要让代理“会写”，也要让它“按规矩写、能跑通、能过 CI”，并与既有研发流程深度结合

工程师怎么用？

最常见的入口是 Slack：

• 在讨论线程里 @Slack App 就能发起 Minion，它会读取整个线程与相关链接作为上下文
• 也集成到内部系统里：文档平台、Feature Flag、工单系统等
例如 CI 发现 flaky tests，会生成工单，直接提供按钮让 Minion 去修

完成后，Minion 会：

• 创建分支 → 推送 → 跑 CI → 按模板生成 PR

如果效果不理想，人类可以补充指令让它再改；即使不完美，也常常是很好的“可用起点”。

Minions 背后怎么运作（要点版）

Stripe 的思路是：把“创意生成”交给 LLM，把“必须可靠执行的步骤”交给确定性工具链。

• 运行环境：在隔离的 devbox 中执行（10 秒内可启动，预热并预载代码与服务），与生产与公网隔离，便于并行
• Agent 框架：基于 Block 的开源编码代理 goose 的 fork，并做了强定制
• 规则与上下文：读取各类 agent rule 文件，但多为“按目录条件生效”，避免全局死规则拖累
• 工具调用：接入 MCP（函数调用通用协议），并建设内部 MCP 服务 Toolshed，提供 400+ 工具（文档、工单、构建状态、Sourcegraph 搜索等）
• 反馈与质量闸门：
• 首先跑本地启发式 lint/检查（通常 <5 秒）
• 再跑选择性的 CI（Stripe 有 300 万+ 测试），部分失败可自动修复
• 为控制成本与等待时间：最多两轮 CI，强调“能本地提前发现就不要拖到 CI”

接下来

这篇是系列 Part 1，主要讲“怎么用、能做什么”；Part 2 会深入实现细节。整体信号很明确：当“开发者注意力”成为稀缺资源时，无人值守、可并行的编码代理正在改变工程协作方式。

原文链接：https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents

#AI工程化 #编码代理 #开发者效率 #CI实践 #Stripe
stripe.dev

Minions: Stripe’s one-shot, end-to-end coding agents

Minions are Stripe’s homegrown coding agents, responsible for more than a thousand pull requests merged each week. Though humans review the code, minions write it from start to finish. Learn how they work, and how we built them.

22:31 · 2026年2月10日 · 周二
AI工程化编码代理开发者效率 CI实践 Stripe
面条的草稿箱
Steel：为 AI Agent 打造的开源云端浏览器基础设施Steel 是一个开源的浏览器 API，用来在云端按需启动并控制“浏览器集群”，让 AI Agent、自动化脚本把能力真正带到网页上运行
15:43 · 2026年1月1日 · 周四
Steel：为 AI Agent 打造的开源云端浏览器基础设施

Steel 是一个开源的浏览器 API，用来在云端按需启动并控制“浏览器集群”，让 AI Agent、自动化脚本把能力真正带到网页上运行。

它适合做什么？

• 大规模网页抓取与数据采集（也支持更稳定的反爬配置）
• 自主 Web Agent（下单、订票、填写表单等真实操作流程）
• 模型训练数据采集、AI 购物助手、RPA/销售自动化、QA 测试、客服自动化

核心能力概览

• Sessions API：一行调用启动浏览器会话
• 自动 CAPTCHA 处理：减少流程中断
• 代理与指纹控制：降低被识别为机器人的概率
• 快速启动：平均会话启动时间低于 1 秒（同区域更快）
• 长会话：单个会话最长可跑 24 小时
• 上下文复用：保存/注入 Cookies 与本地存储，续跑更顺畅
• 低改动迁移：Puppeteer/Playwright/Selenium 通过少量改动即可上云
• 可观测性：提供会话查看器，支持实时/录制回放调试
• 安全登录：帮助自动化访问需要登录的站点

价格与开源

• 提供免费档起步（按浏览器小时/代理带宽/CAPTCHA 计量），也有从个人到企业的多档套餐
• 项目开源，可本地运行或用 Docker 自托管（官方 GitHub 仓库提供）

原链接：https://steel.dev/
#浏览器自动化 #AI代理 #Web抓取 #开源工具 #云基础设施
steel.dev

Steel | Open-source Headless Browser API

Steel is an open-source browser API purpose-built for AI agents.

15:43 · 2026年1月1日 · 周四
浏览器自动化 AI代理 Web抓取开源工具云基础设施
面条的草稿箱
MiniMax M2.1 发布：面向真实复杂任务的多语言编程升级MiniMax 发布新一代文本模型 MiniMax M2.1，目标从“可用、低成本”进一步走向“能解决真实世界的复杂任务”，重点补齐多语言工程协作与办公场景执行力
21:52 · 2025年12月23日 · 周二
MiniMax M2.1 发布：面向真实复杂任务的多语言编程升级

MiniMax 发布新一代文本模型 MiniMax M2.1，目标从“可用、低成本”进一步走向“能解决真实世界的复杂任务”，重点补齐多语言工程协作与办公场景执行力。

这次重点提升了什么？

• 多语言编程能力系统增强：覆盖 Rust / Java / Go / C++ / Kotlin / Objective‑C / TypeScript / JavaScript 等，更贴近真实项目的多语言栈协作。
• Web & App 开发更强、更好看：强化原生 Android / iOS 开发，同时提升设计理解与审美表达，支持复杂交互、3D 场景模拟与高质量可视化。
• 更适合办公场景的“复合指令”执行：在多约束条件下做端到端任务推进，更强调“按要求完成”而不是只写对代码。
• 更简洁、更高效的输出：相较 M2，响应更精炼、速度更快、token 消耗更低，适配持续式 AI Coding / Agent 工作流。
• 更强的 Agent / 工具泛化：官方称在多种编码工具与 Agent 框架中表现稳定，并兼容常见的上下文管理约定。
• 对话与写作质量同步提升：不仅是“更会写代码”，也更擅长技术文档与日常写作的结构化表达。

基准与展示

• 在多项软件工程评测上相对 M2 有明显提升，并强调多语言场景竞争力；同时引入 VIBE（含 Web/Simulation/Android/iOS/Backend）评测体系，用更接近真实运行环境的方式验证“能跑、能交付”。

如何使用

• API：已上线 MiniMax Open Platform
• 产品：基于 M2.1 的 MiniMax Agent 已开放
• 开源：模型权重提供本地部署，推荐 SGLang / vLLM 等推理框架

原文链接：https://www.minimax.io/news/minimax-m21

#MiniMax #开源大模型 #AI编程 #多语言开发 #Agent工作流
MiniMax

MiniMax M2.1: Significantly Enhanced Multi-Language Programming, Built for Real-World Complex Tasks

21:52 · 2025年12月23日 · 周二
MiniMax 开源大模型 AI编程多语言开发 Agent工作流
面条的草稿箱
Bloom：自动化生成“行为评估”的开源框架前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）
08:57 · 2025年12月21日 · 周日
Bloom：自动化生成“行为评估”的开源框架

前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）。Anthropic 发布了 Bloom：一个开源的“代理式”评估生成框架，用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。

Bloom 的核心思路是：研究者只需定义要测的行为（并可提供少量示例与配置），Bloom 就能自动生成大量情境并运行对话，最后给出该行为在不同模型上的出现频率与严重程度。官方结果显示，Bloom 的评分与人工标注有较强一致性，也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。

Bloom 怎么做评估（四阶段流水线）

• 理解（Understanding）：分析研究者的行为描述与示例，明确“要测什么、为什么测”。
• 构思（Ideation）：自动生成一批用于诱发目标行为的评估场景（含系统提示、用户设定、环境等）。
• 执行（Rollout）：并行跑场景，对话中还会模拟用户与工具响应，以更真实地触发目标行为。
• 判定（Judgment）：评审模型为每段对话打分，并输出套件级总结指标（如诱发率、平均行为强度）。

与固定题库不同，Bloom 每次运行可生成不同场景，但通过“seed 配置”保持可复现；研究者还能调节模型选择、对话长度、是否使用工具、场景多样性，以及增加如“真实感”“诱发难度”等副指标。

已发布的基准与一个案例

Anthropic 同时发布了对 16 个模型的基准结果，覆盖四类对齐相关行为：

• 迎合性妄想（delusional sycophancy）
• 受指令驱动的长程破坏（instructed long-horizon sabotage）
• 自我保存（self-preservation）
• 自我偏好偏差（self-preferential bias）

在“自我偏好偏差”案例中，Bloom 复现了系统卡里的模型排序，并进一步发现：在某些模型上，提高推理强度会降低偏差（更多体现为识别利益冲突后拒绝自评）。

开源地址与技术细节见原文与报告：
https://www.anthropic.com/research/bloom

#AI安全 #对齐研究 #模型评估 #开源工具 #大模型
Anthropic

Introducing Bloom: an open source tool for automated behavioral evaluations

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

08:57 · 2025年12月21日 · 周日
AI安全对齐研究模型评估开源工具大模型
面条的草稿箱
AI 现状：来自 100 万亿 Token 的实证研究a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况
19:51 · 2025年12月5日 · 周五
AI 现状：来自 100 万亿 Token 的实证研究

a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况。这项研究为我们提供了关于模型生态、用户行为和未来趋势的深刻洞见。

以下是几个核心发现：

开源模型的崛起
开源模型已占据约三分之一的市场份额，其中来自中国的模型增长尤为迅猛。在开源领域，创意角色扮演和编程辅助是两大主要应用场景。

智能体推理成为新常态
LLM 的使用正从简单的单轮问答转向集成了工具调用、具备多步规划能力的“智能体推理”。更长的上下文输入和对推理模型的偏爱都证明了这一趋势。

编程与角色扮演：两大支柱
在所有模型中，“编程”是增长最快的专业应用，而“角色扮演”则是一个体量惊人的消费级应用，其使用量几乎与专业任务相当。

“灰姑娘的水晶鞋”效应
研究发现，当一个新模型率先完美解决了某个特定高价值问题时，其早期用户会表现出极高的忠诚度和留存率，形成稳固的“基础用户群”。

价值驱动，而非价格
LLM 市场尚未商品化，需求对价格相对不敏感。用户愿意为高可靠性的闭源模型支付溢价以完成关键任务，而开源模型则在成本敏感的高容量场景中占据优势。

AI 使用的全球化
AI 的使用日益全球化，北美地区支出已低于总额的一半，亚洲市场份额则翻倍增长至近三分之一，显示出强劲的消费和创新能力。

报告揭示了一个多元、动态且竞争激烈的 LLM 生态系统。实际的用户行为往往超出传统认知，从智能体的兴起到角色扮演的流行，都预示着 AI 应用的未来充满了更多可能性。

原文链接

 #AI趋势 #大语言模型 #数据分析 #开源模型 #智能体
OpenRouter

State of AI 2025: 100T Token LLM Usage Study | OpenRouter

Read OpenRouter's 2025 State of AI report — an empirical 100 trillion token study of real LLM usage, model trends, and developer insights.

19:51 · 2025年12月5日 · 周五
AI趋势大语言模型数据分析开源模型智能体
面条的草稿箱
Mistral AI 发布新一代开源模型 Mistral 3Mistral AI 今日发布了其下一代 AI 模型系列 —— Mistral 3，包含一个前沿的大模型和一系列为边缘计算优化的小模型，全部在 Apache 2.0 许可下开源
10:29 · 2025年12月3日 · 周三
Mistral AI 发布新一代开源模型 Mistral 3

Mistral AI 今日发布了其下一代 AI 模型系列 —— Mistral 3，包含一个前沿的大模型和一系列为边缘计算优化的小模型，全部在 Apache 2.0 许可下开源。

Mistral Large 3
一款顶级的稀疏混合专家（MoE）模型，拥有 41B 激活参数和 675B 总参数，性能可与最强的闭源模型相媲美。它在多语言对话和图像理解方面表现出色。

Ministral 3 系列
专为边缘和本地应用设计，提供 3B、8B 和 14B 三种尺寸，实现了卓越的性价比和效率。同样具备多模态和多语言能力。

核心亮点
完全开源：所有模型均采用 Apache 2.0 许可，开发者可自由使用和定制。
多模态与多语言：原生支持文本、图像理解以及超过 40 种语言。
强大生态合作：与 NVIDIA、vLLM 及 Red Hat 紧密合作，提供高效的推理和部署支持。
广泛可用：已登陆 Hugging Face、Amazon Bedrock、Azure 等多个平台。

Mistral 3 的发布进一步推动了开放、透明和可访问的 AI 发展，为开发者和企业提供了更强大的工具。

原文链接：https://mistral.ai/news/mistral-3

#MistralAI #AI #LLM #开源模型 #Mistral3
Mistral AI

Introducing Mistral 3 | Mistral AI

The most powerful AI platform for enterprises. Customize, fine-tune, and deploy AI assistants, autonomous agents, and multimodal AI with open models.

10:29 · 2025年12月3日 · 周三
MistralAI AI LLM 开源模型 Mistral3

Search: #开源大模型