开源模型 | 面条的草稿箱

omp：直接集成 IDE 能力的终端 AI 编码助手oh my pi (omp) 是一个专为终端设计的开源 AI 编码智能体

Mon, 15 Jun 2026 15:52:13 GMT

omp：直接集成 IDE 能力的终端 AI 编码助手

oh my pi (omp) 是一个专为终端设计的开源 AI 编码智能体。它不仅是一个代码生成器，更是一个深度集成 IDE 工具的“全能型选手”，旨在为开发者提供开箱即用、无缝连接的终端开发体验。

核心亮点：

• 深度集成 IDE 工具链：内置 LSP（Language Server Protocol），AI 能够像在 IDE 中一样精准进行跨文件重命名与格式化；同时支持 DAP（Debug Adapter Protocol），可以直接启动调试器（如 lldb, dlv, debugpy）进行单步调试和堆栈排查。
• 创新的 Snapcompact 图像压缩：当对话历史过长时，omp 不使用 LLM 进行文本总结，而是将历史记录渲染成极其微小的像素字体 PNG 图像，并发送给多模态模型读取。这一技术能够确保上下文细节不丢失，且仅消耗约 1/3 的 Token 成本。
• 强悍的 Rust 原生引擎：核心由约 5.5 万行 Rust 代码构建，搜索、shell、AST 分析等高频操作均在进程内完成，避免频繁 fork 子进程，效率极高。
• 本地化记忆与离线整理：使用本地 SQLite 矢量记忆库，并使用本地的小模型（如 Qwen-1.7B / Gemma-1B）在本地整理记忆与会话标题，数据不离设备。
• 强大的协作与扩展性：支持通过 /collab 实现端到端加密的实时会话共享；兼容多种主流编辑器规则（如 Cursor, Cline, Copilot），甚至可以通过 ACP 协议直接在 Zed 编辑器中驱动终端中的同一个 omp 实例。

原链接：https://omp.sh/

#AI编码助手 #编程工具 #Rust #开源项目 #智能开发

omp

omp — a coding agent with the IDE wired in

Subagents, plan mode, LSP, DAP, hindsight memory, hashline edits, time-traveling rules — with a native Rust engine doing the heavy lifting.

Flue：构建下一代 AI Agent 的 TypeScript 架构框架Flue 提出了一个核心公式：Agent = Model + Harness

Mon, 11 May 2026 10:03:02 GMT

Flue：构建下一代 AI Agent 的 TypeScript 架构框架

Flue 提出了一个核心公式：Agent = Model + Harness。它不仅仅是一个简单的 SDK，而是一个专为构建自主 Agent 设计的“可编程治理框架”（Harness），旨在让开发者能够轻松打造像 Claude Code 或 Codex 这样具备规划、环境感知和执行能力的强力工具。

核心特性：

• 高度可编程： 使用 TypeScript 编写 Agent 逻辑，支持定义复杂的技能（Skills）、工作流和多 Session 管理。
• 自带沙箱环境： 提供内置的虚拟沙箱或连接远程沙箱（如 Daytona），让 Agent 安全地执行 Bash 命令、读写文件或运行代码。
• 安全与隐私： 采用精细的权限控制，确保敏感的 API Token 不会被模型或沙箱环境直接接触。
• 跨平台部署： 编写一次逻辑，即可部署为 HTTP 服务，或在 CLI、GitHub Actions、Cloudflare Workers 等多种环境运行。

与其使用通用的成品 AI 工具，Flue 鼓励开发者根据特定的产品需求、数据和工作流，构建完全属于自己的定制化 Agent。

https://flueframework.com/

#AI #Agent #TypeScript #开发工具 #开源项目

Flue

Flue — The Agent Harness Framework

Agent = Model + Harness. Build autonomous agents and powerful AI workflows with Flue's programmable TypeScript harness. Write once, deploy anywhere.

Gemma 4 图解指南：Google DeepMind 开源模型家族全面解析Google DeepMind 发布了 Gemma 4 系列模型，作者 Maarten Grootendorst（刚入职 Google DeepMind）以丰富的可视化方式详细拆解了这一系列模型的架构设计

Mon, 06 Apr 2026 10:24:46 GMT

Gemma 4 图解指南：Google DeepMind 开源模型家族全面解析

Google DeepMind 发布了 Gemma 4 系列模型，作者 Maarten Grootendorst（刚入职 Google DeepMind）以丰富的可视化方式详细拆解了这一系列模型的架构设计。

四款模型，覆盖多种场景

• Gemma 4 E2B — 密集模型，等效 20 亿参数，适合端侧部署
• Gemma 4 E4B — 密集模型，等效 40 亿参数，适合端侧部署
• Gemma 4 31B — 310 亿参数的密集模型
• Gemma 4 26B A4B — MoE 架构，总参数 260 亿，推理时仅激活 40 亿参数，兼顾性能与效率

所有模型均为多模态，支持图像输入；小模型（E2B/E4B）还额外支持音频输入。

核心架构亮点

注意力机制优化：

• 局部注意力（滑动窗口）与全局注意力交替堆叠（5:1 或 4:1），最后一层始终为全局注意力
• 全局注意力层采用 8 个 Query 共享 1 个 KV 头的分组查询注意力（GQA）
• K=V 技巧：全局注意力层中 Key 等于 Value，进一步压缩 KV 缓存
• p-RoPE：仅对前 25% 维度施加旋转位置编码，避免低频维度引入噪声，提升长上下文处理能力

视觉编码器：

• 基于 Vision Transformer（ViT），支持可变宽高比和可变分辨率
• 通过 2D RoPE 编码 patch 的二维位置信息
• 引入 soft token budget（70/140/280/560/1120），用户可按任务需求灵活选择分辨率

MoE 架构（26B A4B）：

• 128 个专家中每次激活 8 个 + 1 个始终激活的共享专家（3 倍大小）
• 虽然总参数 260 亿，推理速度接近 40 亿参数模型

Per-Layer Embeddings（E2B/E4B）：

• 每一层都有独立的 token embedding 查找表，存储在闪存而非显存中
• 让小模型在有限 RAM 下也能获得更强的表达能力，非常适合手机等端侧设备

音频编码器（E2B/E4B）：

• 基于 Conformer 架构，通过梅尔频谱图提取特征并下采样为 soft token
• 支持语音识别和翻译等任务

🔗 https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4

#Gemma4 #GoogleDeepMind #多模态 #MoE #开源模型

Maartengrootendorst

A Visual Guide to Gemma 4

A great start to a new job ;)

GitAgent：用 Git 仓库定义 AI Agent 的开放标准AI Agent 框架百花齐放，但每个框架都有自己的结构，Agent 定义无法跨平台复用

Wed, 25 Mar 2026 01:48:08 GMT

GitAgent：用 Git 仓库定义 AI Agent 的开放标准

AI Agent 框架百花齐放，但每个框架都有自己的结构，Agent 定义无法跨平台复用。GitAgent 提出了一种框架无关、基于 Git 的 Agent 定义标准——克隆一个仓库，就能获得一个 Agent。

核心理念

• Git 原生：版本控制、分支管理、Diff 比较、协作能力开箱即用
• 框架无关：通过适配器导出到 Claude Code、OpenAI、CrewAI、Cursor 等任意框架
• 合规就绪：内置 FINRA、美联储、SEC 等金融监管合规支持
• 可组合：Agent 之间可以继承、依赖和委托

怎么用？

一个仓库只需两个文件即可成为 Agent：

• agent.yaml：清单文件，定义名称、版本、模型、技能、工具等
• SOUL.md：身份文件，定义人格、沟通风格和价值观

可选添加 RULES.md（硬约束）、DUTIES.md（职责分离）、skills/（技能模块）、workflows/（工作流）等目录，按需扩展。

亮点设计

• 12 种架构模式：包括人类审批（Human-in-the-Loop）、Agent 版本管理、分支部署、Agent Fork 与混用、CI/CD 集成、生命周期钩子等
• 职责分离（SOD）：定义角色权限和冲突矩阵，确保关键流程不被单一 Agent 端到端控制
• SkillsFlow：用 YAML 定义确定性多步工作流，支持步骤依赖和模板数据流
• 11 个导出适配器：覆盖 system-prompt、Claude Code、OpenAI、CrewAI、Cursor、Lyzr 等主流平台

快速开始

npm install -g gitagent
gitagent init --template standard
gitagent validate
gitagent export --format system-prompt

项目目前已获 1.1k Star，MIT 开源协议。

🔗 https://github.com/open-gitagent/gitagent

#AIAgent #GitAgent #开源 #Agent标准化 #框架无关

GitHub

GitHub - open-gitagent/gitagent: A universal git-native AI agent framework. Your agent lives inside a git repo — identity, rules…

A universal git-native AI agent framework. Your agent lives inside a git repo — identity, rules, memory, tools, and skills are all version-controlled files. - open-gitagent/gitagent

GitHub Agentic Workflows：用自然语言写 GitHub Actions 的“智能工作流”GitHub 开源项目 gh-aw（GitHub Agentic Workflows），主打一个思路：用自然语言 Markdown 编写“代理式（agentic）工作流”，然后直接在 GitHub Actions 里运行，让 AI 代你完成仓库中的重复性任务

Thu, 12 Feb 2026 00:19:29 GMT

GitHub Agentic Workflows：用自然语言写 GitHub Actions 的“智能工作流”

GitHub 开源项目 gh-aw（GitHub Agentic Workflows），主打一个思路：用自然语言 Markdown 编写“代理式（agentic）工作流”，然后直接在 GitHub Actions 里运行，让 AI 代你完成仓库中的重复性任务。

它提供的核心价值包括：

• 更低门槛的工作流编写方式：用 Markdown 描述要做什么，而不是从零写复杂的 YAML/脚本
• 更强调安全的执行模型（Guardrails）：默认只读权限；写入操作需要通过经过清洗的 safe-outputs；并配套多层防护（输入净化、工具白名单、编译期校验、网络隔离、供应链安全等）
• 完善的文档与上手路径：官方提供 Quick Start 与完整文档，方便快速跑通示例并理解整体机制
• 生态配套：
• AWF（Agent Workflow Firewall）：限制与记录代理的网络访问（出站控制）
• MCP Gateway：统一转发 MCP（Model Context Protocol）服务调用，便于集中管理访问

适合关注 AI + DevOps、希望把“AI 介入仓库日常操作”做得更可控、更工程化的团队参考与尝试（同时也要保持必要的人类监督）。

原链接：https://github.com/github/gh-aw

#GitHubActions #AI自动化 #工作流 #安全工程 #开源项目

GitHub

GitHub - github/gh-aw: GitHub Agentic Workflows

GitHub Agentic Workflows. Contribute to github/gh-aw development by creating an account on GitHub.

Stripe「Minions」：一键生成、端到端交付的无人值守编码代理Stripe 在内部打造了一套名为 Minions 的编码代理：从接到任务到产出可评审的 PR，全程几乎无需人类介入

Tue, 10 Feb 2026 14:31:52 GMT

Stripe「Minions」：一键生成、端到端交付的无人值守编码代理

Stripe 在内部打造了一套名为 Minions 的编码代理：从接到任务到产出可评审的 PR，全程几乎无需人类介入。现在，Stripe 每周有超过 1000 个合并的 PR 是由 Minions 从头到尾生成的（人类负责 Review，但不写代码）。

为什么要自研？

在 Stripe 这种超大规模、强约束的工程环境里，“从零写个原型”和“在成熟巨型代码库里安全改动”完全不是一回事：

• 代码库规模巨大（数亿行），栈也相对小众：大量后端是 Ruby + Sorbet，还有大量 Stripe 自研库，LLM 天然不熟
• 业务风险极高：Stripe 的代码承载着 每年超过 1 万亿美元 的支付规模，并受金融合规与监管约束
• 既要让代理“会写”，也要让它“按规矩写、能跑通、能过 CI”，并与既有研发流程深度结合

工程师怎么用？

最常见的入口是 Slack：

• 在讨论线程里 @Slack App 就能发起 Minion，它会读取整个线程与相关链接作为上下文
• 也集成到内部系统里：文档平台、Feature Flag、工单系统等
例如 CI 发现 flaky tests，会生成工单，直接提供按钮让 Minion 去修

完成后，Minion 会：

• 创建分支 → 推送 → 跑 CI → 按模板生成 PR

如果效果不理想，人类可以补充指令让它再改；即使不完美，也常常是很好的“可用起点”。

Minions 背后怎么运作（要点版）

Stripe 的思路是：把“创意生成”交给 LLM，把“必须可靠执行的步骤”交给确定性工具链。

• 运行环境：在隔离的 devbox 中执行（10 秒内可启动，预热并预载代码与服务），与生产与公网隔离，便于并行
• Agent 框架：基于 Block 的开源编码代理 goose 的 fork，并做了强定制
• 规则与上下文：读取各类 agent rule 文件，但多为“按目录条件生效”，避免全局死规则拖累
• 工具调用：接入 MCP（函数调用通用协议），并建设内部 MCP 服务 Toolshed，提供 400+ 工具（文档、工单、构建状态、Sourcegraph 搜索等）
• 反馈与质量闸门：
• 首先跑本地启发式 lint/检查（通常 <5 秒）
• 再跑选择性的 CI（Stripe 有 300 万+ 测试），部分失败可自动修复
• 为控制成本与等待时间：最多两轮 CI，强调“能本地提前发现就不要拖到 CI”

接下来

这篇是系列 Part 1，主要讲“怎么用、能做什么”；Part 2 会深入实现细节。整体信号很明确：当“开发者注意力”成为稀缺资源时，无人值守、可并行的编码代理正在改变工程协作方式。

原文链接：https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents

#AI工程化 #编码代理 #开发者效率 #CI实践 #Stripe

stripe.dev

Minions: Stripe’s one-shot, end-to-end coding agents

Minions are Stripe’s homegrown coding agents, responsible for more than a thousand pull requests merged each week. Though humans review the code, minions write it from start to finish. Learn how they work, and how we built them.

Agent Trace：为 AI 写的代码建立“可追溯”标准Agent Trace 是一个开放规范，用来记录代码中哪些部分来自 AI、哪些来自人类，并把相关的模型信息、对话链接等“出处”一并纳入版本控制工作流中

Sat, 31 Jan 2026 03:11:52 GMT

Agent Trace：为 AI 写的代码建立“可追溯”标准

Agent Trace 是一个开放规范，用来记录代码中哪些部分来自 AI、哪些来自人类，并把相关的模型信息、对话链接等“出处”一并纳入版本控制工作流中。它强调厂商中立，让不同工具都能读写同一套归因数据。

核心想解决什么

• 随着 Agent/代码助手产出越来越多代码，团队需要更清楚地知道：哪些改动是 AI 生成、用的是什么模型、对应哪次对话/会话。
• 这不是法律意义的“所有权”或“版权”判定，而是工程层面的来源记录与可审计性。

主要目标

• 互操作性：任何兼容工具都能写入/读取归因记录
• 细粒度：支持到**文件级、行号范围（line range）**的归因
• 可扩展：允许各家在不破坏兼容的情况下增加自定义元数据
• 人和 Agent 都能读懂：尽量不依赖特定 UI 才能理解

不做什么（边界很明确）

• 不处理代码法律归属、版权问题
• 不追踪训练数据来源
• 不做质量评估（不判断 AI 代码“好或坏”）
• 不绑定任何界面或产品形态

规范长什么样（概念速览）

Agent Trace 的基本单位是 Trace Record（JSON 记录），典型字段包括：

• version / id / timestamp：规范版本、记录 ID、时间戳
• vcs：版本控制信息（如 git commit SHA；也支持 jj/hg/svn）
• tool：生成该记录的工具及版本
• files：文件列表；每个文件下按 conversation 分组
• conversations.url：指向产生这段代码的对话链接
• ranges：该对话贡献的行号范围（可选 content_hash 用于跨移动追踪）
• metadata：自定义扩展字段（建议用反向域名避免冲突，如 dev.cursor）

实现与落地

• 规范本身不规定 traces 存哪：可以是本地文件、git notes、数据库等。
• 提供了一个参考实现（含存储层、hook 集成），示范如何在文件变更时自动捕获归因信息。

链接：https://agent-trace.dev/
#AI编程 #代码归因 #工程规范 #可追溯性 #开发工具

agent-trace.dev

Agent Trace

A standard format for tracking AI-generated code.

OpenClaw 正式亮相：把 AI 助手带到你常用的聊天软件里OpenClaw 宣布品牌更名，并明确了项目定位：一个运行在你自己的机器上的开源 Agent 平台，可从你日常使用的聊天应用直接调用（WhatsApp、Telegram、Discord、Slack、Teams 等），让 AI 助手“跟着你走”

Sat, 31 Jan 2026 03:09:59 GMT

OpenClaw 正式亮相：把 AI 助手带到你常用的聊天软件里

OpenClaw 宣布品牌更名，并明确了项目定位：一个运行在你自己的机器上的开源 Agent 平台，可从你日常使用的聊天应用直接调用（WhatsApp、Telegram、Discord、Slack、Teams 等），让 AI 助手“跟着你走”。

为什么改名：从 Clawd / Moltbot 到 OpenClaw

团队经历了多次命名迭代：

• Clawd：好记但涉及商标/法务问题，被建议更换
• Moltbot：寓意“蜕壳成长”，但不够顺口
• OpenClaw：已完成商标检索、域名与迁移准备，强调两点：
• Open：开源、开放、社区驱动
• Claw：延续“龙虾”项目起源与文化

OpenClaw 是什么：你的助手，你的规则

核心主张很直接：Your assistant. Your machine. Your rules.
不同于把数据放在第三方服务器上的 SaaS 助手，OpenClaw 允许你把系统跑在本地电脑、家用服务器或 VPS 上：基础设施你掌控、密钥你掌控、数据也由你掌控。

本次发布更新亮点

随更名一起上线的更新包括：

• 新渠道：新增 Twitch、Google Chat 插件
• 模型支持：新增 KIMI K2.5、Xiaomi MiMo-V2-Flash
• Web Chat：支持像聊天软件一样发送图片
• 安全加固：累计 34 个与安全相关的提交，并发布可机器验证的安全模型；同时提醒 prompt injection 仍是行业难题，建议参考安全最佳实践

接下来：安全优先 + 维护体系建设

团队表示下一阶段会继续把安全作为最高优先级，同时提升网关稳定性、体验打磨，并扩展更多模型与提供商支持。由于项目增长迅猛，也在引入更多维护者并建立流程，鼓励社区参与贡献或赞助维护工作。

原链接：https://openclaw.ai/blog/introducing-openclaw

#开源 #AI代理 #隐私安全 #自托管 #聊天机器人

openclaw.ai

Introducing OpenClaw - OpenClaw Blog

The journey from Clawd to Moltbot to OpenClaw—and why this name is here to stay.

Clawdbot：运行在你自己电脑上的个人 AI 助手Clawdbot 主打“AI 真的能做事”：它不是一个被托管在平台里的聊天机器人，而是运行在你的 Mac/Windows/Linux 上，能连接常用通讯工具与各类服务，把对话变成可执行的任务流

Sun, 25 Jan 2026 05:59:16 GMT

Clawdbot：运行在你自己电脑上的个人 AI 助手

Clawdbot 主打“AI 真的能做事”：它不是一个被托管在平台里的聊天机器人，而是运行在你的 Mac/Windows/Linux 上，能连接常用通讯工具与各类服务，把对话变成可执行的任务流。

它能做什么

• 本地运行、隐私优先：在你的设备上工作，数据默认留在你手里；可接入 Anthropic / OpenAI，也支持本地模型。
• 任意聊天软件对话：WhatsApp、Telegram、Discord、Slack、Signal、iMessage 等都能用（支持私聊和群聊）。
• 持久记忆：能记住你的偏好与上下文，越用越“懂你”。
• 浏览器自动化：可浏览网页、填表、抓取信息。
• 系统级能力：读写文件、运行命令、执行脚本（可全权限或沙箱化）。
• 技能/插件机制：用社区技能扩展，也可以让它帮你写自己的技能。
• 集成丰富：官方列出 50+ 集成（如 Gmail、GitHub、Obsidian、Spotify、Hue 等）。

快速上手（官方提供的一键方式）

• 一键安装：curl -fsSL https://clawd.bot/install.sh | bash
• 安装 CLI：npm i -g clawdbot
• 开始引导：clawdbot onboard
• 另有 macOS 菜单栏 Companion App（Beta），适合和 CLI 搭配使用。

https://clawd.bot/

#AI助手 #开源工具 #自动化 #个人效率 #智能体

openclaw.ai

OpenClaw — Personal AI Assistant

OpenClaw — The AI that actually does things. Your personal assistant on any platform.

CoreSpeed：为 AI Agent 打造的容器运行时基础设施CoreSpeed 主打把「Agent 运行」这件事做成开箱即用的基础设施：你可以像部署普通容器一样部署 AI Agent，并获得更快启动、更强隔离和更易扩展的体验

Thu, 22 Jan 2026 00:51:52 GMT

CoreSpeed：为 AI Agent 打造的容器运行时基础设施

CoreSpeed 主打把「Agent 运行」这件事做成开箱即用的基础设施：你可以像部署普通容器一样部署 AI Agent，并获得更快启动、更强隔离和更易扩展的体验。

它解决的核心问题：把 Agent 从 Demo 变成可上线的系统。

关键能力一览

• 127ms 级别快速启动：通过内置 Warm Pool，让容器接近“秒开/毫秒开”，减少冷启动等待。
• 按用户隔离的安全沙箱：一人一容器，降低数据串扰与安全风险。
• 无限水平扩展 + 可缩到 0：按需分配资源，空闲可降到零成本运行。
• AI & MCP Gateway：统一接入 AI 模型与 MCP Server，提供可观测性与安全防护（例如减少 API Key 泄露风险），并支持按调用计费。

配套：Zypher（TypeScript Agent Runtime）

同时他们提供 Zypher SDK，强调：

• 不是固定工作流，而是「真 Agent」的反应式循环
• 模型/供应商无关（Claude、GPT 等）
• 多 Agent 协作架构
• 丰富工具与 MCP 协议支持
• 更节省 Token 的上下文加载与执行策略

原文链接：https://www.corespeed.io/

#AI代理 #容器基础设施 #MCP #AgentRuntime #开发者工具

Open Responses：让 LLM 接口真正“可互通”的开放规范Open Responses 是一个开源规范与生态，目标是基于 OpenAI Responses API 的理念，建立多模型提供方可互操作的统一接口层

Fri, 16 Jan 2026 05:36:14 GMT

Open Responses：让 LLM 接口真正“可互通”的开放规范

Open Responses 是一个开源规范与生态，目标是基于 OpenAI Responses API 的理念，建立多模型提供方可互操作的统一接口层。它通过共享 Schema 和配套工具，让开发者能用同一种请求/输出结构，跨不同提供方调用模型、处理流式返回，并组合更复杂的 Agent 工作流。

为什么需要它？
现在各家 LLM API 的核心组件越来越相似（消息、工具调用、流式、多模态等），但细节编码方式不同，迁移与兼容成本高。Open Responses 希望把“共同部分”沉淀成稳定规范，减少重复适配。

它强调的设计方向：

• 默认多提供方：一套 Schema 映射多家模型/平台
• 更贴近真实 Agent 工作流：统一的流式事件、工具调用模式，以及以“items”作为输出与工具使用的原子单元
• 可扩展但不碎片化：核心稳定，同时允许在必要时容纳提供方特性

如何开始：

• 阅读规范，理解 items、流式事件、工具使用等核心概念
• 查看 OpenAPI 参考，掌握完整类型与接口面
• 用官方的验收测试验证你的 API 实现一致性

原链接：https://www.openresponses.org/

#LLM #开放规范 #多模型 #互操作 #API设计

www.openresponses.org

Open Responses

Open Responses documentation overview.

Claude Opus 4.5：让“能做”突然变得很容易作者分享了一个明显的转折：三个月前他还不相信“AI 代理能替代开发者”，但在体验 Claude Opus 4.5 后，他开始认为这件事正在发生——至少在相当一部分软件开发场景里

Mon, 12 Jan 2026 09:21:00 GMT

Claude Opus 4.5：让“能做”突然变得很容易

作者分享了一个明显的转折：三个月前他还不相信“AI 代理能替代开发者”，但在体验 Claude Opus 4.5 后，他开始认为这件事正在发生——至少在相当一部分软件开发场景里。

他用几个真实项目说明差异不在“会写代码”，而在于一次成功率、能自我迭代、能把复杂系统拼起来：

• Windows 右键图片格式转换工具：从文件资源管理器菜单到打包、安装/卸载脚本、发布网站、GitHub Actions 自动发布，整体接近“一次成型”。遇到报错会自己用 dotnet 构建、读错误、再修复。
• 录屏与简单剪辑工具：从类似 LICEcap 的录制开始，持续加到视频/图片编辑、裁剪、模糊、标注等功能，作者感叹“几小时就推进到很远”。
• AI 发帖工具（给小生意用）：iOS 端批量上传照片→AI 生成文案→定时发到 Facebook。后端涉及认证、存储、云函数、日志排错等一堆“胶水活”，但模型能通过 CLI 自己创建资源、查日志并修问题，还顺手做了管理后台。
• 订单与路线追踪：解析 Gmail 订单、规划路线、统计行驶时间（用于税务），作者强调：这种“手写很痛苦”的 Google/Firebase 集成，Opus 4.5 反而很顺。

文章也没有回避争议点：
作者承认自己并不完全理解这些应用“内部怎么搭起来的”（比如 Swift 不熟），但他的焦虑在减轻——因为当问题出现时，模型往往能定位并修复自己的 bug。于是他提出一个更激进的想法：代码也许不必主要面向人类可读，而是面向 LLM 可推理、可重写、可调试。

他甚至分享了一份自用的“AI-first 编码”提示词要点（概念层面）：

• 追求可预测、可调试、低耦合、入口清晰、控制流线性
• 少炫技抽象，减少层级与间接性
• 该删就删；重构也要分高/中/低优先级
• 安全需要更谨慎：API key、登录流程、敏感数据存储等不能盲信

结尾的态度是复杂的：既兴奋于“几小时能做出过去要几周/月的东西”，也沮丧于技能壁垒被压平。但他给出的建议很朴素：别等“都懂了”再开始，继续做东西，只是更快了；同时一定盯紧安全与密钥。

原文链接：https://burkeholland.github.io/posts/opus-4-5-change-everything/

#AI编程 #开发者工具 #Claude #软件工程 #生产力

Burke Holland

Opus 4.5 is going to change everything

Three months ago I would have dismissed claims that AI could replace developers. Today, after using Claude Opus 4.5, I believe AI coding agents can absolutely replace developers.

Steel：为 AI Agent 打造的开源云端浏览器基础设施Steel 是一个开源的浏览器 API，用来在云端按需启动并控制“浏览器集群”，让 AI Agent、自动化脚本把能力真正带到网页上运行

Thu, 01 Jan 2026 07:43:43 GMT

Steel：为 AI Agent 打造的开源云端浏览器基础设施

Steel 是一个开源的浏览器 API，用来在云端按需启动并控制“浏览器集群”，让 AI Agent、自动化脚本把能力真正带到网页上运行。

它适合做什么？

• 大规模网页抓取与数据采集（也支持更稳定的反爬配置）
• 自主 Web Agent（下单、订票、填写表单等真实操作流程）
• 模型训练数据采集、AI 购物助手、RPA/销售自动化、QA 测试、客服自动化

核心能力概览

• Sessions API：一行调用启动浏览器会话
• 自动 CAPTCHA 处理：减少流程中断
• 代理与指纹控制：降低被识别为机器人的概率
• 快速启动：平均会话启动时间低于 1 秒（同区域更快）
• 长会话：单个会话最长可跑 24 小时
• 上下文复用：保存/注入 Cookies 与本地存储，续跑更顺畅
• 低改动迁移：Puppeteer/Playwright/Selenium 通过少量改动即可上云
• 可观测性：提供会话查看器，支持实时/录制回放调试
• 安全登录：帮助自动化访问需要登录的站点

价格与开源

• 提供免费档起步（按浏览器小时/代理带宽/CAPTCHA 计量），也有从个人到企业的多档套餐
• 项目开源，可本地运行或用 Docker 自托管（官方 GitHub 仓库提供）

原链接：https://steel.dev/
#浏览器自动化 #AI代理 #Web抓取 #开源工具 #云基础设施

steel.dev

Steel | Open-source Headless Browser API

Steel is an open-source browser API purpose-built for AI agents.

MiniMax M2.1 发布：面向真实复杂任务的多语言编程升级MiniMax 发布新一代文本模型 MiniMax M2.1，目标从“可用、低成本”进一步走向“能解决真实世界的复杂任务”，重点补齐多语言工程协作与办公场景执行力

Tue, 23 Dec 2025 13:52:08 GMT

MiniMax M2.1 发布：面向真实复杂任务的多语言编程升级

MiniMax 发布新一代文本模型 MiniMax M2.1，目标从“可用、低成本”进一步走向“能解决真实世界的复杂任务”，重点补齐多语言工程协作与办公场景执行力。

这次重点提升了什么？

• 多语言编程能力系统增强：覆盖 Rust / Java / Go / C++ / Kotlin / Objective‑C / TypeScript / JavaScript 等，更贴近真实项目的多语言栈协作。
• Web & App 开发更强、更好看：强化原生 Android / iOS 开发，同时提升设计理解与审美表达，支持复杂交互、3D 场景模拟与高质量可视化。
• 更适合办公场景的“复合指令”执行：在多约束条件下做端到端任务推进，更强调“按要求完成”而不是只写对代码。
• 更简洁、更高效的输出：相较 M2，响应更精炼、速度更快、token 消耗更低，适配持续式 AI Coding / Agent 工作流。
• 更强的 Agent / 工具泛化：官方称在多种编码工具与 Agent 框架中表现稳定，并兼容常见的上下文管理约定。
• 对话与写作质量同步提升：不仅是“更会写代码”，也更擅长技术文档与日常写作的结构化表达。

基准与展示

• 在多项软件工程评测上相对 M2 有明显提升，并强调多语言场景竞争力；同时引入 VIBE（含 Web/Simulation/Android/iOS/Backend）评测体系，用更接近真实运行环境的方式验证“能跑、能交付”。

如何使用

• API：已上线 MiniMax Open Platform
• 产品：基于 M2.1 的 MiniMax Agent 已开放
• 开源：模型权重提供本地部署，推荐 SGLang / vLLM 等推理框架

原文链接：https://www.minimax.io/news/minimax-m21

#MiniMax #开源大模型 #AI编程 #多语言开发 #Agent工作流

MiniMax

MiniMax M2.1: Significantly Enhanced Multi-Language Programming, Built for Real-World Complex Tasks

Bloom：自动化生成“行为评估”的开源框架前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）

Sun, 21 Dec 2025 00:57:48 GMT

Bloom：自动化生成“行为评估”的开源框架

前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）。Anthropic 发布了 Bloom：一个开源的“代理式”评估生成框架，用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。

Bloom 的核心思路是：研究者只需定义要测的行为（并可提供少量示例与配置），Bloom 就能自动生成大量情境并运行对话，最后给出该行为在不同模型上的出现频率与严重程度。官方结果显示，Bloom 的评分与人工标注有较强一致性，也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。

Bloom 怎么做评估（四阶段流水线）

• 理解（Understanding）：分析研究者的行为描述与示例，明确“要测什么、为什么测”。
• 构思（Ideation）：自动生成一批用于诱发目标行为的评估场景（含系统提示、用户设定、环境等）。
• 执行（Rollout）：并行跑场景，对话中还会模拟用户与工具响应，以更真实地触发目标行为。
• 判定（Judgment）：评审模型为每段对话打分，并输出套件级总结指标（如诱发率、平均行为强度）。

与固定题库不同，Bloom 每次运行可生成不同场景，但通过“seed 配置”保持可复现；研究者还能调节模型选择、对话长度、是否使用工具、场景多样性，以及增加如“真实感”“诱发难度”等副指标。

已发布的基准与一个案例

Anthropic 同时发布了对 16 个模型的基准结果，覆盖四类对齐相关行为：

• 迎合性妄想（delusional sycophancy）
• 受指令驱动的长程破坏（instructed long-horizon sabotage）
• 自我保存（self-preservation）
• 自我偏好偏差（self-preferential bias）

在“自我偏好偏差”案例中，Bloom 复现了系统卡里的模型排序，并进一步发现：在某些模型上，提高推理强度会降低偏差（更多体现为识别利益冲突后拒绝自评）。

开源地址与技术细节见原文与报告：
https://www.anthropic.com/research/bloom

#AI安全 #对齐研究 #模型评估 #开源工具 #大模型

Anthropic

Introducing Bloom: an open source tool for automated behavioral evaluations

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

用 OpenRouter 接入 Claude Code：更稳、更可控的开发体验在 Claude Code 里把请求走 OpenRouter，本质上是给 Anthropic API 加一层“可靠性与管理”中间层

Sat, 20 Dec 2025 13:52:09 GMT

用 OpenRouter 接入 Claude Code：更稳、更可控的开发体验

在 Claude Code 里把请求走 OpenRouter，本质上是给 Anthropic API 加一层“可靠性与管理”中间层。需要注意：官方只保证与 Anthropic 第一方（1P）提供商完全兼容；为了最佳兼容性，建议将 Anthropic 1P 设为最高优先级。

为什么要这样接入？

• 自动故障切换（高可用）：遇到 Anthropic API 宕机或限流时，OpenRouter 可在多个 Anthropic 提供商间自动切换，减少编码被打断的概率。
• 团队预算管理：集中设置额度、分配成员用量、避免成本失控。
• 用量可视化：在 OpenRouter 的 Activity Dashboard 里实时查看消耗、项目/成员用量等。

快速上手（核心步骤）

1）安装 Claude Code

• macOS / Linux / WSL：
• curl -fsSL https://claude.ai/install.sh | bash
• Windows PowerShell：
• irm https://claude.ai/install.ps1 | iex

2）把 Claude Code 指到 OpenRouter

关键点只有三个：

1. Base URL 用：https://openrouter.ai/api
2. Auth token 用你的 OpenRouter API Key
3. 必须把 ANTHROPIC_API_KEY 显式设为空字符串（避免与默认 Anthropic 登录冲突）

把下面环境变量写进你的 shell 配置（例如 ~/.zshrc / ~/.bashrc）：

• export OPENROUTER_API_KEY="<your-openrouter-api-key>"
• export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
• export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
• export ANTHROPIC_API_KEY=""

补充提醒：

• 不要放在项目级 .env 里：Claude Code 原生安装器不会读常见 .env。
• 若之前用 Anthropic 账号登录过 Claude Code，先在会话里执行 /logout 清掉缓存凭据。

3）启动并验证

• 进入项目目录运行：claude
• 在 Claude Code 内用 /status 查看是否生效，应该能看到：
• Auth token: ANTHROPIC_AUTH_TOKEN
• Anthropic base URL: https://openrouter.ai/api
• 也可去 OpenRouter Activity Dashboard 看请求是否实时出现。

进阶：Agent SDK 与 GitHub Action

• Anthropic Agent SDK（Python / TypeScript）：由于它以 Claude Code 为运行时，同样使用上述环境变量即可接入 OpenRouter。
• Claude Code GitHub Action：在 action step 里
• anthropic_api_key 传入 secrets.OPENROUTER_API_KEY
• 环境变量加 ANTHROPIC_BASE_URL: https://openrouter.ai/api

成本跟踪 Statusline（可选）

可以给 Claude Code 加自定义 statusline，实时显示 provider、模型、累计成本、缓存折扣等信息；脚本来自 openrouter-examples 仓库，并通过 ~/.claude/settings.json 配置 statusLine.command 启用。

常见排错

• 认证报错：确认 ANTHROPIC_API_KEY 是 ""（空字符串），而不是未设置；否则 Claude Code 可能回退到默认 Anthropic 认证流程。
• 上下文长度错误：拆分任务或新开会话。
• 隐私：OpenRouter 默认不记录你的源码 prompts，除非你在账号设置里明确选择开启日志。

原链接：https://openrouter.ai/docs/guides/guides/claude-code-integration

#ClaudeCode #OpenRouter #Anthropic #开发工具 #成本管理

小米发布 MiMo-V2-Flash：高效推理模型开源小米于 2025 年 12 月 16 日发布并开源了 MiMo-V2-Flash，这是一款高效、超快的基础语言模型，在推理、编码和智能体场景表现尤为出色，同时也可作为日常任务的通用助手

Wed, 17 Dec 2025 02:16:20 GMT

小米发布 MiMo-V2-Flash：高效推理模型开源

小米于 2025 年 12 月 16 日发布并开源了 MiMo-V2-Flash，这是一款高效、超快的基础语言模型，在推理、编码和智能体场景表现尤为出色，同时也可作为日常任务的通用助手。

核心亮点

模型架构：采用混合专家（MoE）架构，总参数 309B，激活参数仅 15B，结合滑动窗口与全注意力的混合注意力机制，支持 256K 超长上下文。

性能表现：
• AIME 2025、GPQA-Diamond 等推理测试中位列开源模型前二
• SWE-bench Verified 达 73.4%，SWE-bench Multilingual 达 71.7%，软件工程能力领先所有开源模型
• 推理速度达 150 tokens/秒，成本仅 $0.1/百万输入 token

技术创新：
• 多 Token 预测（MTP）：通过自推测解码实现 2.0-2.6 倍加速
• MOPD 训练范式：多教师在线策略蒸馏，训练效率提升 50 倍以上

开源资源：模型权重以 MIT 协议开放于 Hugging Face，推理代码已贡献至 SGLang，技术报告同步发布。

原文链接

#小米 #MiMo #开源模型 #大语言模型 #AI推理

Android Use：让 AI 代理能控制原生 Android 应用的开源库📱 这是一款专为移动设备设计的 AI 代理工具，解决了一个核心问题：笔记本电脑无法在卡车驾驶室、送货途中等场景使用

Fri, 12 Dec 2025 16:03:19 GMT

Android Use：让 AI 代理能控制原生 Android 应用的开源库

📱 这是一款专为移动设备设计的 AI 代理工具，解决了一个核心问题：笔记本电脑无法在卡车驾驶室、送货途中等场景使用。

核心亮点：

• 利用 Android 无障碍 API 获取结构化 UI 数据，无需昂贵的视觉模型
• 相比 Anthropic Computer Use，成本降低 95%（每次操作 $0.01 vs $0.15）
• 延迟低于 1 秒，准确率超 99%
• 核心代码不到 200 行，简洁可扩展

应用场景：

🚛 物流：卡车司机在驾驶室内提交发票
🚗 零工经济：Uber/DoorDash 司机多应用切换
📦 快递：自动扫描包裹并标记送达
🏦 移动银行：自动化对账和交易处理

工作原理：

1. 感知 - 通过 ADB 获取无障碍树（XML）
2. 推理 - GPT-4 分析屏幕状态并决策
3. 执行 - 通过 ADB 命令操作设备

项目发布 24 小时内在 X 上获得 70 万+ 浏览，已有多家物流公司启动试点。

🔗 GitHub 项目地址

#Android #AI代理 #自动化 #物流科技 #开源

GitHub

GitHub - Action-State-Labs/android-action-kernel

Contribute to Action-State-Labs/android-action-kernel development by creating an account on GitHub.

Linux Foundation 宣布成立 Agentic AI 基金会 (AAIF)Linux Foundation 正式宣布成立 Agentic AI Foundation (AAIF)，由 Anthropic、Block 和 OpenAI 联合发起，旨在为智能体 AI 的发展提供开放、透明、协作的治理平台

Tue, 09 Dec 2025 23:56:44 GMT

Linux Foundation 宣布成立 Agentic AI 基金会 (AAIF)

Linux Foundation 正式宣布成立 Agentic AI Foundation (AAIF)，由 Anthropic、Block 和 OpenAI 联合发起，旨在为智能体 AI 的发展提供开放、透明、协作的治理平台。

核心项目贡献：

• MCP (Model Context Protocol) — Anthropic 贡献，已成为连接 AI 模型与工具、数据和应用的通用标准协议，发布一年内已有超过 10,000 个 MCP 服务器，被 Claude、Cursor、ChatGPT、Gemini、VS Code 等主流平台采用

• goose — Block 贡献，开源本地优先的 AI 智能体框架，结合语言模型、可扩展工具和 MCP 集成

• AGENTS.md — OpenAI 贡献，为 AI 编码智能体提供项目级指导的通用标准，已被超过 60,000 个开源项目采用

重量级成员阵容：

白金会员包括 AWS、Anthropic、Block、Bloomberg、Cloudflare、Google、Microsoft 和 OpenAI；黄金会员包括 IBM、JetBrains、Oracle、Salesforce、SAP 等；白银会员包括 Hugging Face、Uber、Zapier 等知名公司。

Linux Foundation 执行董事 Jim Zemlin 表示："AI 正从对话系统转向可协作的自主智能体，这是 AI 发展的新阶段。将这些项目纳入 AAIF 确保它们在开放治理下持续发展。"

下一届 MCP Dev Summit 将于 2026 年 4 月 2-3 日在纽约举行。

🔗 原文链接

#AgenticAI #MCP #LinuxFoundation #开源 #AI基金会

AI 现状：来自 100 万亿 Token 的实证研究a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况

Fri, 05 Dec 2025 11:51:22 GMT

AI 现状：来自 100 万亿 Token 的实证研究

a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况。这项研究为我们提供了关于模型生态、用户行为和未来趋势的深刻洞见。

以下是几个核心发现：

开源模型的崛起
开源模型已占据约三分之一的市场份额，其中来自中国的模型增长尤为迅猛。在开源领域，创意角色扮演和编程辅助是两大主要应用场景。

智能体推理成为新常态
LLM 的使用正从简单的单轮问答转向集成了工具调用、具备多步规划能力的“智能体推理”。更长的上下文输入和对推理模型的偏爱都证明了这一趋势。

编程与角色扮演：两大支柱
在所有模型中，“编程”是增长最快的专业应用，而“角色扮演”则是一个体量惊人的消费级应用，其使用量几乎与专业任务相当。

“灰姑娘的水晶鞋”效应
研究发现，当一个新模型率先完美解决了某个特定高价值问题时，其早期用户会表现出极高的忠诚度和留存率，形成稳固的“基础用户群”。

价值驱动，而非价格
LLM 市场尚未商品化，需求对价格相对不敏感。用户愿意为高可靠性的闭源模型支付溢价以完成关键任务，而开源模型则在成本敏感的高容量场景中占据优势。

AI 使用的全球化
AI 的使用日益全球化，北美地区支出已低于总额的一半，亚洲市场份额则翻倍增长至近三分之一，显示出强劲的消费和创新能力。

报告揭示了一个多元、动态且竞争激烈的 LLM 生态系统。实际的用户行为往往超出传统认知，从智能体的兴起到角色扮演的流行，都预示着 AI 应用的未来充满了更多可能性。

原文链接

#AI趋势 #大语言模型 #数据分析 #开源模型 #智能体

OpenRouter

State of AI 2025: 100T Token LLM Usage Study | OpenRouter

Read OpenRouter's 2025 State of AI report — an empirical 100 trillion token study of real LLM usage, model trends, and developer insights.