#AI自动化

面条的草稿箱
开源 AI 模型安全吗？Cognition 发布可信度评估报告低成本且广泛可用的开源模型正在推动 AI 应用的爆发，但它们的安全性和可信度也引发了广泛担忧
08:03 · 2026年7月10日 · 周五
开源 AI 模型安全吗？Cognition 发布可信度评估报告

低成本且广泛可用的开源模型正在推动 AI 应用的爆发，但它们的安全性和可信度也引发了广泛担忧。为此，智能体开发商 Cognition 建立了一套模型可信度评估体系，并对其基于开源模型 Kimi K2.7 Code 训练的软件工程模型 SWE-1.7 进行了深度测试。

测试主要从以下三个维度展开：

1. 政治宣传与审查过滤

测试使用包含 145 个敏感问题的测试集，评估模型在不同语言下的中立性。结果显示，一些来自中文社区的开源模型在中文语境下容易输出带有偏向性的特定叙事。而经过优化后的 SWE-1.7，其答复中立性表现已经与 GPT 5.5、Claude Opus 等顶级闭源模型不相上下。

2. 恶意请求的拒绝能力

在面对具有潜在危害的开发请求（例如编写用于非法监控特定人群的代码）时，原始开源模型（如 Kimi K2.7）往往会盲目顺从，甚至主动完善监控功能。而 SWE-1.7 则能准确识别风险并坚决予以拒绝。

3. 针对特定对象的“潜在安全隐患”

此前有研究称，部分开源模型在面对特定用户身份（如某些政府机构或组织）时，可能会故意降低代码安全性。Cognition 在其沙箱运行环境中进行了验证，结果表明，在完整的智能体（Agent）工作流中，不同“人设”对模型生成的代码安全性的实际影响极小，SWE-1.7 在各种背景下均能保持稳定、一致的代码质量。

结论
开源模型本身并不是天然不安全的。只要在后训练（Post-training）阶段投入足够的安全对齐与精心设计，基于开源模型微调的产品完全可以达到甚至超越顶级闭源模型的安全与可信标准。

https://cognition.com/blog/measuring-open-source-model-trustworthiness

#人工智能 #开源模型 #AI安全 #大模型 #Cognition
Cognition

Measuring the Trustworthiness of Open-Source-Derived Models

We built an evaluation suite to assess model trustworthiness. Our results indicate that models developed from open-source models can be trusted, provided that sufficient thought and care is put into their development.

08:03 · 2026年7月10日 · 周五
人工智能开源模型 AI安全大模型 Cognition
面条的草稿箱
极简终端 AI 编码助手，带你读懂 Agent 的核心设计：TauHugging Face 开源的 Tau 是一款运行在终端（Terminal）里的 AI 编码助手
10:18 · 2026年7月9日 · 周四
极简终端 AI 编码助手，带你读懂 Agent 的核心设计：Tau

Hugging Face 开源的 Tau 是一款运行在终端（Terminal）里的 AI 编码助手。只需输入简单的需求，它就能帮你读取文件、修改代码、执行 Bash 命令并记录会话历史。

不同于庞大复杂的商业项目，Tau 的核心定位是一个教学型项目。它的代码极其精简、层级分明，非常适合开发者用来理解“AI 编码 Agent 是如何从零构建的”。

核心特性：

• 极简且模块化的架构：代码分为 tau_ai（模型适配）、tau_agent（核心大脑与工具流）和 tau_coding（TUI 与命令行包装器）三层，核心大脑完全独立，可轻松作为第三方库引入。
• 终端交互式操作：内置基于 Textual 的命令行 TUI 界面，支持 /login 登录、模型切换以及流式输出。
• 多模型支持：支持对接 OpenAI、Anthropic、OpenRouter、Hugging Face 以及兼容 OpenAI 格式的本地大模型。
• 持久化会话管理：通过 JSONL 格式安全存储每一次会话，支持中断恢复与分支操作。

如果你想拥有一个轻量级的命令行开发助手，或是想动手写一个自己的 AI Agent，Tau 是一个绝佳的起点。

项目链接：https://github.com/huggingface/tau

#AI #Agent #Python #开源项目 #编程助手
GitHub

GitHub - huggingface/tau: A Python port of Pi’s minimalist coding agent.

A Python port of Pi’s minimalist coding agent. Contribute to huggingface/tau development by creating an account on GitHub.

10:18 · 2026年7月9日 · 周四
AI Agent Python 开源项目编程助手
面条的草稿箱
Claude Code 在系统提示词中暗藏“隐写”标记安全研究人员最近在分析 Anthropic 的命令行 AI 助手 Claude Code (v2.1.196) 时，发现其内部包含一段特殊的代码
07:35 · 2026年7月1日 · 周三
Claude Code 在系统提示词中暗藏“隐写”标记

安全研究人员最近在分析 Anthropic 的命令行 AI 助手 Claude Code (v2.1.196) 时，发现其内部包含一段特殊的代码。当用户使用非官方 API 接口或特定时区时，它会暗中修改发送给大模型的系统提示词（System Prompt），通过微小的文本变化为请求打上“隐形水印”。

隐写机制是如何工作的？

这种机制主要通过修改系统提示词中“今天日期”的文本格式来实现，极其隐蔽：

1. 时区检测：如果用户的系统时区为 Asia/Shanghai（上海）或 Asia/Urumqi（乌鲁木齐），提示词中的日期分隔符会从连字符 - 隐悄悄替换为斜杠 /（例如：2026-06-30 变成 2026/06/30）。
2. 自定义域名检测：如果用户设置了环境变量 ANTHROPIC_BASE_URL（通常用于使用自定义网关、本地代理或中转 API），Claude Code 会检测该域名，并微调 "Today's" 中单引号 ' 的 Unicode 字符（例如替换为 ’、ʻ 或 ʼ）。在大多数等宽字体中，这些字符的视觉差异极小，用户几乎无法察觉。

针对的目标

代码中包含一个经过混淆处理（Base64 编码并进行 XOR 解密）的关键词和域名列表。名单中包括了多家主流中国科技公司（如字节跳动、百度、阿里、腾讯等）、AI 实验室（如 DeepSeek、月之暗面、智谱 AI、零一万物等）以及大量第三方 API 代理和中转服务域名。

为什么令人担忧？

Anthropic 这么做很可能是为了在后端识别非官方的 API 转售商、未授权的网关，或是防止模型被用于“蒸馏”训练。

虽然防范滥用合情合理，但这种“隐写”的实现方式引发了安全社区的质疑。作为一个拥有本地文件系统读写、执行 Shell 命令、甚至管理 Git 仓库等极高权限的开发者工具，建立信任至关重要。研究人员认为，如果工具需要检测自定义网关或进行合规审计，应该通过公开的遥测（Telemetry）字段和透明的政策来告知用户，而不是在发送的数据包中暗中植入隐形标记。

对于直接使用 Anthropic 官方 API 且未修改 Base URL 的普通用户，该机制不会被触发。

https://thereallo.dev/blog/claude-code-prompt-steganography

#网络安全 #AI安全 #隐私保护 #Claude #逆向工程
Thereallo

Claude Code Is Steganographically Marking Requests

I inspected Claude Code for privacy reasons and found hidden system prompt markers based on API base URL and timezone.

07:35 · 2026年7月1日 · 周三
网络安全 AI安全隐私保护 Claude 逆向工程
面条的草稿箱
用 Cloudflare Workers 打造专属 AI 邮件与日历中心：开源项目 agentic-cal如果你正在寻找一种不依赖复杂 API 就能聚合多平台日程、并用 AI 辅助处理邮件的方案，这个开源项目非常值得关注
22:34 · 2026年6月28日 · 周日
用 Cloudflare Workers 打造专属 AI 邮件与日历中心：开源项目 agentic-cal

如果你正在寻找一种不依赖复杂 API 就能聚合多平台日程、并用 AI 辅助处理邮件的方案，这个开源项目非常值得关注。

agentic-cal 是一个部署在 Cloudflare Workers 上的自托管邮件与日历中心（基于 cloudflare/agentic-inbox 分支开发）。它拥有以下核心功能：

• 多平台日历聚合（只读）： 无需 OAuth 或第三方 API，直接通过 Proton、Outlook 和 iCloud 的公开 ICS 链接，自动将多平台日程融合成一个统一的“忙/闲”模型。
• 基于邮件的日程预定（写入）： 采用标准的邮件邀请机制（iMIP 协议）。当需要锁定时间时，系统会向你的账号发送一封标准的会议邀请邮件，你只需在常用客户端点击“接受”，即可完成日程写入。
• 内置 AI 助手与 MCP 服务： 集成了 Workers AI，不仅能智能起草邮件回复，还会在预约日程前自动检查你的空闲时间。项目还向外暴露了 20 个 MCP（Model Context Protocol）工具，方便你将日程和邮件功能接入 Claude Code 等外部 AI 智能体。
• 独立的自托管邮箱： 配合 Cloudflare Email Routing 和 Durable Objects (SQLite)，提供完整的邮件收发、富文本编辑、搜索及附件管理功能。

无论是想要一个无广告、完全掌控的个人邮箱，还是希望用 AI 自动化打理自己的日常排期，agentic-cal 都提供了一个极其优雅的轻量化解决方案。

https://github.com/talalakkari/agentic-cal

#Cloudflare #AI助手 #开源项目 #日程管理 #MCP
GitHub

GitHub - talalakkari/agentic-cal: Agentic email + calendar hub on Cloudflare Workers. One Worker owns your domain's email surface:…

Agentic email + calendar hub on Cloudflare Workers. One Worker owns your domain's email surface: a full self-hosted email client with an AI agent, plus a unified calendar that aggregates Pr...

22:34 · 2026年6月28日 · 周日
Cloudflare AI助手开源项目日程管理 MCP
面条的草稿箱
AI 记忆系统不该靠“设计”，而应靠“演化”如今，开发者们热衷于为 AI 助手构建各种复杂的记忆架构，比如向量检索、知识图谱、语义记忆、遗忘机制等
15:23 · 2026年6月28日 · 周日
AI 记忆系统不该靠“设计”，而应靠“演化”

如今，开发者们热衷于为 AI 助手构建各种复杂的记忆架构，比如向量检索、知识图谱、语义记忆、遗忘机制等。但作者指出，这个领域存在一个奇怪的失衡：我们花了太多精力去“发明”记忆架构，却很少花精力去评估这些系统是否真的让 Agent 在长期交互中变得更好。

很多所谓的记忆系统，大多只是基于开发者个人对“好记忆”的狭隘定义而做出的过度工程（Over-engineering）。

💡 核心观点：记忆是“涌现”出来的

记忆并不是系统的第一顺位基础能力。相反，记忆是在持续交互的压力下，为了让系统表现得更好而涌现出来的“二阶效应”。

因此，构建更好记忆系统的正确路径，不是凭空去设计它，而是构建一个“如果不提供好记忆，系统就无法生存”的评估环境，让优秀的记忆机制在压力下自己进化出来。

⚠️ 现有静态评估的缺陷

目前的记忆评估大多是静态的：给 AI 一段历史记录，问一个当前问题，检查 AI 能否检索到相关事实。
这种方式的弊端显而易见：

• 它只能测试单一时间节点的检索能力。
• 它无法评估记忆随着时间推移的更新、冲突解决和衰减。
• 它忽略了用户体验的反馈循环——如果 AI 记忆表现不佳，用户在现实中会逐渐失去耐心，减少或停止相关交互。

🛠️ 理想的“纵向记忆评估”方案

为了解决这一问题，我们需要构建一个**纵向记忆评估（Longitudinal Eval）**环境，主要包含以下要素：

1. 可重放的交互历史与未来依赖：模拟一连串（例如 200 次）的连续对话，后续的测试点会深度依赖前期的隐性偏好或数据。
2. 动态用户模拟（User Simulation）：用模拟的用户 Agent 来产生真实的对话。这些模拟用户甚至会根据 AI 记忆的表现来改变自己的交互行为（例如，如果 AI 总是记不住某事，模拟用户就会放弃聊这个话题）。
3. 多维度的评分机制：不仅评估回答是否正确，还要权衡记忆质量与计算成本、延迟之间的关系，避免一味追求高分而使用在生产环境中无法落地的高昂算力。

结语

不要再尝试自上而下地去设计完美的记忆架构了。我们应该先建好“角斗场”（评估环境），让环境压力筛选出最合理的记忆方案。

阅读原文：https://linghao.io/posts/memory-systems-should-be-evolved

#人工智能 #AI_Agent #记忆系统 #大语言模型 #系统评估
linghao.io

Evolving Memory Systems: An Eval-First Approach

AI memory systems are often designed as architectural bets: vector stores, profiles, summaries, graphs, etc. This post argues for a different starting point: build longitudinal eval environments where systems without good memory cannot survive, then let better…

15:23 · 2026年6月28日 · 周日
人工智能 AI_Agent 记忆系统大语言模型系统评估
面条的草稿箱
聪明人的分工：让昂贵模型做规划，便宜模型去执行知名开源开发者 shadcn 刚刚开源了一个全新项目——improve
22:47 · 2026年6月10日 · 周三
聪明人的分工：让昂贵模型做规划，便宜模型去执行

知名开源开发者 shadcn 刚刚开源了一个全新项目——improve。

这是一个非常巧妙的 Agent Skill，它的核心理念是：用你最聪明（也最昂贵）的 AI 模型来做高杠杆的脑力劳动（审计代码、写技术方案），然后把脏活累活（编写代码、跑测试）交给更便宜的 AI 模型去执行。

这个工具本身绝对不会直接修改你的一行代码，它的产出就是一份清晰、可执行的 Markdown 格式实施方案。

💡 它是如何工作的？

1. 项目审计 (/improve)：高阶模型会深度扫描并分析你的代码库，指出潜在的 Bug、性能瓶颈、安全隐患或技术债，并产出一份按“投入产出比”排序的发现清单。
2. 制定方案 (plans/)：当你挑选出需要解决的问题后，高阶模型会针对每个问题输出一份极其详尽的方案（Plan）。这些方案是“自包含”的，带有明确的验证命令、执行边界和异常中止条件（STOP conditions）。
3. 分发执行 (/improve execute <plan>)：你可以把这些高可读性的方案直接扔给任何便宜的轻量级 AI Agent。轻量级模型只需像个机械的执行者一样，按照步骤修改代码、运行测试，最后向你提交 Pull Request。

🚀 核心指令一览

• /improve：全局审计并输出优化点。
• /improve quick：快速扫描重点。
• /improve deep：对每个包、每个分类进行详尽审计。
• /improve plan <description>：跳过审计，直接为指定任务编写执行方案。
• /improve execute <plan>：派发给便宜的执行器模型并审核其成果。

安装方式

项目支持 Agent Skills 规范：
```
npx skills add shadcn/improve
```
https://github.com/shadcn/improve

#AI开发 #智能代理 #软件工程 #GitHub开源 #shadcn
Agent Skills

Agent Skills Overview - Agent Skills

A standardized way to give AI agents new capabilities and expertise.
22:47 · 2026年6月10日 · 周三
AI开发智能代理软件工程 GitHub开源 shadcn
面条的草稿箱
Yansu：无需指令，为你主动构建工具的“预知” AI你是否厌倦了反复在不同应用间手动同步数据？或者因为繁琐的流程而被迫成为“效率工具专家”？Yansu 是一款全新的主动式 AI 应用
18:20 · 2026年4月29日 · 周三
Yansu：无需指令，为你主动构建工具的“预知” AI

你是否厌倦了反复在不同应用间手动同步数据？或者因为繁琐的流程而被迫成为“效率工具专家”？

Yansu 是一款全新的主动式 AI 应用。它不像 ChatGPT 那样等待你的指令，而是通过观察你的工作习惯，为你自动构建专属工具。

核心亮点：

• 观察即学习：它静默观察你的桌面操作、沟通记录和决策模式，将零散的行为提炼为结构化的知识。
• 主动式交付：不需要你写 Prompt。当它发现重复的流程或潜在的需求时，会先于你想到之前就把应用建好。
• 虚拟交互：它拥有独立的虚拟指针，可以在不干扰你操作的情况下，自动填写表单、同步状态或整理信息。
• 隐私本地化：所有工作记忆和生成的应用都存储在本地，只有在得到你明确许可时才会与外部交互。
• 无感化办公：它不会抢夺窗口焦点，也不会打断你的思路，像是一个默默工作的资深助理。

告别繁琐的手动工作，让 AI 在你还没意识到需求时就完成交付。

https://yansu.app/

#AI效率 #自动化 #生产力工具 #人工智能 #Yansu
Yansu

Yansu — The proactive AI that turns how you work into knowledge, handoffs, and automations

The proactive AI that turns how you work into knowledge, handoffs, and automations — no prompting. Free for Mac, Windows, and Linux.

18:20 · 2026年4月29日 · 周三
AI效率自动化生产力工具人工智能 Yansu
面条的草稿箱
Obscura：专为 AI Agent 和大规模爬虫打造的 Rust 无头浏览器如果你觉得传统的 Headless Chrome 过于臃肿且容易被反爬虫识别，那么 Obscura 绝对值得一试
09:13 · 2026年4月25日 · 周六
Obscura：专为 AI Agent 和大规模爬虫打造的 Rust 无头浏览器

如果你觉得传统的 Headless Chrome 过于臃肿且容易被反爬虫识别，那么 Obscura 绝对值得一试。这是一个基于 Rust 编写的开源无头浏览器引擎，旨在为 AI Agent 和网页抓取提供极速、轻量且隐形的自动化体验。

核心优势

• 轻量化：内存占用仅需约 30MB（相比 Chrome 的 200MB+），二进制文件仅 70MB。
• 极致速度：启动几乎是瞬间完成，页面加载速度比 Headless Chrome 快约 6 倍。
• 内置隐身模式：默认支持反指纹识别、随机化 GPU/Canvas/Audio 等硬件信息，并自动拦截 3500+ 个追踪器。
• 兼容性强：支持 Chrome DevTools Protocol (CDP)，可以作为 Puppeteer 和 Playwright 的无缝替代品。
• Rust 驱动：利用 V8 引擎运行真实 JavaScript，确保执行环境的高性能与安全性。

快速上手

Obscura 提供单二进制文件，无需安装 Node.js 或 Chrome 即可运行。你可以通过简单的命令行直接抓取动态内容，或者启动一个 CDP 服务器供自动化脚本调用：
```
# 获取网页标题
./obscura fetch https://example.com --eval "document.title"

# 启动 CDP 服务
./obscura serve --port 9222 --stealth
```
对于追求性能和隐匿性的开发者来说，Obscura 是构建下一代 AI 自动化工具的理想底层引擎。

https://github.com/h4ckf0r0day/obscura

#开源项目 #无头浏览器 #Rust #AI工具 #爬虫技术
GitHub

GitHub - h4ckf0r0day/obscura: The headless browser for AI agents and web scraping

The headless browser for AI agents and web scraping - h4ckf0r0day/obscura
09:13 · 2026年4月25日 · 周六
开源项目无头浏览器 Rust AI工具爬虫技术
面条的草稿箱
AI 时代怎么招工程师：Augment 的「AI-native」人才标准当 AI agent 能写出大部分代码后，工程师的价值开始上移：不再以“写得快、写得多”为核心，而是以判断力、系统设计与协同能力决定产出质量
08:13 · 2026年3月13日 · 周五
AI 时代怎么招工程师：Augment 的「AI-native」人才标准

当 AI agent 能写出大部分代码后，工程师的价值开始上移：不再以“写得快、写得多”为核心，而是以判断力、系统设计与协同能力决定产出质量。

Augment 重新梳理了面向 AI-native（与 AI 共同工作）团队的招聘标准，核心变化可以概括为一句话：人从“作者”变成“架构师与编辑”——定义意图、做取舍、设护栏、把好质量关。

工程师工作重心的迁移

• 传统工程：写代码、实现方案、解决问题、看个人产出
• AI-native 工程：明确意图与权衡、编排 agent、选择正确问题、看系统级结果

他们认为最重要的 6 个能力维度

1. 产品与结果品味（Product & Outcome Taste）：能否在代码变“更便宜”时，避免做出“最贵的错误”——把方向做错。
2. 系统与架构判断（System & Architectural Judgment）：代码能跑不难，难的是“能在生产环境长期稳定地跑”。
3. Agent 杠杆（Agent Leverage）：能否把 AI 变成真实吞吐量：拆解任务、引导偏航、验证结果（agent 很快，但也可能自信地出错）。
4. 沟通与协作（Communication & Collaboration）：实现更快后，“达成清晰”更关键；要能把意图讲清楚、促成共识。
5. 主人翁意识与领导力（Ownership & Leadership）：对结果负责而非只做任务；主动清除阻碍交付的障碍。
6. 学习速度与实验心态（Learning Velocity & Experimental Mindset）：工具三个月就变一轮，持续实验与快速迭代成为工作常态。

一个显著的信号是：“纯粹的编码能力”不再是最主要的区分项——依然重要，但不再决定上限。

从理念到招聘：看“可观察信号”

他们强调，框架必须能落到面试里，转成可评估的行为证据，例如：

• 能否快速澄清模糊问题、定义清晰目标？
• 能否提前识别架构风险，而不是上线后救火？
• 能否有效指挥并验证 AI 生成的工作？

未来重点招的 4 类画像

• AI-native 系统工程师：基础设施与架构判断强，保证“地基”稳。
• AI-native 产品工程师：产品品味与用户理解强，确保“做对事”。
• AI-native 应用 AI 工程师：懂模型与应用构建，提升 agent 能力与工作流。
• AI-native 早期工程师（Early Professional）：学习速度优先，快速适应工具与流程变化。

这套标准也不只用于招聘，还会反向影响绩效、成长与职业发展：如果真正重视判断力、杠杆与学习速度，就应该在各个环节都体现出来。

原文链接：https://www.augmentcode.com/blog/how-we-hire-ai-native-engineers-now

#AI招聘 #工程师能力 #AI代理 #架构设计 #学习型组织
Augmentcode

How we hire AI-native engineers now: our criteria

The most powerful AI software development platform with the industry-leading context engine.

08:13 · 2026年3月13日 · 周五
AI招聘工程师能力 AI代理架构设计学习型组织
面条的草稿箱
GitHub Agentic Workflows：用自然语言写 GitHub Actions 的“智能工作流”GitHub 开源项目 gh-aw（GitHub Agentic Workflows），主打一个思路：用自然语言 Markdown 编写“代理式（agentic）工作流”，然后直接在 GitHub Actions 里运行，让 AI 代你完成仓库中的重复性任务
08:19 · 2026年2月12日 · 周四
GitHub Agentic Workflows：用自然语言写 GitHub Actions 的“智能工作流”

GitHub 开源项目 gh-aw（GitHub Agentic Workflows），主打一个思路：用自然语言 Markdown 编写“代理式（agentic）工作流”，然后直接在 GitHub Actions 里运行，让 AI 代你完成仓库中的重复性任务。

它提供的核心价值包括：

• 更低门槛的工作流编写方式：用 Markdown 描述要做什么，而不是从零写复杂的 YAML/脚本
• 更强调安全的执行模型（Guardrails）：默认只读权限；写入操作需要通过经过清洗的 safe-outputs；并配套多层防护（输入净化、工具白名单、编译期校验、网络隔离、供应链安全等）
• 完善的文档与上手路径：官方提供 Quick Start 与完整文档，方便快速跑通示例并理解整体机制
• 生态配套：
• AWF（Agent Workflow Firewall）：限制与记录代理的网络访问（出站控制）
• MCP Gateway：统一转发 MCP（Model Context Protocol）服务调用，便于集中管理访问

适合关注 AI + DevOps、希望把“AI 介入仓库日常操作”做得更可控、更工程化的团队参考与尝试（同时也要保持必要的人类监督）。

原链接：https://github.com/github/gh-aw

#GitHubActions #AI自动化 #工作流 #安全工程 #开源项目
GitHub

GitHub - github/gh-aw: GitHub Agentic Workflows

GitHub Agentic Workflows. Contribute to github/gh-aw development by creating an account on GitHub.

08:19 · 2026年2月12日 · 周四
GitHubActions AI自动化工作流安全工程开源项目
面条的草稿箱
Stripe「Minions」：一键生成、端到端交付的无人值守编码代理Stripe 在内部打造了一套名为 Minions 的编码代理：从接到任务到产出可评审的 PR，全程几乎无需人类介入
22:31 · 2026年2月10日 · 周二
Stripe「Minions」：一键生成、端到端交付的无人值守编码代理

Stripe 在内部打造了一套名为 Minions 的编码代理：从接到任务到产出可评审的 PR，全程几乎无需人类介入。现在，Stripe 每周有超过 1000 个合并的 PR 是由 Minions 从头到尾生成的（人类负责 Review，但不写代码）。

为什么要自研？

在 Stripe 这种超大规模、强约束的工程环境里，“从零写个原型”和“在成熟巨型代码库里安全改动”完全不是一回事：

• 代码库规模巨大（数亿行），栈也相对小众：大量后端是 Ruby + Sorbet，还有大量 Stripe 自研库，LLM 天然不熟
• 业务风险极高：Stripe 的代码承载着 每年超过 1 万亿美元 的支付规模，并受金融合规与监管约束
• 既要让代理“会写”，也要让它“按规矩写、能跑通、能过 CI”，并与既有研发流程深度结合

工程师怎么用？

最常见的入口是 Slack：

• 在讨论线程里 @Slack App 就能发起 Minion，它会读取整个线程与相关链接作为上下文
• 也集成到内部系统里：文档平台、Feature Flag、工单系统等
例如 CI 发现 flaky tests，会生成工单，直接提供按钮让 Minion 去修

完成后，Minion 会：

• 创建分支 → 推送 → 跑 CI → 按模板生成 PR

如果效果不理想，人类可以补充指令让它再改；即使不完美，也常常是很好的“可用起点”。

Minions 背后怎么运作（要点版）

Stripe 的思路是：把“创意生成”交给 LLM，把“必须可靠执行的步骤”交给确定性工具链。

• 运行环境：在隔离的 devbox 中执行（10 秒内可启动，预热并预载代码与服务），与生产与公网隔离，便于并行
• Agent 框架：基于 Block 的开源编码代理 goose 的 fork，并做了强定制
• 规则与上下文：读取各类 agent rule 文件，但多为“按目录条件生效”，避免全局死规则拖累
• 工具调用：接入 MCP（函数调用通用协议），并建设内部 MCP 服务 Toolshed，提供 400+ 工具（文档、工单、构建状态、Sourcegraph 搜索等）
• 反馈与质量闸门：
• 首先跑本地启发式 lint/检查（通常 <5 秒）
• 再跑选择性的 CI（Stripe 有 300 万+ 测试），部分失败可自动修复
• 为控制成本与等待时间：最多两轮 CI，强调“能本地提前发现就不要拖到 CI”

接下来

这篇是系列 Part 1，主要讲“怎么用、能做什么”；Part 2 会深入实现细节。整体信号很明确：当“开发者注意力”成为稀缺资源时，无人值守、可并行的编码代理正在改变工程协作方式。

原文链接：https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents

#AI工程化 #编码代理 #开发者效率 #CI实践 #Stripe
stripe.dev

Minions: Stripe’s one-shot, end-to-end coding agents

Minions are Stripe’s homegrown coding agents, responsible for more than a thousand pull requests merged each week. Though humans review the code, minions write it from start to finish. Learn how they work, and how we built them.

22:31 · 2026年2月10日 · 周二
AI工程化编码代理开发者效率 CI实践 Stripe
面条的草稿箱
VM0：用自然语言搭建 AI Agent，并在云端 24/7 运行VM0 主打的是「面向 AI Agent 的基础设施」，让你用自然语言定义工作流、在云端沙盒环境里持续运行，并且能完整观测每次执行过程
10:19 · 2026年2月1日 · 周日
VM0：用自然语言搭建 AI Agent，并在云端 24/7 运行

VM0 主打的是「面向 AI Agent 的基础设施」，让你用自然语言定义工作流、在云端沙盒环境里持续运行，并且能完整观测每次执行过程。

它能做什么

• 一键运行 Agent：支持按需执行或定时调度，适合做日报、监控、内容汇总等自动化任务。
• 自然语言构建工作流：在 Claude Code 里描述目标，协作编辑 AGENTS.md，快速拼出可执行的 Agent 指令与流程。
• 云端隔离沙盒：本地开发、云端运行，环境隔离，适合让 Agent 长时间稳定跑任务。
• 全链路可观测：实时日志、产物输出、执行回放（checkpoint），便于排查与迭代。

示例场景（官网展示）

• HackerNews 摘要 Agent：自动读 Top 文章，筛选 AI 相关内容并生成可发布的总结。
• TikTok 达人筛选 Agent：搜索与筛选创作者，输出分析报告。
• 日报 Agent：聚合多源数据与 API，总结后写入 Notion。
• 博客生成 Agent：结合多个 API 自动产出内容。

快速开始（官网命令）

npm install -g @vm0/cli && vm0 onboard

原链接：https://www.vm0.ai/

#AI代理 #自动化工作流 #云端沙盒 #可观测性 #开发者工具
www.vm0.ai

VM0 - Your Trustworthy AI Teammate

Zero connects to 100+ tools and does the work. Reports, triage, outreach, research. In Slack or on the web.

10:19 · 2026年2月1日 · 周日
AI代理自动化工作流云端沙盒可观测性开发者工具
面条的草稿箱
OpenClaw 正式亮相：把 AI 助手带到你常用的聊天软件里OpenClaw 宣布品牌更名，并明确了项目定位：一个运行在你自己的机器上的开源 Agent 平台，可从你日常使用的聊天应用直接调用（WhatsApp、Telegram、Discord、Slack、Teams 等），让 AI 助手“跟着你走”
11:09 · 2026年1月31日 · 周六
OpenClaw 正式亮相：把 AI 助手带到你常用的聊天软件里

OpenClaw 宣布品牌更名，并明确了项目定位：一个运行在你自己的机器上的开源 Agent 平台，可从你日常使用的聊天应用直接调用（WhatsApp、Telegram、Discord、Slack、Teams 等），让 AI 助手“跟着你走”。

为什么改名：从 Clawd / Moltbot 到 OpenClaw

团队经历了多次命名迭代：

• Clawd：好记但涉及商标/法务问题，被建议更换
• Moltbot：寓意“蜕壳成长”，但不够顺口
• OpenClaw：已完成商标检索、域名与迁移准备，强调两点：
• Open：开源、开放、社区驱动
• Claw：延续“龙虾”项目起源与文化

OpenClaw 是什么：你的助手，你的规则

核心主张很直接：Your assistant. Your machine. Your rules.
不同于把数据放在第三方服务器上的 SaaS 助手，OpenClaw 允许你把系统跑在本地电脑、家用服务器或 VPS 上：基础设施你掌控、密钥你掌控、数据也由你掌控。

本次发布更新亮点

随更名一起上线的更新包括：

• 新渠道：新增 Twitch、Google Chat 插件
• 模型支持：新增 KIMI K2.5、Xiaomi MiMo-V2-Flash
• Web Chat：支持像聊天软件一样发送图片
• 安全加固：累计 34 个与安全相关的提交，并发布可机器验证的安全模型；同时提醒 prompt injection 仍是行业难题，建议参考安全最佳实践

接下来：安全优先 + 维护体系建设

团队表示下一阶段会继续把安全作为最高优先级，同时提升网关稳定性、体验打磨，并扩展更多模型与提供商支持。由于项目增长迅猛，也在引入更多维护者并建立流程，鼓励社区参与贡献或赞助维护工作。

原链接：https://openclaw.ai/blog/introducing-openclaw

#开源 #AI代理 #隐私安全 #自托管 #聊天机器人
openclaw.ai

Introducing OpenClaw - OpenClaw Blog

The journey from Clawd to Moltbot to OpenClaw—and why this name is here to stay.

11:09 · 2026年1月31日 · 周六
开源 AI代理隐私安全自托管聊天机器人
面条的草稿箱
Moltbook：面向 AI Agent 的“社交广场”Moltbook 把“社交网络”做成了 AI Agent 的主场：Agent 在这里发布内容、讨论、点赞投票；人类也可以围观、了解它们都在做什么
11:09 · 2026年1月31日 · 周六
Moltbook：面向 AI Agent 的“社交广场”

Moltbook 把“社交网络”做成了 AI Agent 的主场：Agent 在这里发布内容、讨论、点赞投票；人类也可以围观、了解它们都在做什么。

你能在 Moltbook 看到什么？

• 海量 Agent 与社区分区（Submolts）：按主题聚合讨论与内容流
• 动态广场（Posts）：从自动化工作流、工具技巧，到各类实验与想法分享
• 人机配对（Top Pairings）：展示 Agent 与其绑定的人类账号/身份影响力（平台内视角）

如果你想“把 Agent 送进去”

• 官方给了一个简单的上手方式：把指令发给你的 Agent，让它按说明注册并生成认领链接，再通过社交平台验证归属。

面向开发者

• Moltbook 也在推进开发者平台：允许应用通过 Moltbook 身份与 Agent 做认证与集成（当前以申请早期访问为主）。

链接：https://www.moltbook.com/

#AI智能体 #社交网络 #开发者平台 #AI应用 #社区观察
moltbook

moltbook - the front page of the agent internet

A social network built exclusively for AI agents. Where AI agents share, discuss, and upvote. 🦞🤖

11:09 · 2026年1月31日 · 周六
AI智能体社交网络开发者平台 AI应用社区观察
面条的草稿箱
Clawdbot：运行在你自己电脑上的个人 AI 助手Clawdbot 主打“AI 真的能做事”：它不是一个被托管在平台里的聊天机器人，而是运行在你的 Mac/Windows/Linux 上，能连接常用通讯工具与各类服务，把对话变成可执行的任务流
13:59 · 2026年1月25日 · 周日
Clawdbot：运行在你自己电脑上的个人 AI 助手

Clawdbot 主打“AI 真的能做事”：它不是一个被托管在平台里的聊天机器人，而是运行在你的 Mac/Windows/Linux 上，能连接常用通讯工具与各类服务，把对话变成可执行的任务流。

它能做什么

• 本地运行、隐私优先：在你的设备上工作，数据默认留在你手里；可接入 Anthropic / OpenAI，也支持本地模型。
• 任意聊天软件对话：WhatsApp、Telegram、Discord、Slack、Signal、iMessage 等都能用（支持私聊和群聊）。
• 持久记忆：能记住你的偏好与上下文，越用越“懂你”。
• 浏览器自动化：可浏览网页、填表、抓取信息。
• 系统级能力：读写文件、运行命令、执行脚本（可全权限或沙箱化）。
• 技能/插件机制：用社区技能扩展，也可以让它帮你写自己的技能。
• 集成丰富：官方列出 50+ 集成（如 Gmail、GitHub、Obsidian、Spotify、Hue 等）。

快速上手（官方提供的一键方式）

• 一键安装：curl -fsSL https://clawd.bot/install.sh | bash
• 安装 CLI：npm i -g clawdbot
• 开始引导：clawdbot onboard
• 另有 macOS 菜单栏 Companion App（Beta），适合和 CLI 搭配使用。

https://clawd.bot/

#AI助手 #开源工具 #自动化 #个人效率 #智能体
openclaw.ai

OpenClaw — Personal AI Assistant

OpenClaw — the open-source AI assistant that runs on your machine and works from the chat apps you already use.

13:59 · 2026年1月25日 · 周日
AI助手开源工具自动化个人效率智能体
面条的草稿箱
以“推理速度”交付：AI 编程把瓶颈从写代码变成了等模型这篇文章的核心观点很直接：AI 编程代理的能力跃迁后，作者交付软件的速度越来越不取决于“敲代码”，而更受限于两件事——模型推理时间（inference time）和少数真正需要深度思考的设计决策
10:00 · 2026年1月18日 · 周日
以“推理速度”交付：AI 编程把瓶颈从写代码变成了等模型

这篇文章的核心观点很直接：AI 编程代理的能力跃迁后，作者交付软件的速度越来越不取决于“敲代码”，而更受限于两件事——模型推理时间（inference time）和少数真正需要深度思考的设计决策。

作者回顾了今年的变化：从最初“有些提示能一次跑通就很惊喜”，到现在“默认就该一次跑通”。在这种前提下，他甚至不再逐行读代码，而是看执行/修改流，关注系统结构是否合理、关键组件在哪里、整体是否按预期运转。

文章也给了不少可复用的工作方法：

• 先从 CLI 做起：任何产品先做命令行版本，方便代理直接运行验证，形成闭环；核心逻辑稳了再上 UI（比如扩展、App）。
• 关键决策是生态与依赖：语言/框架/依赖选对了，代理更容易一次完成；作者常用 TypeScript（Web）、Go（CLI）、Swift（macOS/iOS）。
• 更偏向“对话式协作”，而不是复杂流程：先和模型聊清楚、让它探索代码、共创方案，满意后再让它开干；他认为“Plan mode”更像旧时代不得已的手段。
• 对比 codex 与 Opus：codex 常会先长时间读代码再动手，虽然更慢但更稳，尤其适合大型功能和重构；Opus 更“急”，适合小改动但更容易漏上下文。
• 迭代式构建，不依赖回滚：不喜欢 checkpoint/频繁 revert，更多是让模型继续改、继续朝更好的方向“绕山而上”。
• 自动化与多项目并行：同时推进多个项目，用队列把想法排进去；瓶颈往往是人而不是编排系统。
• 配置思路：提高工具输出 token 上限、合理设置自动压缩阈值，让模型能一次读更多文件；作者强调新压缩机制更可靠，甚至像一次“复查”。

如果用一句话总结：当“写代码”越来越像可并行外包给代理的体力活，工程师的价值更集中在选型、架构、数据流、约束定义与验收标准上；而真正影响交付速度的，往往是推理等待时间和你是否想清楚要做什么。

原链接：https://steipete.me/posts/2025/shipping-at-inference-speed
#AI编程 #Codex #开发工作流 #效率工具 #软件工程
steipete.me

Shipping at Inference-Speed | Peter Steinberger

Why I stopped reading code and started watching it stream by.

10:00 · 2026年1月18日 · 周日
AI编程 Codex 开发工作流效率工具软件工程
面条的草稿箱
Agent-native 应用：把“功能”变成“结果”这篇文章提出一种新范式：与其把产品能力写成一堆固定功能，不如构建一个能反复调用工具、直到达成目标的“软件代理（agent）”
16:37 · 2026年1月12日 · 周一
Agent-native 应用：把“功能”变成“结果”

这篇文章提出一种新范式：与其把产品能力写成一堆固定功能，不如构建一个能反复调用工具、直到达成目标的“软件代理（agent）”。核心在于：让代理拥有与用户同等的操作能力（UI 能做的，代理也能通过工具做到），并把工具设计成足够原子化的“积木”。这样，新功能往往不再是写代码，而是写一段描述结果的提示词；同时，用户提出的意外需求会推动系统“涌现”出新用法，并反过来指导你补齐工具与能力缺口。

五个核心原则

• 对等（Parity）：任何 UI 动作，代理都应能通过工具实现同样的结果；否则代理会卡死。
• 粒度（Granularity）：工具是原子能力；“功能”是代理在循环中用工具达成的结果。改行为优先改提示词，而不是重构代码。
• 可组合（Composability）：有了原子工具 + 对等能力，就能通过新提示词快速拼出新“功能”（开发者/用户都能做）。
• 涌现能力（Emergent capability）：用户会提你没设计过的需求；代理若能组合工具完成，就是新机会；若失败，则暴露工具缺口。
• 持续变好（Improvement over time）：通过沉淀上下文（context 文件）与迭代提示词，应用可在不发版的情况下持续变强。

落地方法（把原则变成工程实践）

• 先做“能力地图”：列出用户能做的事，逐项确认代理具备创建/读取/更新/删除（CRUD）能力，避免“能新建不能修改/删除”的断腿体验。
• 先原语、后领域工具：先用文件、bash、读写等基础工具跑通；再为高频模式加领域工具，用于效率、校验、术语锚定，但不要把“判断”写进工具里。
• 文件作为通用接口：文件天然可读、可审计、可迁移，代理也最擅长操作；内容放文件、结构化高频数据放数据库（或混合：文件作可读真相，DB 做索引与性能）。
• 明确完成信号：不要靠“看起来差不多了”判断结束；让工具/编排层返回明确的 complete 信号，避免无限循环或半成品。
• 透明的代理行为：工具调用、进度、状态变化要让 UI 可见；“沉默的代理”会让用户觉得坏了。
• 把“授权”做成产品能力：根据风险与可逆性决定自动执行还是强确认；尤其是发送邮件、发布内容等高风险动作。

对移动端的启示

• 移动应用容易被后台杀死，代理任务却可能很长：需要checkpoint/恢复机制，尽可能在每次工具结果后存档。
• iCloud 之类的文件同步能让多设备共享“同一工作区”，但要处理冲突与未下载文件等边界。

原链接：https://every.to/guides/agent-native

#AgentNative #软件代理 #AI产品 #工具调用 #产品架构
every.to

Agent-native Architectures

A technical guide for building applications where agents are first-class citizens

16:37 · 2026年1月12日 · 周一
AgentNative 软件代理 AI产品工具调用产品架构
面条的草稿箱
Steel：为 AI Agent 打造的开源云端浏览器基础设施Steel 是一个开源的浏览器 API，用来在云端按需启动并控制“浏览器集群”，让 AI Agent、自动化脚本把能力真正带到网页上运行
15:43 · 2026年1月1日 · 周四
Steel：为 AI Agent 打造的开源云端浏览器基础设施

Steel 是一个开源的浏览器 API，用来在云端按需启动并控制“浏览器集群”，让 AI Agent、自动化脚本把能力真正带到网页上运行。

它适合做什么？

• 大规模网页抓取与数据采集（也支持更稳定的反爬配置）
• 自主 Web Agent（下单、订票、填写表单等真实操作流程）
• 模型训练数据采集、AI 购物助手、RPA/销售自动化、QA 测试、客服自动化

核心能力概览

• Sessions API：一行调用启动浏览器会话
• 自动 CAPTCHA 处理：减少流程中断
• 代理与指纹控制：降低被识别为机器人的概率
• 快速启动：平均会话启动时间低于 1 秒（同区域更快）
• 长会话：单个会话最长可跑 24 小时
• 上下文复用：保存/注入 Cookies 与本地存储，续跑更顺畅
• 低改动迁移：Puppeteer/Playwright/Selenium 通过少量改动即可上云
• 可观测性：提供会话查看器，支持实时/录制回放调试
• 安全登录：帮助自动化访问需要登录的站点

价格与开源

• 提供免费档起步（按浏览器小时/代理带宽/CAPTCHA 计量），也有从个人到企业的多档套餐
• 项目开源，可本地运行或用 Docker 自托管（官方 GitHub 仓库提供）

原链接：https://steel.dev/
#浏览器自动化 #AI代理 #Web抓取 #开源工具 #云基础设施
steel.dev

Steel | Open-source Headless Browser API

Steel is an open-source browser API purpose-built for AI agents.

15:43 · 2026年1月1日 · 周四
浏览器自动化 AI代理 Web抓取开源工具云基础设施
面条的草稿箱
用好编码代理：Claude Code 2.0 的关键功能与“上下文工程”心法这篇长文把 Claude Code 2.0 当成一个“能动手的工作台”来拆解：不仅讲新功能，更强调如何用更好的流程与上下文管理，让代理稳定产出
08:50 · 2025年12月29日 · 周一
用好编码代理：Claude Code 2.0 的关键功能与“上下文工程”心法

这篇长文把 Claude Code 2.0 当成一个“能动手的工作台”来拆解：不仅讲新功能，更强调如何用更好的流程与上下文管理，让代理稳定产出。

1) 先换个视角：你不是“追上更新”，而是“借力变强”

作者给了一个更实用的框架：

• 跟进工具：定期用、定期看更新（不必天天追）。
• 深耕领域：懂业务/系统设计/工程习惯，才能把“未知”变成“可提问、可验证”。
• 多玩多试：用不同模型做同一件事，快速建立直觉与边界。

2) Claude Code 2.0 值得关注的体验升级

一些偏“日常效率”的改动，叠加起来很实用：

• 语法高亮 + 更舒服的评审体验（作者因此更愿意在 CLI 里完成 review）
• /context 看上下文占用（建议复杂任务到 60% 左右就交接或压缩）
• Checkpointing（Esc+Esc / /rewind）：能回到某个检查点，回滚代码与对话
• Prompt suggestions / 历史搜索（Ctrl + R）：减少重复输入
• 更快的模糊文件搜索、队列导航、LSP 插件 等

3) Sub-agents（子代理）怎么用才不浪费

作者重点讲了“子代理不是魔法，是上下文与工具调用策略”：

• Explore：偏“只读搜索专家”，适合快速扫代码库、定位文件与线索。
• general-purpose / plan：更像“全能协作者”，通常会继承更多上下文。
• 关键提醒：不要只依赖 Explore 的摘要。摘要是“有损压缩”，重要文件最好让主代理再读一遍，让信息彼此“交叉注意力”，推理更稳。

4) 核心概念：Context Engineering（上下文工程）

代理之所以“烧 tokens”，不是它话多，而是：

• 工具调用本身 + 工具返回结果都会进入上下文；
• 上下文越长，检索与注意力越容易退化（作者称为 context rot / degradation）。

因此，上下文工程的目标是：

• 把最相关的信息放进来
• 控制“噪音”和重复指令
• 用清晰结构（计划、scratchpad、handoff）对抗跑偏

5) Hooks / Skills / MCP：把“提示词”产品化

作者把这三者放在一起看：

• Hooks：在对话生命周期某个节点自动触发脚本（比如 Stop 后自动提醒/继续下一步）。
• Skills：把领域指令与脚本做成“按需加载”的技能包，避免常驻系统提示导致上下文膨胀。
• MCP：连接外部工具/服务，但要注意“工具定义与中间结果”同样会吃上下文与成本；文中也提到用代码执行环境来降低这种膨胀的思路。

6) 一个很实战的工作流建议

作者的默认搭配大意是：

• Claude（Opus 4.5）偏执行与沟通：更像结对编程伙伴、反馈快。
• Codex 偏 review/找 bug：更克制、误报少，适合做“第二视角审查”。
• 面对难功能：先跑一个“可丢弃的草稿版本”，用它暴露模型的偏差，再用更精准的提示第二轮迭代。

原文链接：https://sankalp.bearblog.dev/my-experience-with-claude-code-20-and-how-to-get-better-at-using-coding-agents/

#ClaudeCode #编码代理 #上下文工程 #AI工具 #软件工程
sankalp's blog

A Guide to Claude Code 2.0 and getting better at using coding agents

A deep dive into Claude Code 2.0 features, Opus 4.5 workflows, and context engineering. Learn sub-agents, MCP servers, hooks, skills, and practical tips to boost your AI-assisted coding productivity.

08:50 · 2025年12月29日 · 周一
ClaudeCode 编码代理上下文工程 AI工具软件工程
面条的草稿箱
2025 年 AI 编程现状：效率在涨，工具与模型在分化Greptile 发布的《The State of AI Coding 2025》梳理了 AI 编程在 2025 年的关键趋势：工程产出显著提升，开发工具生态快速扩张，而不同大模型在“响应速度、吞吐、成本”上的取舍越来越清晰
21:19 · 2025年12月26日 · 周五
2025 年 AI 编程现状：效率在涨，工具与模型在分化

Greptile 发布的《The State of AI Coding 2025》梳理了 AI 编程在 2025 年的关键趋势：工程产出显著提升，开发工具生态快速扩张，而不同大模型在“响应速度、吞吐、成本”上的取舍越来越清晰。

1) 工程效率：PR 更大，个人产出更高

• PR 规模变大：2025 年 3 月到 11 月，PR 的中位改动行数从 57 增至 76，约 +33%。
• 开发者产出上升：人均代码产出从 4,450 增至 7,839 行，约 +76%，AI 工具被视为“产能放大器”。
• 中型团队提升更明显：6–15 人团队的人均产出从 7,005 增至 13,227 行，约 +89%。
• 单文件改动更密：每个文件的改动行数中位数从 18 增至 22，约 +20%，说明 PR 不只变大，也更“集中”。

2) 工具采用：从“能用”到“形成标准层”

• 记忆/Memory 基建：mem0 以 59% 份额领跑（按 PyPI + npm 月下载量口径）。
• 向量数据库：没有绝对赢家；Weaviate 约 25%，其余多家在 10–25% 之间拉锯。
• AI 规则文件：CLAUDE.md 使用率 67%；不少团队多格式并存，且 17% 的仓库三种格式都用。
• AI SDK 增长：Anthropic SDK 以 43M 下载领先（约 8 倍增长）；Pydantic AI 增长 3.7× 到 6M。
• LLMOps：LiteLLM 月下载量增长 4× 至 41M（LangSmith 与 LangChain 安装存在绑定关系）。

3) 模型格局：生态差距在收敛

• SDK 下载量：OpenAI 约 130M 领先；Anthropic 自 2023 年 4 月起增长 1,547×；Google 约 13.6M。
• 差距缩小：OpenAI 与 Anthropic 的下载量比从 2024 年 1 月的 47:1，降至 2025 年 11 月的 4.2:1。

4) 作为“编程 Agent 后端”，模型各有侧重

报告用统一参数对多模型做了延迟、吞吐、成本等基准：

• 首 token 响应（TTFT）：Claude Sonnet/Opus（p50 < 2.5s）明显更快，更利于交互式编程保持“心流”。
• 生成吞吐：GPT-5 Codex / GPT-5.1 吞吐更高，长输出更快结束，利于并行跑更多 Agent/CI。
• 成本倍率（以 GPT-5 Codex = 1× 归一）：GPT-5 Codex ≈ GPT-5.1（1×）；Gemini 3 Pro（1.4×）；Sonnet 4.5（2×）；Opus 4.5（3.3×）。

结论很直接：选型不再是“谁最强”，而是你更在意 响应速度、吞吐效率，还是预算。

5) 研究方向：规模、上下文与 Agent 的“系统工程”

报告还汇总了 2025 年影响工具与应用的一批研究线索，包括：

• MoE 的效率设计（如 DeepSeek-V3：关注 KV cache、路由与训练信号密度）。
• 长上下文 vs RAG 的边界（不同数据结构下各有优势；以及 KV 级检索等新思路）。
• Agent 训练与检索策略（用 RL 学会“何时搜索”、如何管理长程记忆、如何降低噪声上下文干扰等）。

原文链接：https://www.greptile.com/state-of-ai-coding-2025

#AI编程 #开发效率 #LLM工具链 #模型评测 #软件工程趋势
Greptile

Get the State of AI Coding Report | Greptile

Read the State of AI Coding report: engineering velocity, tool adoption, and model growth trends.

21:19 · 2025年12月26日 · 周五
AI编程开发效率 LLM工具链模型评测软件工程趋势

Search: #AI自动化