面条的草稿箱

无原创，纯转发

13:36 · 2026年1月16日 · 周五

Open Responses：让 LLM 接口真正“可互通”的开放规范

Open Responses 是一个开源规范与生态，目标是基于 OpenAI Responses API 的理念，建立多模型提供方可互操作的统一接口层。它通过共享 Schema 和配套工具，让开发者能用同一种请求/输出结构，跨不同提供方调用模型、处理流式返回，并组合更复杂的 Agent 工作流。

为什么需要它？
现在各家 LLM API 的核心组件越来越相似（消息、工具调用、流式、多模态等），但细节编码方式不同，迁移与兼容成本高。Open Responses 希望把“共同部分”沉淀成稳定规范，减少重复适配。

它强调的设计方向：

• 默认多提供方：一套 Schema 映射多家模型/平台
• 更贴近真实 Agent 工作流：统一的流式事件、工具调用模式，以及以“items”作为输出与工具使用的原子单元
• 可扩展但不碎片化：核心稳定，同时允许在必要时容纳提供方特性

如何开始：

• 阅读规范，理解 items、流式事件、工具使用等核心概念
• 查看 OpenAPI 参考，掌握完整类型与接口面
• 用官方的验收测试验证你的 API 实现一致性

原链接：https://www.openresponses.org/

#LLM #开放规范 #多模型 #互操作 #API设计

www.openresponses.org

Open Responses

Open Responses documentation overview.

LLM 开放规范多模型互操作 API设计

14:42 · 2026年1月15日 · 周四

Tool Search Tool：让大规模工具库“按需加载”

当你的系统里有上百甚至上千个工具时，把所有工具定义一次性塞进上下文，会带来两个典型问题：既浪费上下文窗口（50 个工具就可能吃掉 1–2 万 token），也会让模型在 30–50 个工具以上更容易选错工具。Tool Search Tool 的思路是：先只暴露“搜索工具的工具”，其余工具标记为延迟加载；模型需要时先搜索，再把最相关的少量工具定义加载进来使用。

核心机制（7 步）

• 请求里先放入工具搜索工具（Regex 或 BM25 版本）+ 少量常用非延迟工具
• 其余工具定义加上 defer_loading: true（不立即进上下文）
• 模型需要更多工具时，先调用 tool search
• 服务端返回 3–5 个最相关的 tool_reference
• 这些引用会被自动展开成完整工具定义
• 模型再从“已发现”的工具里选择并调用
• 这样既省上下文，又保持工具选择准确率

两种搜索方式怎么选

• Regex 版（tool_search_tool_regex_20251119）：查询是 Python 正则，不是自然语言；适合你希望可控匹配（如 get_.*_data、(?i)slack）。限制：模式最长 200 字符。
• BM25 版（tool_search_tool_bm25_20251119）：查询用自然语言；更适合“我想做什么”式的描述。

两种方式都会搜索：工具名、描述、参数名、参数描述。

延迟加载的最佳实践

• 工具搜索工具本身不要设置 defer_loading: true
• 保留 3–5 个最常用工具为非延迟（提升命中与体验）
• 工具命名与描述尽量贴近用户常用说法（提升可检索性）
• 适合场景：工具 >10 个、工具定义 >10K token、工具选择准确率下降、MCP 多服务器（200+ 工具）等
• 不太适合：工具 <10 个且几乎每次都要用、工具定义非常短

响应与错误处理要点

• 响应里会出现 server_tool_use（触发工具搜索）与 tool_search_tool_result（返回引用列表）
• 常见 400 错误：
• 全部工具都 deferred：至少要有 1 个非延迟工具
• 引用的工具缺少定义：tool_reference 指向的工具必须在顶层 tools 里有对应定义（并通常设为 deferred）
• 工具搜索执行期错误（仍返回 200）：如 invalid_pattern、pattern_too_long、too_many_requests、unavailable

与 MCP、缓存、流式的配合

• 可与 MCP toolset 结合：用 default_config.defer_loading 控制 MCP 工具默认延迟加载，并可对特定工具覆盖
• 支持 prompt caching：已发现的工具可在后续轮次复用，不必每次重新搜索
• 流式返回会把搜索调用与结果作为事件发出，便于前端展示“正在搜索/已找到工具”

原文链接：https://platform.claude.com/docs/en/agents-and-tools/tool-use/tool-search-tool

#工具调用 #Agent开发 #上下文优化 #MCP #API设计

Claude API Docs

Tool search tool

Claude API Documentation

工具调用 Agent开发上下文优化 MCP API设计

22:40 · 2026年1月12日 · 周一

代码变便宜了，但“软件”依旧很贵

AI 工具把“写代码”的门槛打穿了：越来越多人用 CLI/对话式方式，直接描述需求就能生成一个能跑的应用。结果不是 SaaS 的黄金时代，而是“个人软件”的兴起——为某个具体问题快速做一个小工具，用完就丢，像当年的电子表格一样当作临时工作台。

但别误会：代码的成本下降，不代表软件的成本下降。真正昂贵的是把东西做成能长期运行、能承受现实摩擦的系统：维护、边界情况、体验债、数据归属与同步、可靠性与扩展性。周末做出的 CRUD+API Demo 很好看，但银行 CSV 格式一变、网页 DOM 一改、离线与多端同步一上，脆弱性立刻暴露。

当“能写出来”不再稀缺，新的瓶颈转向两件事：

• 分发与注意力：噪音变大，“一下午做出月入五位数”的叙事很多是营销而非可复制路径。
• 判断力与系统能力：工程师的价值更偏向架构与取舍——知道该如何组织系统、何时做限流/缓存、哪些变量不能乱放、哪些复杂度必须正面处理。

谁会在这波变化中受益？有明确领域痛点的专业人士、需要快速解决内部流程的团队、想替换脆弱手工流程的重度用户，以及愿意为“可控与所有权”而不是“高光界面”买单的人。AI 很能加速，但仍需要像审 PR 一样严格复核：它能产出代码，却不负责让软件在现实中长期站住。

原文链接：https://www.chrisgregori.dev/opinion/code-is-cheap-now-software-isnt

#AI工具 #软件工程 #产品分发 #架构思维 #个人软件

www.chrisgregori.dev

Code Is Cheap Now. Software Isn’t.

The barrier to entry for building software has collapsed. The barrier to building something that matters hasn’t moved an inch.

AI工具软件工程产品分发架构思维个人软件

17:21 · 2026年1月12日 · 周一

Claude Opus 4.5：让“能做”突然变得很容易

作者分享了一个明显的转折：三个月前他还不相信“AI 代理能替代开发者”，但在体验 Claude Opus 4.5 后，他开始认为这件事正在发生——至少在相当一部分软件开发场景里。

他用几个真实项目说明差异不在“会写代码”，而在于一次成功率、能自我迭代、能把复杂系统拼起来：

• Windows 右键图片格式转换工具：从文件资源管理器菜单到打包、安装/卸载脚本、发布网站、GitHub Actions 自动发布，整体接近“一次成型”。遇到报错会自己用 dotnet 构建、读错误、再修复。
• 录屏与简单剪辑工具：从类似 LICEcap 的录制开始，持续加到视频/图片编辑、裁剪、模糊、标注等功能，作者感叹“几小时就推进到很远”。
• AI 发帖工具（给小生意用）：iOS 端批量上传照片→AI 生成文案→定时发到 Facebook。后端涉及认证、存储、云函数、日志排错等一堆“胶水活”，但模型能通过 CLI 自己创建资源、查日志并修问题，还顺手做了管理后台。
• 订单与路线追踪：解析 Gmail 订单、规划路线、统计行驶时间（用于税务），作者强调：这种“手写很痛苦”的 Google/Firebase 集成，Opus 4.5 反而很顺。

文章也没有回避争议点：
作者承认自己并不完全理解这些应用“内部怎么搭起来的”（比如 Swift 不熟），但他的焦虑在减轻——因为当问题出现时，模型往往能定位并修复自己的 bug。于是他提出一个更激进的想法：代码也许不必主要面向人类可读，而是面向 LLM 可推理、可重写、可调试。

他甚至分享了一份自用的“AI-first 编码”提示词要点（概念层面）：

• 追求可预测、可调试、低耦合、入口清晰、控制流线性
• 少炫技抽象，减少层级与间接性
• 该删就删；重构也要分高/中/低优先级
• 安全需要更谨慎：API key、登录流程、敏感数据存储等不能盲信

结尾的态度是复杂的：既兴奋于“几小时能做出过去要几周/月的东西”，也沮丧于技能壁垒被压平。但他给出的建议很朴素：别等“都懂了”再开始，继续做东西，只是更快了；同时一定盯紧安全与密钥。

原文链接：https://burkeholland.github.io/posts/opus-4-5-change-everything/

#AI编程 #开发者工具 #Claude #软件工程 #生产力

Burke Holland

Opus 4.5 is going to change everything

Three months ago I would have dismissed claims that AI could replace developers. Today, after using Claude Opus 4.5, I believe AI coding agents can absolutely replace developers.

AI编程开发者工具 Claude 软件工程生产力

16:37 · 2026年1月12日 · 周一

Agent-native 应用：把“功能”变成“结果”

这篇文章提出一种新范式：与其把产品能力写成一堆固定功能，不如构建一个能反复调用工具、直到达成目标的“软件代理（agent）”。核心在于：让代理拥有与用户同等的操作能力（UI 能做的，代理也能通过工具做到），并把工具设计成足够原子化的“积木”。这样，新功能往往不再是写代码，而是写一段描述结果的提示词；同时，用户提出的意外需求会推动系统“涌现”出新用法，并反过来指导你补齐工具与能力缺口。

五个核心原则

• 对等（Parity）：任何 UI 动作，代理都应能通过工具实现同样的结果；否则代理会卡死。
• 粒度（Granularity）：工具是原子能力；“功能”是代理在循环中用工具达成的结果。改行为优先改提示词，而不是重构代码。
• 可组合（Composability）：有了原子工具 + 对等能力，就能通过新提示词快速拼出新“功能”（开发者/用户都能做）。
• 涌现能力（Emergent capability）：用户会提你没设计过的需求；代理若能组合工具完成，就是新机会；若失败，则暴露工具缺口。
• 持续变好（Improvement over time）：通过沉淀上下文（context 文件）与迭代提示词，应用可在不发版的情况下持续变强。

落地方法（把原则变成工程实践）

• 先做“能力地图”：列出用户能做的事，逐项确认代理具备创建/读取/更新/删除（CRUD）能力，避免“能新建不能修改/删除”的断腿体验。
• 先原语、后领域工具：先用文件、bash、读写等基础工具跑通；再为高频模式加领域工具，用于效率、校验、术语锚定，但不要把“判断”写进工具里。
• 文件作为通用接口：文件天然可读、可审计、可迁移，代理也最擅长操作；内容放文件、结构化高频数据放数据库（或混合：文件作可读真相，DB 做索引与性能）。
• 明确完成信号：不要靠“看起来差不多了”判断结束；让工具/编排层返回明确的 complete 信号，避免无限循环或半成品。
• 透明的代理行为：工具调用、进度、状态变化要让 UI 可见；“沉默的代理”会让用户觉得坏了。
• 把“授权”做成产品能力：根据风险与可逆性决定自动执行还是强确认；尤其是发送邮件、发布内容等高风险动作。

对移动端的启示

• 移动应用容易被后台杀死，代理任务却可能很长：需要checkpoint/恢复机制，尽可能在每次工具结果后存档。
• iCloud 之类的文件同步能让多设备共享“同一工作区”，但要处理冲突与未下载文件等边界。

原链接：https://every.to/guides/agent-native

#AgentNative #软件代理 #AI产品 #工具调用 #产品架构

every.to

Agent-native Architectures: How to Build Apps After Code Ends

A new software paradigm for the AI age

AgentNative 软件代理 AI产品工具调用产品架构

14:08 · 2026年1月11日 · 周日

dotagents：用一个 .agents 目录统一管理各类 AI 工具配置

dotagents 是一个 CLI/TUI 工具，把项目或全局的 .agents 目录作为“唯一真相源”，自动为不同 AI 工具创建软链接，并支持安装技能（skills）和插件（plugins），方便在多环境之间保持一致配置、可重复执行、易维护。

你能用它做什么

• 以 .agents 为中心统一管理：hooks、commands、skills，以及 AGENTS/CLAUDE.md 等说明文件
• 一键创建软链接，适配多工具（Claude / Codex / Factory）
• 从本地路径、Git URL、HTTPS URL 安装 skills；并支持从 marketplace 安装 plugins
• 可随时重复运行，用于补装、修复链接或更新能力集

快速开始（要求：Bun 1.3+）

• npx @iannuttall/dotagents
• 或 bunx @iannuttall/dotagents

链接关系示例

• .agents/AGENTS.md → ~/.claude/CLAUDE.md
• .agents/commands → ~/.claude/commands / ~/.factory/commands / ~/.codex/prompts
• .agents/hooks、.agents/skills 同步到对应工具目录

https://github.com/iannuttall/dotagents

#AI工具 #开发效率 #CLI #Claude #Codex

GitHub

GitHub - iannuttall/dotagents: One location for all of your hooks, commands, skills, and AGENT/CLAUDE.md files.

One location for all of your hooks, commands, skills, and AGENT/CLAUDE.md files. - iannuttall/dotagents

AI工具开发效率 CLI Claude Codex

15:43 · 2026年1月1日 · 周四

Steel：为 AI Agent 打造的开源云端浏览器基础设施

Steel 是一个开源的浏览器 API，用来在云端按需启动并控制“浏览器集群”，让 AI Agent、自动化脚本把能力真正带到网页上运行。

它适合做什么？

• 大规模网页抓取与数据采集（也支持更稳定的反爬配置）
• 自主 Web Agent（下单、订票、填写表单等真实操作流程）
• 模型训练数据采集、AI 购物助手、RPA/销售自动化、QA 测试、客服自动化

核心能力概览

• Sessions API：一行调用启动浏览器会话
• 自动 CAPTCHA 处理：减少流程中断
• 代理与指纹控制：降低被识别为机器人的概率
• 快速启动：平均会话启动时间低于 1 秒（同区域更快）
• 长会话：单个会话最长可跑 24 小时
• 上下文复用：保存/注入 Cookies 与本地存储，续跑更顺畅
• 低改动迁移：Puppeteer/Playwright/Selenium 通过少量改动即可上云
• 可观测性：提供会话查看器，支持实时/录制回放调试
• 安全登录：帮助自动化访问需要登录的站点

价格与开源

• 提供免费档起步（按浏览器小时/代理带宽/CAPTCHA 计量），也有从个人到企业的多档套餐
• 项目开源，可本地运行或用 Docker 自托管（官方 GitHub 仓库提供）

原链接：https://steel.dev/
#浏览器自动化 #AI代理 #Web抓取 #开源工具 #云基础设施

steel.dev

Steel | Open-source Headless Browser API

Steel is an open-source browser API purpose-built for AI agents.

浏览器自动化 AI代理 Web抓取开源工具云基础设施

08:50 · 2025年12月29日 · 周一

用好编码代理：Claude Code 2.0 的关键功能与“上下文工程”心法

这篇长文把 Claude Code 2.0 当成一个“能动手的工作台”来拆解：不仅讲新功能，更强调如何用更好的流程与上下文管理，让代理稳定产出。

1) 先换个视角：你不是“追上更新”，而是“借力变强”

作者给了一个更实用的框架：

• 跟进工具：定期用、定期看更新（不必天天追）。
• 深耕领域：懂业务/系统设计/工程习惯，才能把“未知”变成“可提问、可验证”。
• 多玩多试：用不同模型做同一件事，快速建立直觉与边界。

2) Claude Code 2.0 值得关注的体验升级

一些偏“日常效率”的改动，叠加起来很实用：

• 语法高亮 + 更舒服的评审体验（作者因此更愿意在 CLI 里完成 review）
• /context 看上下文占用（建议复杂任务到 60% 左右就交接或压缩）
• Checkpointing（Esc+Esc / /rewind）：能回到某个检查点，回滚代码与对话
• Prompt suggestions / 历史搜索（Ctrl + R）：减少重复输入
• 更快的模糊文件搜索、队列导航、LSP 插件 等

3) Sub-agents（子代理）怎么用才不浪费

作者重点讲了“子代理不是魔法，是上下文与工具调用策略”：

• Explore：偏“只读搜索专家”，适合快速扫代码库、定位文件与线索。
• general-purpose / plan：更像“全能协作者”，通常会继承更多上下文。
• 关键提醒：不要只依赖 Explore 的摘要。摘要是“有损压缩”，重要文件最好让主代理再读一遍，让信息彼此“交叉注意力”，推理更稳。

4) 核心概念：Context Engineering（上下文工程）

代理之所以“烧 tokens”，不是它话多，而是：

• 工具调用本身 + 工具返回结果都会进入上下文；
• 上下文越长，检索与注意力越容易退化（作者称为 context rot / degradation）。

因此，上下文工程的目标是：

• 把最相关的信息放进来
• 控制“噪音”和重复指令
• 用清晰结构（计划、scratchpad、handoff）对抗跑偏

5) Hooks / Skills / MCP：把“提示词”产品化

作者把这三者放在一起看：

• Hooks：在对话生命周期某个节点自动触发脚本（比如 Stop 后自动提醒/继续下一步）。
• Skills：把领域指令与脚本做成“按需加载”的技能包，避免常驻系统提示导致上下文膨胀。
• MCP：连接外部工具/服务，但要注意“工具定义与中间结果”同样会吃上下文与成本；文中也提到用代码执行环境来降低这种膨胀的思路。

6) 一个很实战的工作流建议

作者的默认搭配大意是：

• Claude（Opus 4.5）偏执行与沟通：更像结对编程伙伴、反馈快。
• Codex 偏 review/找 bug：更克制、误报少，适合做“第二视角审查”。
• 面对难功能：先跑一个“可丢弃的草稿版本”，用它暴露模型的偏差，再用更精准的提示第二轮迭代。

原文链接：https://sankalp.bearblog.dev/my-experience-with-claude-code-20-and-how-to-get-better-at-using-coding-agents/

#ClaudeCode #编码代理 #上下文工程 #AI工具 #软件工程

sankalp's blog

A Guide to Claude Code 2.0 and getting better at using coding agents

A deep dive into Claude Code 2.0 features, Opus 4.5 workflows, and context engineering. Learn sub-agents, MCP servers, hooks, skills, and practical tips to boost your AI-assisted coding productivity.

ClaudeCode 编码代理上下文工程 AI工具软件工程

10:47 · 2025年12月27日 · 周六

Ref：给你的 AI Agent 一份“刚刚好”的文档上下文

做 AI 编程助手最怕两件事：胡编和上下文膨胀。Ref 主打的就是把问题变简单——让你的 Agent 能随用随查公共/私有技术文档，只拿“够用且准确”的信息。

它怎么做？
Ref 通过 MCP（Model Context Protocol）把文档上下文接到你的 AI 工具里：既有持续更新的公共文档索引，也支持把你的私有资料（如 GitHub 仓库、PDF）纳入检索。

给 Agent 的两个核心能力：

• search_documentation：面向技术文档的精确搜索，能定位到具体章节，支持公有与私有文档集。
• read_url：读取任意网页或 GitHub 文件内容（可含私有内容），适合顺藤摸瓜跟进链接。

为什么不是“东拼西凑工具链”？
你当然可以分别用：代码片段、搜索、爬取、私有代码检索、PDF 检索等工具组合；Ref 的定位是把这些需求尽量合并成一个更统一的入口，减少集成成本与上下文噪音。

安全与企业能力（官方强调点）：

• SOC2 合规（并提供 Trust Center 与隐私安全说明）
• 支持 SSO 与 MCP OAuth
• 提供“主动提示注入防护”（对返回的上下文做注入扫描，仍在开发中）

定价概览：

• Free：200 credits（不刷新、不失效，官方估算约 10 周常规使用）
• Basic：$9/月，1000 credits
• Team：$9/月/席位，1000 credits/席位（团队共享私有文档索引与统一账单）
• Enterprise：SSO、SOC2、优先支持、定制化等

如果你在用 Claude/Cursor/Zed 等工具做工程开发，且经常需要“查最新文档 + 查公司内部资料”，这种“面向文档的上下文层”会比泛用搜索/爬虫更省 token，也更贴近代码场景。

原链接：https://ref.tools/

#MCP #开发者工具 #技术文档 #AI编程助手 #RAG

ref.tools

Ref - Context for your coding agent

Give your agent the docs it needs to succeed. Exactly the tokens you need, no bloat.

MCP 开发者工具技术文档 AI编程助手 RAG

21:19 · 2025年12月26日 · 周五

2025 年 AI 编程现状：效率在涨，工具与模型在分化

Greptile 发布的《The State of AI Coding 2025》梳理了 AI 编程在 2025 年的关键趋势：工程产出显著提升，开发工具生态快速扩张，而不同大模型在“响应速度、吞吐、成本”上的取舍越来越清晰。

1) 工程效率：PR 更大，个人产出更高

• PR 规模变大：2025 年 3 月到 11 月，PR 的中位改动行数从 57 增至 76，约 +33%。
• 开发者产出上升：人均代码产出从 4,450 增至 7,839 行，约 +76%，AI 工具被视为“产能放大器”。
• 中型团队提升更明显：6–15 人团队的人均产出从 7,005 增至 13,227 行，约 +89%。
• 单文件改动更密：每个文件的改动行数中位数从 18 增至 22，约 +20%，说明 PR 不只变大，也更“集中”。

2) 工具采用：从“能用”到“形成标准层”

• 记忆/Memory 基建：mem0 以 59% 份额领跑（按 PyPI + npm 月下载量口径）。
• 向量数据库：没有绝对赢家；Weaviate 约 25%，其余多家在 10–25% 之间拉锯。
• AI 规则文件：CLAUDE.md 使用率 67%；不少团队多格式并存，且 17% 的仓库三种格式都用。
• AI SDK 增长：Anthropic SDK 以 43M 下载领先（约 8 倍增长）；Pydantic AI 增长 3.7× 到 6M。
• LLMOps：LiteLLM 月下载量增长 4× 至 41M（LangSmith 与 LangChain 安装存在绑定关系）。

3) 模型格局：生态差距在收敛

• SDK 下载量：OpenAI 约 130M 领先；Anthropic 自 2023 年 4 月起增长 1,547×；Google 约 13.6M。
• 差距缩小：OpenAI 与 Anthropic 的下载量比从 2024 年 1 月的 47:1，降至 2025 年 11 月的 4.2:1。

4) 作为“编程 Agent 后端”，模型各有侧重

报告用统一参数对多模型做了延迟、吞吐、成本等基准：

• 首 token 响应（TTFT）：Claude Sonnet/Opus（p50 < 2.5s）明显更快，更利于交互式编程保持“心流”。
• 生成吞吐：GPT-5 Codex / GPT-5.1 吞吐更高，长输出更快结束，利于并行跑更多 Agent/CI。
• 成本倍率（以 GPT-5 Codex = 1× 归一）：GPT-5 Codex ≈ GPT-5.1（1×）；Gemini 3 Pro（1.4×）；Sonnet 4.5（2×）；Opus 4.5（3.3×）。

结论很直接：选型不再是“谁最强”，而是你更在意 响应速度、吞吐效率，还是预算。

5) 研究方向：规模、上下文与 Agent 的“系统工程”

报告还汇总了 2025 年影响工具与应用的一批研究线索，包括：

• MoE 的效率设计（如 DeepSeek-V3：关注 KV cache、路由与训练信号密度）。
• 长上下文 vs RAG 的边界（不同数据结构下各有优势；以及 KV 级检索等新思路）。
• Agent 训练与检索策略（用 RL 学会“何时搜索”、如何管理长程记忆、如何降低噪声上下文干扰等）。

原文链接：https://www.greptile.com/state-of-ai-coding-2025

#AI编程 #开发效率 #LLM工具链 #模型评测 #软件工程趋势

Greptile

AI Code Review | Greptile | Merge 4X Faster, Catch 3X More Bugs

AI Code Reviews that understand your entire codebase. Automate PR reviews, catch bugs faster, improve code quality with AI-driven analysis. Try Greptile free!

AI编程开发效率 LLM工具链模型评测软件工程趋势

13:17 · 2025年12月26日 · 周五

AntV Infographic：面向 AI 时代的声明式信息图引擎

AntV Infographic 是一个“声明式”的信息图生成与渲染框架（npm：@antv/infographic），目标是把文字和结构化内容快速变成可视化信息图，降低制作门槛、提升表达效率。

它解决什么问题

• 用更接近“写文档”的方式描述信息图：通过简洁语法定义标题、描述、数据项、布局与主题
• 适配 AI 生成：语法容错、配置完整，并支持流式输出与分段渲染，适合大模型逐步生成内容
• 从 0 到 1 更快：内置约 200+ 模板与组件（时间线、思维导图、流程、金字塔等）

核心能力

• 声明式渲染：用配置描述信息图结构与样式，而不是手工拖拽绘制
• AI 一键生成：AI 理解文本→抽取关键信息→生成配置→渲染成专业信息图
• 主题与风格：一键切换暗色等风格，也支持自定义主题体系
• 在线 Playground：浏览器内编辑语法、实时预览，配套示例便于上手

快速上手入口

• 学习与文档：/learn
• AI 生成入口：/ai
• 示例库：/examples
• GitHub：antvis/infographic

原链接：https://infographic.antv.vision/

#信息图 #数据可视化 #AntV #前端工程 #AIGC

infographic.antv.vision

AntV Infographic, an infographic generation and rendering framework that brings words to life.

AntV Infographic is a powerful visualization library for building interactive and customizable infographics. Create stunning visual stories with ease using our intuitive API and rich set of components.

信息图数据可视化 AntV 前端工程 AIGC

22:27 · 2025年12月24日 · 周三

AI SDK 6：从“调用模型”到“构建可复用智能体”

Vercel 发布 AI SDK 6，把 TypeScript AI 应用的开发重心从函数式调用（generateText/streamText）进一步推进到可复用、可维护、可观测的 **Agent（智能体）**体系，并补齐了安全审批、MCP 全能力支持、调试工具等关键环节。

这次更新最值得关注的点

• Agents / ToolLoopAgent：用 Agent 抽象把 模型、指令、工具 固化成可复用单元；ToolLoopAgent 提供“模型调用 → 工具执行 → 回填结果 → 继续推理”的生产级循环（默认最多 20 步），同一套定义可在 UI、API、后台任务复用。
• 工具执行审批（Human-in-the-loop）：工具支持 needsApproval，可按输入内容动态决定是否需要人工确认，适合删除文件、支付、修改生产数据等高风险操作。
• 工具能力增强：
• Strict Mode 可按工具粒度开启，避免某个工具 schema 不兼容导致整次请求失败。
• Input Examples 用“正确示例”提升模型生成工具入参的稳定性。
• toModelOutput 将“应用拿到的完整结果”和“发回模型的 token 内容”分离，减少大文本/二进制（截图、图片）带来的上下文浪费。
• MCP（Model Context Protocol）更完整且稳定：新增/完善 OAuth 认证、Resources、Prompts、Elicitation，并在 @ai-sdk/mcp 中以稳定形态提供，便于对接远程 MCP 服务与第一方数据源。
• 工具调用 + 结构化输出：generateText 与 generateObject 能力统一，支持在多步工具链路后直接生成最终结构化结果（通过 Output.* 声明输出形态）。
• DevTools 可观测性：通过中间件记录并可视化每一步的输入输出、工具调用、token 消耗、耗时与原始请求/响应，解决多步 agent 调试“黑盒”问题。
• Reranking（重排序）：新增 rerank，把检索结果按相关性排序，只喂最相关上下文给模型（当前支持 Cohere、Amazon Bedrock、Together.ai）。
• 标准 JSON Schema 生态：支持实现 Standard JSON Schema 接口的任意 schema 库，降低与特定校验库的绑定成本。
• 图像编辑：generateImage 支持带参考图的编辑（如修补/扩展/风格迁移等），不再只限于文生图。
• 更细的返回原因与用量统计：新增 rawFinishReason，并扩展 usage 的输入/输出细分，方便成本优化与兼容不同供应商行为。
• LangChain 适配器重写：更贴合现代 LangChain/LangGraph，支持流式事件转换、工具调用部分输入流等能力。
• 更多 Provider Tools：围绕 Anthropic/OpenAI/Google/xAI 等提供平台特性工具（如代码执行、文件搜索、Web/X 搜索、MCP 工具等）。

升级提示

从 v5 升级到 v6，可先跑官方 codemod：npx @ai-sdk/codemod v6（文中也提供迁移指南链接）。

原文链接：https://vercel.com/blog/ai-sdk-6
#Vercel #AISDK #Agent #MCP #TypeScript

Vercel

AI SDK 6 - Vercel

Introducing agents, tool execution approval, DevTools, full MCP support, reranking, image editing, and more.

Vercel AISDK Agent MCP TypeScript

22:23 · 2025年12月24日 · 周三

用 Payload CMS + Vercel AI SDK 搭建“可运营”的 AI 应用

把 AI 做到生产可用，更多是架构问题：提示词不该写死在代码里，长任务要能可靠重试，Embedding 要能查询，输出要结构化可校验，更关键的是——要能看见系统到底“说了什么、做了什么”。

这篇文章分享了 InnoPeak 在 FinSureTech 场景下的一套实践组合：用 Payload CMS 做“可视化、可配置的 AI 后端”，用 Vercel AI SDK 做“结构化生成与工具调用的运行层”，形成一条从配置、执行到观测的闭环。

1) 用 Payload 管理 Prompt 与模型选择（不发版也能调）

• 把系统/用户提示词做成模板（如 Handlebars），集中放在 Payload 的 globals 里
• 模型 ID 用受控下拉选项管理，避免随意输入造成线上不可控
• 非开发同事也能在后台安全修改提示词与模型策略，应用逻辑保持稳定

2) 在后台“可视化”JSON Schema，提升结构化输出可靠性

做结构化输出（JSON schema）时，最大的成本在测试与迭代。作者的做法是：

• 在 Payload Admin 里直接渲染/展示 schema
• 让开发者一键复制到测试对话或本地 LLM 环境验证

这样能更快发现：字段缺失、类型不匹配、约束不被遵守等问题。

3) 用 Payload Jobs Queue 跑长任务：重试、编排、定时都省了

AI 工作流常有“慢”和“不稳定”：Embedding 生成、文档扫描、分段处理、失败重试……在 serverless 环境尤其麻烦。Payload 的 Jobs Queue 提供：

• 任务与工作流编排
• 重试与调度
• 可用 Vercel CRON 或其他调度器触发

把“队列基础设施”从应用里剥离出来，专注业务流程。

4) Embedding 直接存进 Payload 的 Postgres（pgvector），再用 Drizzle 查

Payload 本身不内建向量字段与索引，但可以用 schema hooks 扩展：

• beforeSchemaInit 增加 vector 列，让生成的 Drizzle schema 也包含它（全类型化）
• afterSchemaInit 创建 HNSW 向量索引、以及 GIN 文本索引（便于混合检索）

随后即可在 API route / server action / task 里做相似度检索与排序，实现 RAG 的“数据库内闭环”。

5) 记录 Token 与完整消息：成本可控、行为可追溯

为了线上可观测性，作者在 Payload 里建了 TokenUsage 集合，保存：

• 输入/输出/总 token（含缓存、推理 token 等）
• 与模型交互的完整 messages（包含 tool calls）

并通过 Vercel AI SDK 的 onFinish 钩子自动落库。好处是：复盘提示词与输出、定位异常、优化成本都有依据。

结论很明确：AI 应用要“能跑、能改、能查、能追踪”，需要的不只是模型能力，更是把配置、数据与运行时纳入同一套可运营系统。

原文链接：https://finly.ch/engineering-blog/916926-building-ai-native-applications-with-payload-cms-and-the-vercel-ai-sdk

#PayloadCMS #VercelAISDK #AInative #RAG #可观测性

finly.ch

Finly - Building AI-Native Applications with Payload CMS and the Vercel AI SDK

How we build AI-native FinSureTech applications at InnoPeak using Payload CMS and the Vercel AI SDK—breaking down real-world patterns for prompts, workflows, and AI-powered features that support modern financial advisors.

PayloadCMS VercelAISDK AInative RAG 可观测性

22:51 · 2025年12月23日 · 周二

一份配置，多端通用：MCP Config 转换器

mcp-config 是一个参考实现：把“同一份 MCP Server 配置”一键转换成不同应用所需的配置文件或命令，避免在 Claude Desktop、Cursor、VS Code 等多处重复手工改配置。

它解决什么问题

• 只维护一份 MCP Server 定义（支持远程 HTTP / 本地 stdio）
• 按目标客户端输出对应格式：JSON / CLI / TOML
• 适配 30+ 客户端格式，减少迁移与同步成本

怎么用（概念流程）

• 将仓库的 src/ 复制到你的项目中
• 使用 getClients() 查看支持的客户端
• 用 transformConfig({ server, client }) 生成目标客户端需要的配置字符串（例如 Cursor 的 JSON，或 Claude Code 的添加命令）

支持范围（示例）

• JSON 类：Claude Desktop、Cursor、Windsurf、VS Code/Copilot、JetBrains、Zed、Warp、Perplexity Desktop 等
• CLI 类：Claude Code、Amp、OpenAI Codex CLI 等

适合谁

• 同时在多个 IDE/客户端里用 MCP 的开发者与团队
• 想把“配置维护”从手工劳动变成可复用工具链的人

原链接：https://github.com/iannuttall/mcp-config

#MCP #配置管理 #开发工具 #TypeScript #效率提升

GitHub

GitHub - iannuttall/mcp-config: Turn one MCP server setup into the right format for lots of apps.

Turn one MCP server setup into the right format for lots of apps. - iannuttall/mcp-config

MCP 配置管理开发工具 TypeScript 效率提升

21:52 · 2025年12月23日 · 周二

MiniMax M2.1 发布：面向真实复杂任务的多语言编程升级

MiniMax 发布新一代文本模型 MiniMax M2.1，目标从“可用、低成本”进一步走向“能解决真实世界的复杂任务”，重点补齐多语言工程协作与办公场景执行力。

这次重点提升了什么？

• 多语言编程能力系统增强：覆盖 Rust / Java / Go / C++ / Kotlin / Objective‑C / TypeScript / JavaScript 等，更贴近真实项目的多语言栈协作。
• Web & App 开发更强、更好看：强化原生 Android / iOS 开发，同时提升设计理解与审美表达，支持复杂交互、3D 场景模拟与高质量可视化。
• 更适合办公场景的“复合指令”执行：在多约束条件下做端到端任务推进，更强调“按要求完成”而不是只写对代码。
• 更简洁、更高效的输出：相较 M2，响应更精炼、速度更快、token 消耗更低，适配持续式 AI Coding / Agent 工作流。
• 更强的 Agent / 工具泛化：官方称在多种编码工具与 Agent 框架中表现稳定，并兼容常见的上下文管理约定。
• 对话与写作质量同步提升：不仅是“更会写代码”，也更擅长技术文档与日常写作的结构化表达。

基准与展示

• 在多项软件工程评测上相对 M2 有明显提升，并强调多语言场景竞争力；同时引入 VIBE（含 Web/Simulation/Android/iOS/Backend）评测体系，用更接近真实运行环境的方式验证“能跑、能交付”。

如何使用

• API：已上线 MiniMax Open Platform
• 产品：基于 M2.1 的 MiniMax Agent 已开放
• 开源：模型权重提供本地部署，推荐 SGLang / vLLM 等推理框架

原文链接：https://www.minimax.io/news/minimax-m21

#MiniMax #开源大模型 #AI编程 #多语言开发 #Agent工作流

MiniMax

MiniMax M2.1: Significantly Enhanced Multi-Language Programming, Built for Real-World Complex Tasks

MiniMax 开源大模型 AI编程多语言开发 Agent工作流

09:11 · 2025年12月23日 · 周二

GLM-4.7：把“能写代码”推进到“能当搭档”

Z.ai 发布 GLM-4.7，主打更强的工程落地能力：不仅写得对，还更擅长在真实工作流里（Agent、终端、工具调用）稳定推进任务。

这次重点提升了什么？

• 核心编码与代理式开发：相较 GLM-4.6，在多语言 Agent 编程与终端任务上有明显提升；例如 SWE-bench Verified 73.8%（+5.8）、SWE-bench Multilingual 66.7%（+12.9）、Terminal Bench 2.0 41.0%（+16.5）。并强调在 Claude Code、Cline、Roo Code 等主流框架中更“好用”。
• Vibe Coding / UI 生成质量：更容易产出更现代、更干净的网页；做幻灯片时布局与尺寸更准确，整体观感更接近可直接交付的作品。
• 工具使用能力：工具调用与浏览任务的表现增强（文中提到 τ²-Bench、BrowseComp 等基准），更适合“边查边做”的复杂流程。
• 复杂推理与数学：推理能力提升，HLE（Humanity’s Last Exam）42.8%（+12.4，带工具），面向高难问题的稳健性更强。

一个很实用的新变化：更可控的“思考”机制

• Interleaved Thinking：在回复/调用工具前先思考，提高指令遵循与产出质量。
• Preserved Thinking：在多轮编码代理场景中保留推理块，减少长任务里的信息丢失与前后不一致。
• Turn-level Thinking：按回合开关推理：简单问题更省时，复杂任务更稳。

如何开始使用

• 在线体验：Z.ai Chat 里选择 GLM-4.7
• API：Z.ai 文档提供接入指南（也支持通过 OpenRouter 使用）
• 本地部署：权重已在 HuggingFace / ModelScope 提供，并支持 vLLM、SGLang 等推理框架
• 编码代理：可在 Claude Code、Cline、Roo Code、Kilo Code 等工具中使用（订阅用户可按文中指引升级模型名为 glm-4.7）

原文链接：https://z.ai/blog/glm-4.7

#GLM47 #AI编程 #Agent #工具调用 #推理能力

GLM47 AI编程 Agent 工具调用推理能力

08:57 · 2025年12月21日 · 周日

Bloom：自动化生成“行为评估”的开源框架

前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）。Anthropic 发布了 Bloom：一个开源的“代理式”评估生成框架，用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。

Bloom 的核心思路是：研究者只需定义要测的行为（并可提供少量示例与配置），Bloom 就能自动生成大量情境并运行对话，最后给出该行为在不同模型上的出现频率与严重程度。官方结果显示，Bloom 的评分与人工标注有较强一致性，也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。

Bloom 怎么做评估（四阶段流水线）

• 理解（Understanding）：分析研究者的行为描述与示例，明确“要测什么、为什么测”。
• 构思（Ideation）：自动生成一批用于诱发目标行为的评估场景（含系统提示、用户设定、环境等）。
• 执行（Rollout）：并行跑场景，对话中还会模拟用户与工具响应，以更真实地触发目标行为。
• 判定（Judgment）：评审模型为每段对话打分，并输出套件级总结指标（如诱发率、平均行为强度）。

与固定题库不同，Bloom 每次运行可生成不同场景，但通过“seed 配置”保持可复现；研究者还能调节模型选择、对话长度、是否使用工具、场景多样性，以及增加如“真实感”“诱发难度”等副指标。

已发布的基准与一个案例

Anthropic 同时发布了对 16 个模型的基准结果，覆盖四类对齐相关行为：

• 迎合性妄想（delusional sycophancy）
• 受指令驱动的长程破坏（instructed long-horizon sabotage）
• 自我保存（self-preservation）
• 自我偏好偏差（self-preferential bias）

在“自我偏好偏差”案例中，Bloom 复现了系统卡里的模型排序，并进一步发现：在某些模型上，提高推理强度会降低偏差（更多体现为识别利益冲突后拒绝自评）。

开源地址与技术细节见原文与报告：
https://www.anthropic.com/research/bloom

#AI安全 #对齐研究 #模型评估 #开源工具 #大模型

Anthropic

Introducing Bloom: an open source tool for automated behavioral evaluations

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

AI安全对齐研究模型评估开源工具大模型

21:52 · 2025年12月20日 · 周六

用 OpenRouter 接入 Claude Code：更稳、更可控的开发体验

在 Claude Code 里把请求走 OpenRouter，本质上是给 Anthropic API 加一层“可靠性与管理”中间层。需要注意：官方只保证与 Anthropic 第一方（1P）提供商完全兼容；为了最佳兼容性，建议将 Anthropic 1P 设为最高优先级。

为什么要这样接入？

• 自动故障切换（高可用）：遇到 Anthropic API 宕机或限流时，OpenRouter 可在多个 Anthropic 提供商间自动切换，减少编码被打断的概率。
• 团队预算管理：集中设置额度、分配成员用量、避免成本失控。
• 用量可视化：在 OpenRouter 的 Activity Dashboard 里实时查看消耗、项目/成员用量等。

快速上手（核心步骤）

1）安装 Claude Code

• macOS / Linux / WSL：
• curl -fsSL https://claude.ai/install.sh | bash
• Windows PowerShell：
• irm https://claude.ai/install.ps1 | iex

2）把 Claude Code 指到 OpenRouter

关键点只有三个：

1. Base URL 用：https://openrouter.ai/api
2. Auth token 用你的 OpenRouter API Key
3. 必须把 ANTHROPIC_API_KEY 显式设为空字符串（避免与默认 Anthropic 登录冲突）

把下面环境变量写进你的 shell 配置（例如 ~/.zshrc / ~/.bashrc）：

• export OPENROUTER_API_KEY="<your-openrouter-api-key>"
• export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
• export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
• export ANTHROPIC_API_KEY=""

补充提醒：

• 不要放在项目级 .env 里：Claude Code 原生安装器不会读常见 .env。
• 若之前用 Anthropic 账号登录过 Claude Code，先在会话里执行 /logout 清掉缓存凭据。

3）启动并验证

• 进入项目目录运行：claude
• 在 Claude Code 内用 /status 查看是否生效，应该能看到：
• Auth token: ANTHROPIC_AUTH_TOKEN
• Anthropic base URL: https://openrouter.ai/api
• 也可去 OpenRouter Activity Dashboard 看请求是否实时出现。

进阶：Agent SDK 与 GitHub Action

• Anthropic Agent SDK（Python / TypeScript）：由于它以 Claude Code 为运行时，同样使用上述环境变量即可接入 OpenRouter。
• Claude Code GitHub Action：在 action step 里
• anthropic_api_key 传入 secrets.OPENROUTER_API_KEY
• 环境变量加 ANTHROPIC_BASE_URL: https://openrouter.ai/api

成本跟踪 Statusline（可选）

可以给 Claude Code 加自定义 statusline，实时显示 provider、模型、累计成本、缓存折扣等信息；脚本来自 openrouter-examples 仓库，并通过 ~/.claude/settings.json 配置 statusLine.command 启用。

常见排错

• 认证报错：确认 ANTHROPIC_API_KEY 是 ""（空字符串），而不是未设置；否则 Claude Code 可能回退到默认 Anthropic 认证流程。
• 上下文长度错误：拆分任务或新开会话。
• 隐私：OpenRouter 默认不记录你的源码 prompts，除非你在账号设置里明确选择开启日志。

原链接：https://openrouter.ai/docs/guides/guides/claude-code-integration

#ClaudeCode #OpenRouter #Anthropic #开发工具 #成本管理

ClaudeCode OpenRouter Anthropic 开发工具成本管理

19:21 · 2025年12月19日 · 周五

Agent Skills：给 AI Agent “装上技能包”

Agent Skills 是一种开放格式：把一套可复用的指令、脚本与资源打包成「技能」，让智能体在需要时按需加载，从而更准确、更高效地完成真实工作。

为什么需要它？

• 智能体能力越来越强，但常缺少上下文与流程知识；技能把这些程序化经验与团队/组织知识变成可携带、可版本管理的包
• 对作者：一次构建，多处部署，跨多种智能体产品复用
• 对企业与团队：把组织最佳实践沉淀为可审计、可迭代的工作流

它能带来什么？

• 领域专长：把法律审阅、数据分析等专业流程封装成可复用指南
• 新能力扩展：例如自动做演示文稿、搭建 MCP Server、分析数据集等
• 可重复的工作流：多步骤任务标准化，稳定且可追踪
• 互操作性：同一技能可在不同“支持技能”的工具/产品间通用

生态与开放性
该格式最初由 Anthropic 提出并以开放标准发布，已被多种 AI 开发工具与产品支持，并在 GitHub 上开放协作。

上手入口

• 了解技能是什么、格式规范、如何集成、示例技能与参考库（校验与生成 prompt XML）

原链接：https://agentskills.io/home
#AI代理 #开放标准 #工作流 #知识沉淀 #开发者工具

Agent Skills

Overview - Agent Skills

A simple, open format for giving agents new capabilities and expertise.

AI代理开放标准工作流知识沉淀开发者工具

23:23 · 2025年12月17日 · 周三

Perplexity 职场 AI 指南：用 AI 重塑工作效率

这是一份 44 页的官方指南，教你如何用 Perplexity 全家桶提升工作效率。核心理念是将 AI 融入工作的三个层次：

🎯 屏蔽干扰
现代职场平均每 11 分钟被打断一次。Perplexity 提供：
• Comet 浏览器：AI 助手 + 代理模式，帮你阅读、总结、执行任务
• 邮件助手：自动分类邮件、智能回复、安排会议
• 快捷指令和定时任务：把重复工作变成一键操作

🚀 放大能力
• 深度研究：一次分析数百个信息源，生成带引用的报告
• Labs 创作工坊：无需技术背景，直接生成演示文稿、仪表盘、营销素材
• Spaces 空间：保存你的研究上下文和品牌风格，确保输出一致性

📈 产出成果
• 绩效评估：自动分析工作数据，生成专业报告
• 销售开发：批量研究潜在客户，生成个性化外联内容
• 提案制作：快速产出定制化方案和 ROI 模型

💡 提示词技巧
别把 AI 当搜索引擎用。要说清楚目标、上下文和期望格式。比如：

"找出过去 3 天所有需要回复的未读邮件，起草简短回复"

比"帮我处理邮件"有效得多。

🔗 原文链接

#Perplexity #AI效率 #职场工具 #生产力 #AI助手

Perplexity AI效率职场工具生产力 AI助手

Before

After

Home