面条的草稿箱

无原创，纯转发

22:27 · 2025年12月24日 · 周三

AI SDK 6：从“调用模型”到“构建可复用智能体”

Vercel 发布 AI SDK 6，把 TypeScript AI 应用的开发重心从函数式调用（generateText/streamText）进一步推进到可复用、可维护、可观测的 **Agent（智能体）**体系，并补齐了安全审批、MCP 全能力支持、调试工具等关键环节。

这次更新最值得关注的点

• Agents / ToolLoopAgent：用 Agent 抽象把 模型、指令、工具 固化成可复用单元；ToolLoopAgent 提供“模型调用 → 工具执行 → 回填结果 → 继续推理”的生产级循环（默认最多 20 步），同一套定义可在 UI、API、后台任务复用。
• 工具执行审批（Human-in-the-loop）：工具支持 needsApproval，可按输入内容动态决定是否需要人工确认，适合删除文件、支付、修改生产数据等高风险操作。
• 工具能力增强：
• Strict Mode 可按工具粒度开启，避免某个工具 schema 不兼容导致整次请求失败。
• Input Examples 用“正确示例”提升模型生成工具入参的稳定性。
• toModelOutput 将“应用拿到的完整结果”和“发回模型的 token 内容”分离，减少大文本/二进制（截图、图片）带来的上下文浪费。
• MCP（Model Context Protocol）更完整且稳定：新增/完善 OAuth 认证、Resources、Prompts、Elicitation，并在 @ai-sdk/mcp 中以稳定形态提供，便于对接远程 MCP 服务与第一方数据源。
• 工具调用 + 结构化输出：generateText 与 generateObject 能力统一，支持在多步工具链路后直接生成最终结构化结果（通过 Output.* 声明输出形态）。
• DevTools 可观测性：通过中间件记录并可视化每一步的输入输出、工具调用、token 消耗、耗时与原始请求/响应，解决多步 agent 调试“黑盒”问题。
• Reranking（重排序）：新增 rerank，把检索结果按相关性排序，只喂最相关上下文给模型（当前支持 Cohere、Amazon Bedrock、Together.ai）。
• 标准 JSON Schema 生态：支持实现 Standard JSON Schema 接口的任意 schema 库，降低与特定校验库的绑定成本。
• 图像编辑：generateImage 支持带参考图的编辑（如修补/扩展/风格迁移等），不再只限于文生图。
• 更细的返回原因与用量统计：新增 rawFinishReason，并扩展 usage 的输入/输出细分，方便成本优化与兼容不同供应商行为。
• LangChain 适配器重写：更贴合现代 LangChain/LangGraph，支持流式事件转换、工具调用部分输入流等能力。
• 更多 Provider Tools：围绕 Anthropic/OpenAI/Google/xAI 等提供平台特性工具（如代码执行、文件搜索、Web/X 搜索、MCP 工具等）。

升级提示

从 v5 升级到 v6，可先跑官方 codemod：npx @ai-sdk/codemod v6（文中也提供迁移指南链接）。

原文链接：https://vercel.com/blog/ai-sdk-6
#Vercel #AISDK #Agent #MCP #TypeScript
Vercel

AI SDK 6 - Vercel

Introducing agents, tool execution approval, DevTools, full MCP support, reranking, image editing, and more.

Vercel AISDK Agent MCP TypeScript
22:23 · 2025年12月24日 · 周三

用 Payload CMS + Vercel AI SDK 搭建“可运营”的 AI 应用

把 AI 做到生产可用，更多是架构问题：提示词不该写死在代码里，长任务要能可靠重试，Embedding 要能查询，输出要结构化可校验，更关键的是——要能看见系统到底“说了什么、做了什么”。

这篇文章分享了 InnoPeak 在 FinSureTech 场景下的一套实践组合：用 Payload CMS 做“可视化、可配置的 AI 后端”，用 Vercel AI SDK 做“结构化生成与工具调用的运行层”，形成一条从配置、执行到观测的闭环。

1) 用 Payload 管理 Prompt 与模型选择（不发版也能调）

• 把系统/用户提示词做成模板（如 Handlebars），集中放在 Payload 的 globals 里
• 模型 ID 用受控下拉选项管理，避免随意输入造成线上不可控
• 非开发同事也能在后台安全修改提示词与模型策略，应用逻辑保持稳定

2) 在后台“可视化”JSON Schema，提升结构化输出可靠性

做结构化输出（JSON schema）时，最大的成本在测试与迭代。作者的做法是：

• 在 Payload Admin 里直接渲染/展示 schema
• 让开发者一键复制到测试对话或本地 LLM 环境验证

这样能更快发现：字段缺失、类型不匹配、约束不被遵守等问题。

3) 用 Payload Jobs Queue 跑长任务：重试、编排、定时都省了

AI 工作流常有“慢”和“不稳定”：Embedding 生成、文档扫描、分段处理、失败重试……在 serverless 环境尤其麻烦。Payload 的 Jobs Queue 提供：

• 任务与工作流编排
• 重试与调度
• 可用 Vercel CRON 或其他调度器触发

把“队列基础设施”从应用里剥离出来，专注业务流程。

4) Embedding 直接存进 Payload 的 Postgres（pgvector），再用 Drizzle 查

Payload 本身不内建向量字段与索引，但可以用 schema hooks 扩展：

• beforeSchemaInit 增加 vector 列，让生成的 Drizzle schema 也包含它（全类型化）
• afterSchemaInit 创建 HNSW 向量索引、以及 GIN 文本索引（便于混合检索）

随后即可在 API route / server action / task 里做相似度检索与排序，实现 RAG 的“数据库内闭环”。

5) 记录 Token 与完整消息：成本可控、行为可追溯

为了线上可观测性，作者在 Payload 里建了 TokenUsage 集合，保存：

• 输入/输出/总 token（含缓存、推理 token 等）
• 与模型交互的完整 messages（包含 tool calls）

并通过 Vercel AI SDK 的 onFinish 钩子自动落库。好处是：复盘提示词与输出、定位异常、优化成本都有依据。

结论很明确：AI 应用要“能跑、能改、能查、能追踪”，需要的不只是模型能力，更是把配置、数据与运行时纳入同一套可运营系统。

原文链接：https://finly.ch/engineering-blog/916926-building-ai-native-applications-with-payload-cms-and-the-vercel-ai-sdk

#PayloadCMS #VercelAISDK #AInative #RAG #可观测性
finly.ch

Finly - Building AI-Native Applications with Payload CMS and the Vercel AI SDK

How we build AI-native FinSureTech applications at InnoPeak using Payload CMS and the Vercel AI SDK—breaking down real-world patterns for prompts, workflows, and AI-powered features that support modern financial advisors.

PayloadCMS VercelAISDK AInative RAG 可观测性
22:51 · 2025年12月23日 · 周二

一份配置，多端通用：MCP Config 转换器

mcp-config 是一个参考实现：把“同一份 MCP Server 配置”一键转换成不同应用所需的配置文件或命令，避免在 Claude Desktop、Cursor、VS Code 等多处重复手工改配置。

它解决什么问题

• 只维护一份 MCP Server 定义（支持远程 HTTP / 本地 stdio）
• 按目标客户端输出对应格式：JSON / CLI / TOML
• 适配 30+ 客户端格式，减少迁移与同步成本

怎么用（概念流程）

• 将仓库的 src/ 复制到你的项目中
• 使用 getClients() 查看支持的客户端
• 用 transformConfig({ server, client }) 生成目标客户端需要的配置字符串（例如 Cursor 的 JSON，或 Claude Code 的添加命令）

支持范围（示例）

• JSON 类：Claude Desktop、Cursor、Windsurf、VS Code/Copilot、JetBrains、Zed、Warp、Perplexity Desktop 等
• CLI 类：Claude Code、Amp、OpenAI Codex CLI 等

适合谁

• 同时在多个 IDE/客户端里用 MCP 的开发者与团队
• 想把“配置维护”从手工劳动变成可复用工具链的人

原链接：https://github.com/iannuttall/mcp-config

#MCP #配置管理 #开发工具 #TypeScript #效率提升
GitHub

GitHub - iannuttall/mcp-config: Turn one MCP server setup into the right format for lots of apps.

Turn one MCP server setup into the right format for lots of apps. - iannuttall/mcp-config

MCP 配置管理开发工具 TypeScript 效率提升
21:52 · 2025年12月23日 · 周二

MiniMax M2.1 发布：面向真实复杂任务的多语言编程升级

MiniMax 发布新一代文本模型 MiniMax M2.1，目标从“可用、低成本”进一步走向“能解决真实世界的复杂任务”，重点补齐多语言工程协作与办公场景执行力。

这次重点提升了什么？

• 多语言编程能力系统增强：覆盖 Rust / Java / Go / C++ / Kotlin / Objective‑C / TypeScript / JavaScript 等，更贴近真实项目的多语言栈协作。
• Web & App 开发更强、更好看：强化原生 Android / iOS 开发，同时提升设计理解与审美表达，支持复杂交互、3D 场景模拟与高质量可视化。
• 更适合办公场景的“复合指令”执行：在多约束条件下做端到端任务推进，更强调“按要求完成”而不是只写对代码。
• 更简洁、更高效的输出：相较 M2，响应更精炼、速度更快、token 消耗更低，适配持续式 AI Coding / Agent 工作流。
• 更强的 Agent / 工具泛化：官方称在多种编码工具与 Agent 框架中表现稳定，并兼容常见的上下文管理约定。
• 对话与写作质量同步提升：不仅是“更会写代码”，也更擅长技术文档与日常写作的结构化表达。

基准与展示

• 在多项软件工程评测上相对 M2 有明显提升，并强调多语言场景竞争力；同时引入 VIBE（含 Web/Simulation/Android/iOS/Backend）评测体系，用更接近真实运行环境的方式验证“能跑、能交付”。

如何使用

• API：已上线 MiniMax Open Platform
• 产品：基于 M2.1 的 MiniMax Agent 已开放
• 开源：模型权重提供本地部署，推荐 SGLang / vLLM 等推理框架

原文链接：https://www.minimax.io/news/minimax-m21

#MiniMax #开源大模型 #AI编程 #多语言开发 #Agent工作流
MiniMax

MiniMax M2.1: Significantly Enhanced Multi-Language Programming, Built for Real-World Complex Tasks

MiniMax 开源大模型 AI编程多语言开发 Agent工作流
09:11 · 2025年12月23日 · 周二

GLM-4.7：把“能写代码”推进到“能当搭档”

Z.ai 发布 GLM-4.7，主打更强的工程落地能力：不仅写得对，还更擅长在真实工作流里（Agent、终端、工具调用）稳定推进任务。

这次重点提升了什么？

• 核心编码与代理式开发：相较 GLM-4.6，在多语言 Agent 编程与终端任务上有明显提升；例如 SWE-bench Verified 73.8%（+5.8）、SWE-bench Multilingual 66.7%（+12.9）、Terminal Bench 2.0 41.0%（+16.5）。并强调在 Claude Code、Cline、Roo Code 等主流框架中更“好用”。
• Vibe Coding / UI 生成质量：更容易产出更现代、更干净的网页；做幻灯片时布局与尺寸更准确，整体观感更接近可直接交付的作品。
• 工具使用能力：工具调用与浏览任务的表现增强（文中提到 τ²-Bench、BrowseComp 等基准），更适合“边查边做”的复杂流程。
• 复杂推理与数学：推理能力提升，HLE（Humanity’s Last Exam）42.8%（+12.4，带工具），面向高难问题的稳健性更强。

一个很实用的新变化：更可控的“思考”机制

• Interleaved Thinking：在回复/调用工具前先思考，提高指令遵循与产出质量。
• Preserved Thinking：在多轮编码代理场景中保留推理块，减少长任务里的信息丢失与前后不一致。
• Turn-level Thinking：按回合开关推理：简单问题更省时，复杂任务更稳。

如何开始使用

• 在线体验：Z.ai Chat 里选择 GLM-4.7
• API：Z.ai 文档提供接入指南（也支持通过 OpenRouter 使用）
• 本地部署：权重已在 HuggingFace / ModelScope 提供，并支持 vLLM、SGLang 等推理框架
• 编码代理：可在 Claude Code、Cline、Roo Code、Kilo Code 等工具中使用（订阅用户可按文中指引升级模型名为 glm-4.7）

原文链接：https://z.ai/blog/glm-4.7

#GLM47 #AI编程 #Agent #工具调用 #推理能力

GLM47 AI编程 Agent 工具调用推理能力
08:57 · 2025年12月21日 · 周日

Bloom：自动化生成“行为评估”的开源框架

前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）。Anthropic 发布了 Bloom：一个开源的“代理式”评估生成框架，用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。

Bloom 的核心思路是：研究者只需定义要测的行为（并可提供少量示例与配置），Bloom 就能自动生成大量情境并运行对话，最后给出该行为在不同模型上的出现频率与严重程度。官方结果显示，Bloom 的评分与人工标注有较强一致性，也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。

Bloom 怎么做评估（四阶段流水线）

• 理解（Understanding）：分析研究者的行为描述与示例，明确“要测什么、为什么测”。
• 构思（Ideation）：自动生成一批用于诱发目标行为的评估场景（含系统提示、用户设定、环境等）。
• 执行（Rollout）：并行跑场景，对话中还会模拟用户与工具响应，以更真实地触发目标行为。
• 判定（Judgment）：评审模型为每段对话打分，并输出套件级总结指标（如诱发率、平均行为强度）。

与固定题库不同，Bloom 每次运行可生成不同场景，但通过“seed 配置”保持可复现；研究者还能调节模型选择、对话长度、是否使用工具、场景多样性，以及增加如“真实感”“诱发难度”等副指标。

已发布的基准与一个案例

Anthropic 同时发布了对 16 个模型的基准结果，覆盖四类对齐相关行为：

• 迎合性妄想（delusional sycophancy）
• 受指令驱动的长程破坏（instructed long-horizon sabotage）
• 自我保存（self-preservation）
• 自我偏好偏差（self-preferential bias）

在“自我偏好偏差”案例中，Bloom 复现了系统卡里的模型排序，并进一步发现：在某些模型上，提高推理强度会降低偏差（更多体现为识别利益冲突后拒绝自评）。

开源地址与技术细节见原文与报告：
https://www.anthropic.com/research/bloom

#AI安全 #对齐研究 #模型评估 #开源工具 #大模型
Anthropic

Introducing Bloom: an open source tool for automated behavioral evaluations

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

AI安全对齐研究模型评估开源工具大模型
21:52 · 2025年12月20日 · 周六

用 OpenRouter 接入 Claude Code：更稳、更可控的开发体验

在 Claude Code 里把请求走 OpenRouter，本质上是给 Anthropic API 加一层“可靠性与管理”中间层。需要注意：官方只保证与 Anthropic 第一方（1P）提供商完全兼容；为了最佳兼容性，建议将 Anthropic 1P 设为最高优先级。

为什么要这样接入？

• 自动故障切换（高可用）：遇到 Anthropic API 宕机或限流时，OpenRouter 可在多个 Anthropic 提供商间自动切换，减少编码被打断的概率。
• 团队预算管理：集中设置额度、分配成员用量、避免成本失控。
• 用量可视化：在 OpenRouter 的 Activity Dashboard 里实时查看消耗、项目/成员用量等。

快速上手（核心步骤）

1）安装 Claude Code

• macOS / Linux / WSL：
• curl -fsSL https://claude.ai/install.sh | bash
• Windows PowerShell：
• irm https://claude.ai/install.ps1 | iex

2）把 Claude Code 指到 OpenRouter

关键点只有三个：

1. Base URL 用：https://openrouter.ai/api
2. Auth token 用你的 OpenRouter API Key
3. 必须把 ANTHROPIC_API_KEY 显式设为空字符串（避免与默认 Anthropic 登录冲突）

把下面环境变量写进你的 shell 配置（例如 ~/.zshrc / ~/.bashrc）：

• export OPENROUTER_API_KEY="<your-openrouter-api-key>"
• export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
• export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
• export ANTHROPIC_API_KEY=""

补充提醒：

• 不要放在项目级 .env 里：Claude Code 原生安装器不会读常见 .env。
• 若之前用 Anthropic 账号登录过 Claude Code，先在会话里执行 /logout 清掉缓存凭据。

3）启动并验证

• 进入项目目录运行：claude
• 在 Claude Code 内用 /status 查看是否生效，应该能看到：
• Auth token: ANTHROPIC_AUTH_TOKEN
• Anthropic base URL: https://openrouter.ai/api
• 也可去 OpenRouter Activity Dashboard 看请求是否实时出现。

进阶：Agent SDK 与 GitHub Action

• Anthropic Agent SDK（Python / TypeScript）：由于它以 Claude Code 为运行时，同样使用上述环境变量即可接入 OpenRouter。
• Claude Code GitHub Action：在 action step 里
• anthropic_api_key 传入 secrets.OPENROUTER_API_KEY
• 环境变量加 ANTHROPIC_BASE_URL: https://openrouter.ai/api

成本跟踪 Statusline（可选）

可以给 Claude Code 加自定义 statusline，实时显示 provider、模型、累计成本、缓存折扣等信息；脚本来自 openrouter-examples 仓库，并通过 ~/.claude/settings.json 配置 statusLine.command 启用。

常见排错

• 认证报错：确认 ANTHROPIC_API_KEY 是 ""（空字符串），而不是未设置；否则 Claude Code 可能回退到默认 Anthropic 认证流程。
• 上下文长度错误：拆分任务或新开会话。
• 隐私：OpenRouter 默认不记录你的源码 prompts，除非你在账号设置里明确选择开启日志。

原链接：https://openrouter.ai/docs/guides/guides/claude-code-integration

#ClaudeCode #OpenRouter #Anthropic #开发工具 #成本管理

ClaudeCode OpenRouter Anthropic 开发工具成本管理
19:21 · 2025年12月19日 · 周五

Agent Skills：给 AI Agent “装上技能包”

Agent Skills 是一种开放格式：把一套可复用的指令、脚本与资源打包成「技能」，让智能体在需要时按需加载，从而更准确、更高效地完成真实工作。

为什么需要它？

• 智能体能力越来越强，但常缺少上下文与流程知识；技能把这些程序化经验与团队/组织知识变成可携带、可版本管理的包
• 对作者：一次构建，多处部署，跨多种智能体产品复用
• 对企业与团队：把组织最佳实践沉淀为可审计、可迭代的工作流

它能带来什么？

• 领域专长：把法律审阅、数据分析等专业流程封装成可复用指南
• 新能力扩展：例如自动做演示文稿、搭建 MCP Server、分析数据集等
• 可重复的工作流：多步骤任务标准化，稳定且可追踪
• 互操作性：同一技能可在不同“支持技能”的工具/产品间通用

生态与开放性
该格式最初由 Anthropic 提出并以开放标准发布，已被多种 AI 开发工具与产品支持，并在 GitHub 上开放协作。

上手入口

• 了解技能是什么、格式规范、如何集成、示例技能与参考库（校验与生成 prompt XML）

原链接：https://agentskills.io/home
#AI代理 #开放标准 #工作流 #知识沉淀 #开发者工具
Agent Skills

Agent Skills Overview - Agent Skills

A standardized way to give AI agents new capabilities and expertise.

AI代理开放标准工作流知识沉淀开发者工具
23:23 · 2025年12月17日 · 周三

Perplexity 职场 AI 指南：用 AI 重塑工作效率

这是一份 44 页的官方指南，教你如何用 Perplexity 全家桶提升工作效率。核心理念是将 AI 融入工作的三个层次：

🎯 屏蔽干扰
现代职场平均每 11 分钟被打断一次。Perplexity 提供：
• Comet 浏览器：AI 助手 + 代理模式，帮你阅读、总结、执行任务
• 邮件助手：自动分类邮件、智能回复、安排会议
• 快捷指令和定时任务：把重复工作变成一键操作

🚀 放大能力
• 深度研究：一次分析数百个信息源，生成带引用的报告
• Labs 创作工坊：无需技术背景，直接生成演示文稿、仪表盘、营销素材
• Spaces 空间：保存你的研究上下文和品牌风格，确保输出一致性

📈 产出成果
• 绩效评估：自动分析工作数据，生成专业报告
• 销售开发：批量研究潜在客户，生成个性化外联内容
• 提案制作：快速产出定制化方案和 ROI 模型

💡 提示词技巧
别把 AI 当搜索引擎用。要说清楚目标、上下文和期望格式。比如：
"找出过去 3 天所有需要回复的未读邮件，起草简短回复"

比"帮我处理邮件"有效得多。

🔗 原文链接

 #Perplexity #AI效率 #职场工具 #生产力 #AI助手

Perplexity AI效率职场工具生产力 AI助手
10:16 · 2025年12月17日 · 周三

小米发布 MiMo-V2-Flash：高效推理模型开源

小米于 2025 年 12 月 16 日发布并开源了 MiMo-V2-Flash，这是一款高效、超快的基础语言模型，在推理、编码和智能体场景表现尤为出色，同时也可作为日常任务的通用助手。

核心亮点

模型架构：采用混合专家（MoE）架构，总参数 309B，激活参数仅 15B，结合滑动窗口与全注意力的混合注意力机制，支持 256K 超长上下文。

性能表现：
• AIME 2025、GPQA-Diamond 等推理测试中位列开源模型前二
• SWE-bench Verified 达 73.4%，SWE-bench Multilingual 达 71.7%，软件工程能力领先所有开源模型
• 推理速度达 150 tokens/秒，成本仅 $0.1/百万输入 token

技术创新：
• 多 Token 预测（MTP）：通过自推测解码实现 2.0-2.6 倍加速
• MOPD 训练范式：多教师在线策略蒸馏，训练效率提升 50 倍以上

开源资源：模型权重以 MIT 协议开放于 Hugging Face，推理代码已贡献至 SGLang，技术报告同步发布。

原文链接

 #小米 #MiMo #开源模型 #大语言模型 #AI推理

小米 MiMo 开源模型大语言模型 AI推理
23:49 · 2025年12月16日 · 周二

Coding Agents 与复杂度预算

Lee Robinson（Cursor 工程师）分享了一次惊人的迁移经历：仅用 3 天时间、$260 token 费用 和数百个 AI Agent，就把 cursor.com 从 CMS 迁回纯代码和 Markdown。

为什么要抛弃 CMS？

CMS 带来的隐性复杂度超乎想象：
• 多系统用户管理
• 预览变更的繁琐流程
• 国际化翻译的插件地狱
• CDN 费用暴涨（上线后花了 $56,848）
• 代码库的依赖和抽象膨胀

AI 时代的关键洞察

抽象的代价从未如此之高。当内容变成代码后：
• Agent 可以直接 grep 和编辑
• PR 链接无需登录即可分享预览
• 所有变更通过 git 追踪，Agent 能自主挖掘历史

迁移成果

• 344 次 Agent 请求
• 67 次 commit（+43K / -322K 行代码）
• 构建速度提升 2 倍
• 节省数千美元 CDN 费用
• 第二天就能在手机上通过 cloud agent 合并修复

核心观点

"过度抽象一直是代码异味，现在有了简单的解决方案：花 token 删除复杂度。" 编程 Agent 正在帮助团队尝试疯狂想法、清理深埋的技术债。

🔗 原文链接

 #CodingAgent #AI编程 #技术债务 #Cursor #开发效率
Leerob

Coding Agents & Complexity Budgets

$260 in tokens and hundreds of coding agents later.

CodingAgent AI编程技术债务 Cursor 开发效率
23:40 · 2025年12月14日 · 周日

别构建 Agent，构建 Skills 才是正道

来自 Anthropic 的 Barry Zhang 和 Mahesh Murag 在 AI Engineer 大会上分享了一个重要理念：与其不断重建 Agent，不如专注构建 Skills。

核心观点：

🔹 代码是通用接口 — 代码不仅是一种用例，更是连接数字世界的通用接口。Claude Code 实际上是一个通用型 Agent，核心脚手架可以简化到 bash 和文件系统。

🔹 Agent 的短板 — 当前 Agent 虽然智能，但缺乏领域专业知识。就像让天才数学家去报税，不如找一个经验丰富的税务专家。

🔹 什么是 Skills — Skills 是组织化的文件夹集合，包含可组合的程序性知识。设计上保持简单：可以用 Git 版本控制、放在 Google Drive、打包分享。

🔹 渐进式加载 — Skills 采用渐进式披露机制，运行时仅加载元数据，需要时才读取完整内容，可支持数百个 Skills 同时存在。

🔹 生态发展 — 发布 5 周已产生数千个 Skills，涵盖基础能力、第三方集成、企业内部知识等类型。非技术人员如财务、法务也在创建 Skills。

🔹 与 MCP 互补 — MCP 提供外部世界的连接，Skills 提供专业知识，两者协同工作。

🔹 持续学习 — Skills 让 Claude 在第 30 天比第 1 天更强，学习成果可跨会话迁移。

类比传统计算：
模型 ≈ 处理器
Agent 运行时 ≈ 操作系统
Skills ≈ 应用程序

📺 原视频

 #AIAgent #Skills #Anthropic #ClaudeCode #MCP
YouTube

Don't Build Agents, Build Skills Instead – Barry Zhang & Mahesh Murag, Anthropic

In the past year, we've seen rapid advancement of model intelligence and convergence on agent scaffolding. But there's still a gap: agents often lack the domain expertise and specialized knowledge needed for real-world work. We think Skills are the solution—a…

AIAgent Skills Anthropic ClaudeCode MCP
20:27 · 2025年12月14日 · 周日
如何让 Claude Code Skills 可靠激活

Claude Code 的 Skills 功能理论上会根据描述自动激活，但实际测试发现激活率仅约 20%，跟抛硬币差不多。作者通过 200+ 次测试，找到了两种有效方案。

测试结果对比：

• Simple 简单指令：整体成功率仅 20%
• Forced Eval 强制评估：成功率 84%，最稳定
• LLM Eval 预评估：成功率 80%，更快更省钱

核心发现

强制评估之所以有效，在于它创建了「承诺机制」：

1. Claude 必须逐一评估每个 Skill 并给出 YES/NO
2. 明确表态后才能继续实现
3. 使用 "MANDATORY"、"CRITICAL" 等强硬措辞增加执行力

如何选择

Forced Eval：追求稳定性，不介意输出冗长
LLM Eval：追求速度和成本，适合单一技能场景

使用方法：在 .claude/hooks/ 创建对应脚本，并在 settings.json 中配置 hook。如果用 claude-skills-cli，可直接运行：
```
pnpm exec claude-skills-cli add-hook
```
🔗 原文链接

#ClaudeCode #Skills #开发技巧 #Anthropic #AI工具
GitHub

GitHub - spences10/claude-skills-cli: 🤖 CLI for creating Claude Agent Skills with progressive disclosure validation. Built for…

🤖 CLI for creating Claude Agent Skills with progressive disclosure validation. Built for Claude Code to use when humans ask it to create skills. - spences10/claude-skills-cli
ClaudeCode Skills 开发技巧 Anthropic AI工具
14:27 · 2025年12月14日 · 周日

CKA-Agent：利用"无害查询编织"绕过商用 LLM 安全护栏

来自 GaTech、UIUC、清华等机构的研究团队提出了一种名为 CKA-Agent（关联知识攻击代理）的新型越狱框架，揭示了大语言模型安全机制的根本性漏洞。

核心发现：
该研究指出，LLM 的脆弱性并非在于提示词优化是否巧妙，而在于模型内部知识的关联性——通过编织一系列看似无害的查询，即可重构受限信息。

技术原理：
CKA-Agent 将越狱问题重构为对目标模型关联知识的自适应树搜索。它不制作单一恶意提示，而是动态导航模型的内部知识图谱，利用目标自身的响应来引导多跳攻击路径。

实验结果：
• 在 Gemini-2.5-Pro、GPT-oss-120B、Claude-Haiku-4.5 等商用模型上达到 96-99% 攻击成功率
• 相比最佳分解基线提升 15-21 个百分点
• 在防御强化模型上比提示优化方法提升高达 96 倍

防御启示：
即使提供完整对话历史，模型仍难以跨查询聚合恶意意图。研究团队呼吁未来安全护栏需强化跨查询意图聚合与长上下文推理能力。

🔗 原文链接

 #AI安全 #LLM越狱 #对抗攻击 #大模型防护
cka-agent.github.io

CKA-Agent: The Trojan Knowledge

Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search

AI安全 LLM越狱对抗攻击大模型防护
00:03 · 2025年12月13日 · 周六

Android Use：让 AI 代理能控制原生 Android 应用的开源库

📱 这是一款专为移动设备设计的 AI 代理工具，解决了一个核心问题：笔记本电脑无法在卡车驾驶室、送货途中等场景使用。

核心亮点：

• 利用 Android 无障碍 API 获取结构化 UI 数据，无需昂贵的视觉模型
• 相比 Anthropic Computer Use，成本降低 95%（每次操作 $0.01 vs $0.15）
• 延迟低于 1 秒，准确率超 99%
• 核心代码不到 200 行，简洁可扩展

应用场景：

🚛 物流：卡车司机在驾驶室内提交发票
🚗 零工经济：Uber/DoorDash 司机多应用切换
📦 快递：自动扫描包裹并标记送达
🏦 移动银行：自动化对账和交易处理

工作原理：

1. 感知 - 通过 ADB 获取无障碍树（XML）
2. 推理 - GPT-4 分析屏幕状态并决策
3. 执行 - 通过 ADB 命令操作设备

项目发布 24 小时内在 X 上获得 70 万+ 浏览，已有多家物流公司启动试点。

🔗 GitHub 项目地址

 #Android #AI代理 #自动化 #物流科技 #开源
GitHub

GitHub - Action-State-Labs/android-action-kernel

Contribute to Action-State-Labs/android-action-kernel development by creating an account on GitHub.

Android AI代理自动化物流科技开源
22:35 · 2025年12月12日 · 周五
MCPorter 🧳 — TypeScript 调用 MCP 服务器的终极工具

MCPorter 是一个 TypeScript 运行时、CLI 和代码生成工具包，专为 Model Context Protocol (MCP) 设计。它让开发者能够以更优雅的方式调用 MCP 服务器，无需繁琐的配置和模板代码。

核心特性：

• 零配置发现 — 自动合并来自 Cursor、Claude、Codex、Windsurf、VS Code 等编辑器的 MCP 配置
• 一键生成 CLI — 将任意 MCP 服务器定义转换为可分发的命令行工具
• 类型安全客户端 — 自动生成 .d.ts 接口和客户端包装器
• 友好的 API — createServerProxy() 暴露驼峰命名方法，自动处理 JSON Schema 默认值
• OAuth 支持 — 内置 OAuth 缓存，支持 HTTP、SSE 和 stdio 传输协议

快速开始：
```
# 列出你的 MCP 服务器
npx mcporter list

# 调用工具
npx mcporter call context7.resolve-library-id libraryName=react

# 生成独立 CLI
npx mcporter generate-cli --command https://mcp.context7.com/mcp
```
安装方式：
```
# 使用 npx 即时运行
npx mcporter list

# 添加到项目
pnpm add mcporter

# Homebrew
brew install steipete/tap/mcporter
```
项目采用 MIT 许可证，当前版本 v0.7.1。

🔗 GitHub 仓库

#MCP #TypeScript #CLI #开发工具 #AI工具
GitHub

GitHub - steipete/mcporter: Call MCPs via TypeScript, masquerading as simple TypeScript API. Or package them as cli.

Call MCPs via TypeScript, masquerading as simple TypeScript API. Or package them as cli. - steipete/mcporter
MCP TypeScript CLI 开发工具 AI工具
23:36 · 2025年12月11日 · 周四
Claude Code Skills 不会自动激活？这有个解决方案

Claude Code 的 Skills 功能号称是"自主激活"的——只要你的请求匹配技能描述，Claude 就会自动使用。但现实很骨感：它根本不会。

作者创建了一个 research 技能，用于验证信息来源。每当说"research this"，Claude 应该自动调用该技能。结果呢？Claude 每次都无视技能，直接蛮干。

问题根源

Claude 太过专注于完成任务，会直接跳过检查可用工具的步骤。即使 Hook 提醒"检查一下 skills"，Claude 也当成背景噪音忽略。

解决方案：用 Hook 强制激活

核心思路：不要依赖"自主激活"，而是通过 UserPromptSubmit Hook 检测触发词，显式命令 Claude 使用技能。
```
# 温柔提醒（无效）
echo '💡 Check skills for relevant skills'

# 强制指令（有效）
echo "🔍 INSTRUCTION: Use Skill(research) to handle this"
```
区别在于：一个是"请考虑一下"，另一个是"闭嘴听令"!

更简洁的通用方案

后来作者发现了更简单的方式——一条通用 Hook 指令适用于所有技能：
```
"command": "echo 'INSTRUCTION: If prompt matches any skill keywords, use Skill(skill-name) to activate it.'"
```
无需维护关键词脚本，无需处理冲突。

实测结果

20 次测试，成功率约 50%——基本靠运气。但比维护复杂脚本省心多了。

结论：官方说 Skills 会自动激活，实际不会。用简单 Hook 碰碰运气，重要任务还是显式调用 Skill(skill-name) 最靠谱。

🔗 原文链接

#ClaudeCode #AI工具 #开发技巧 #Hooks #编程
Scott Spence

Claude Code Skills Don't Auto-Activate (a workaround) - Scott Spence

So I got Claude Skills to register with Claude Code (sorted the
YAML formatting issue),
and the skills are now showing up when I ask Claude ...
ClaudeCode AI工具开发技巧 Hooks 编程
10:08 · 2025年12月11日 · 周四

RSL 1.0：让 AI 公司为内容付费的开放许可标准正式发布

一项旨在让 AI 公司为其在网络上抓取的内容付费的开放许可标准现已正式成为规范。Really Simple Licensing 1.0（简称 RSL）允许出版商向访问其网站的网络爬虫规定许可和补偿规则。

RSL Collective 于今年 9 月宣布该标准，获得 Yahoo、Ziff Davis 和 O'Reilly Media 的支持。它是对 robots.txt 文件的扩展，后者规定了网络爬虫可以访问网站的哪些部分。虽然 RSL 本身无法阻止不付费的 AI 爬虫，但支持该标准的网络基础设施提供商可以——目前名单已包括 Cloudflare 和 Akamai（此前还有 Fastly）。

RSL 1.0 的一个重要功能是：允许出版商阻止其内容出现在 AI 驱动的搜索功能中（如 Google 的 AI Mode），同时保留在传统搜索结果中的存在。目前 Google 并未提供单独选项让网站退出 AI 功能而不影响传统搜索。

RSL Collective 联合创始人 Doug Leeds 和 Eckart Walther 表示："使用 RSL，Google 可以在用例级别尊重出版商的偏好，这意味着出版商可以完全保留在传统搜索中，同时选择退出 AI 训练、接地或生成式回答。"

🔗 阅读原文

 #RSL #AI许可 #内容付费 #网络爬虫 #出版商权益
The Verge

A pay-to-scrape AI licensing standard is now official

RSL 1.0 helps publishers outline how AI companies should pay for the content they scrape across the web.

RSL AI许可内容付费网络爬虫出版商权益
07:56 · 2025年12月10日 · 周三

Linux Foundation 宣布成立 Agentic AI 基金会 (AAIF)

Linux Foundation 正式宣布成立 Agentic AI Foundation (AAIF)，由 Anthropic、Block 和 OpenAI 联合发起，旨在为智能体 AI 的发展提供开放、透明、协作的治理平台。

核心项目贡献：

• MCP (Model Context Protocol) — Anthropic 贡献，已成为连接 AI 模型与工具、数据和应用的通用标准协议，发布一年内已有超过 10,000 个 MCP 服务器，被 Claude、Cursor、ChatGPT、Gemini、VS Code 等主流平台采用

• goose — Block 贡献，开源本地优先的 AI 智能体框架，结合语言模型、可扩展工具和 MCP 集成

• AGENTS.md — OpenAI 贡献，为 AI 编码智能体提供项目级指导的通用标准，已被超过 60,000 个开源项目采用

重量级成员阵容：

白金会员包括 AWS、Anthropic、Block、Bloomberg、Cloudflare、Google、Microsoft 和 OpenAI；黄金会员包括 IBM、JetBrains、Oracle、Salesforce、SAP 等；白银会员包括 Hugging Face、Uber、Zapier 等知名公司。

Linux Foundation 执行董事 Jim Zemlin 表示："AI 正从对话系统转向可协作的自主智能体，这是 AI 发展的新阶段。将这些项目纳入 AAIF 确保它们在开放治理下持续发展。"

下一届 MCP Dev Summit 将于 2026 年 4 月 2-3 日在纽约举行。

🔗 原文链接

 #AgenticAI #MCP #LinuxFoundation #开源 #AI基金会

AgenticAI MCP LinuxFoundation 开源 AI基金会
23:10 · 2025年12月9日 · 周二

Beyond Vibe Coding：AI 辅助开发完整指南

Google 工程负责人 Addy Osmani 发布了一份全面的 AI 辅助开发指南，帮助开发者从"氛围编程"迈向生产级工程实践。

核心观点

70% 问题：AI 能快速完成 70% 的功能原型，但剩余 30% 需要深厚的工程知识。修一个 bug 可能引入新问题，安全漏洞风险也不容忽视。

AI 开发光谱

• 自动补全：预测下一行代码
• 聊天机器人：自然语言问答
• 智能代理：自主处理多步骤任务

关键最佳实践

1️⃣ 先规划，后编码：让 AI 先提供架构方案，而非直接生成代码
2️⃣ 上下文为王：提供相关代码、设计文档、错误信息
3️⃣ 视觉辅助：截图胜过千言万语
4️⃣ 每次改动后测试：小步快跑，避免调试噩梦
5️⃣ 清晰描述意图：说明你想实现什么，而非仅描述表面症状

进阶技巧

• 提示工程：分解复杂任务、提供输入输出示例、善用角色扮演
• 上下文工程：像操作系统管理内存一样动态组装信息
• CLI 代理：Claude Code、Gemini CLI 等工具让终端成为强大的开发环境
• 多代理协作：不同专业代理并行处理任务

生产就绪原则

⚠️ 始终审查 AI 生成的代码——像审查初级开发者的代码一样
🔒 安全第一：输入验证、凭证管理、SQL 注入防护

未来的模型只会越来越强大。今天学会与 AI 协作，就是在为明天的工程实践做准备。

🔗 原文链接

 #AI辅助开发 #VibeCoding #提示工程 #软件工程 #AddyOsmani
beyond.addy.ie

Beyond Vibe Coding - A Guide To AI-Assisted Development

Transform your development workflow with AI. Learn from Google Chrome's Engineering Leader how to master AI-assisted development and build better software.

AI辅助开发 VibeCoding 提示工程软件工程 AddyOsmani