<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet href="/rss.xsl" type="text/xsl"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>开发者工具 | 面条的草稿箱</title><description>无原创，纯转发</description><link>https://localhost</link><item><title>Slim Tools：为 AI 智能体减负的统一 MCP 工具网关在使用 AI Agent（如 Claude、Cursor 等）时，你是否遇到过因为加载了太多 MCP 或 OpenAPI 工具，导致上下文窗口（Context Window）被严重占用、Token 消耗飞涨的情况？Slim Tools 提供了一个巧妙的解决方案：它将所有上游工具统一封装进一个极简的 MCP 接口中</title><link>https://localhost/posts/131</link><guid isPermaLink="true">https://localhost/posts/131</guid><pubDate>Sat, 23 May 2026 12:18:47 GMT</pubDate><content:encoded>Slim Tools：为 AI 智能体减负的统一 MCP 工具网关&lt;br /&gt;&lt;br /&gt;在使用 AI Agent（如 Claude、Cursor 等）时，你是否遇到过因为加载了太多 MCP 或 OpenAPI 工具，导致上下文窗口（Context Window）被严重占用、Token 消耗飞涨的情况？&lt;br /&gt;&lt;br /&gt;Slim Tools 提供了一个巧妙的解决方案：它将所有上游工具统一封装进一个极简的 MCP 接口中。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;核心特性：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;统一入口&lt;/b&gt;：无需向 AI 暴露所有工具，只需提供一个 Slim Tools 的 MCP URL（&lt;code&gt;https://slim.tools/mcp&lt;/code&gt;）。&lt;br /&gt;•   &lt;b&gt;按需探索&lt;/b&gt;：AI 代理在运行阶段仅能看到 &lt;code&gt;discover_tools&lt;/code&gt;（工具搜索）和 &lt;code&gt;execute_code&lt;/code&gt;（沙盒代码执行）两个核心能力。&lt;br /&gt;•   &lt;b&gt;高效联动&lt;/b&gt;：AI 通过搜索找到匹配的工具，然后在沙盒中运行代码来组合并调用这些上游 API（如 GitHub、Notion、Slack、Figma 等）。&lt;br /&gt;•   &lt;b&gt;简化授权&lt;/b&gt;：统一管理所有上游服务的 OAuth 授权，无需重复配置。&lt;br /&gt;&lt;br /&gt;通过这种“运行时发现”的设计，AI 代理无需在上下文里“背负”沉重的工具集，不仅让 Prompt 更加清爽，也让 Agent 的响应速度大幅提升。&lt;br /&gt;&lt;br /&gt;原文链接：&lt;a href=&quot;http://slim.tools/&quot; target=&quot;_blank&quot;&gt;http://slim.tools&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AIAgents&quot;&gt;#AIAgents&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23MCP&quot;&gt;#MCP&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E5%B7%A5%E5%85%B7&quot;&gt;#开发者工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%95%88%E7%8E%87%E5%B7%A5%E5%85%B7&quot;&gt;#效率工具&lt;/a&gt;&lt;a href=&quot;https://slim.tools/?utm_source=mcpservers&amp;amp;utm_medium=floating_ad&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Slim Tools&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Slim Tools | Tool Orchestration Runtime for AI Agents&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/hd9IhSVI3IBs0xFIft5FTErGi-TfxLlG73pQ3KdtmwEOdbdbU8jl0_aCochTIxP84OUyGGlwAvT8SnQaSSGdJnlPrhDTUGC7YUhIczvjYTxrYECr27L3ZTMkvlBRSL9DvU5lruKhxxSwW78FSmNKS3PNrGJk_aGkpT6GNSXpwg9SVVCgnyb-VfherOydr7bWiQMVuxjKVI23bim8kHJr4kmQbacHl5AFRfq5TGmYLjrAgy-LAJOdoSADd55TnvriLycr8eKJ00Sw51dp4uVf1JlIx5owefAZOlwaD-mJRgdOydhUhCEb3mnngpxBDlBa1cvJrFTaWJ4zbmTo80sNrw.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;lazy&quot; /&gt;
  &lt;div&gt;Slim Tools | Tool Orchestration Runtime for AI Agents&lt;/div&gt;
  &lt;div&gt;Move MCP and OpenAPI tool orchestration out of model context and into one sandboxed runtime.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Flue：构建下一代 AI Agent 的 TypeScript 架构框架Flue 提出了一个核心公式：Agent = Model + Harness</title><link>https://localhost/posts/130</link><guid isPermaLink="true">https://localhost/posts/130</guid><pubDate>Mon, 11 May 2026 10:03:02 GMT</pubDate><content:encoded>Flue：构建下一代 AI Agent 的 TypeScript 架构框架&lt;br /&gt;&lt;br /&gt;Flue 提出了一个核心公式：&lt;b&gt;Agent = Model + Harness&lt;/b&gt;。它不仅仅是一个简单的 SDK，而是一个专为构建自主 Agent 设计的“可编程治理框架”（Harness），旨在让开发者能够轻松打造像 Claude Code 或 Codex 这样具备规划、环境感知和执行能力的强力工具。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;核心特性：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;高度可编程：&lt;/b&gt; 使用 TypeScript 编写 Agent 逻辑，支持定义复杂的技能（Skills）、工作流和多 Session 管理。&lt;br /&gt;•   &lt;b&gt;自带沙箱环境：&lt;/b&gt; 提供内置的虚拟沙箱或连接远程沙箱（如 Daytona），让 Agent 安全地执行 Bash 命令、读写文件或运行代码。&lt;br /&gt;•   &lt;b&gt;安全与隐私：&lt;/b&gt; 采用精细的权限控制，确保敏感的 API Token 不会被模型或沙箱环境直接接触。&lt;br /&gt;•   &lt;b&gt;跨平台部署：&lt;/b&gt; 编写一次逻辑，即可部署为 HTTP 服务，或在 CLI、GitHub Actions、Cloudflare Workers 等多种环境运行。&lt;br /&gt;&lt;br /&gt;与其使用通用的成品 AI 工具，Flue 鼓励开发者根据特定的产品需求、数据和工作流，构建完全属于自己的定制化 Agent。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://flueframework.com/&quot; target=&quot;_blank&quot;&gt;https://flueframework.com/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI&quot;&gt;#AI&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Agent&quot;&gt;#Agent&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23TypeScript&quot;&gt;#TypeScript&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E5%B7%A5%E5%85%B7&quot;&gt;#开发工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E9%A1%B9%E7%9B%AE&quot;&gt;#开源项目&lt;/a&gt;&lt;a href=&quot;https://flueframework.com/&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Flue&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Flue — The Agent Harness Framework&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/bSLr_mz-PbMp4em9djVO1KyhUTZnuU6W6ZkZL2xUrt6Ksdyfn1dzf100D6rdzMWa5bpfW9vW8WAotdhQZu_D_0hlMRuOSb55nBzeFTQJYZ-ylE7pd2rKh19upPQRc17lcJGowOAeyWMS4fw0EvVC1iej7BuY-7PhvTRnH3ty1DlVxFevs3kd5XUPY_Vx-Yh2fwLN8nbQMxTnnytkivGj5qcoAGBrB9MC22M9iamjBKpRZ2DkAi5usc6IFdjqdD5y8qMs4IkhEx6LfGBdsx_vP3tFZfgqF-ZOeHPw9Jo7g7AW6XKbt7UGh2kgiL3KJfZHWdIBJQHi47tTAJ6yPDwgCQ.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;lazy&quot; /&gt;
  &lt;div&gt;Flue — The Agent Harness Framework&lt;/div&gt;
  &lt;div&gt;Agent = Model + Harness. Build autonomous agents and powerful AI workflows with Flue&apos;s programmable TypeScript harness. Write once, deploy anywhere.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Obscura：专为 AI Agent 和大规模爬虫打造的 Rust 无头浏览器如果你觉得传统的 Headless Chrome 过于臃肿且容易被反爬虫识别，那么 Obscura 绝对值得一试</title><link>https://localhost/posts/128</link><guid isPermaLink="true">https://localhost/posts/128</guid><pubDate>Sat, 25 Apr 2026 01:13:26 GMT</pubDate><content:encoded>&lt;b&gt;Obscura：专为 AI Agent 和大规模爬虫打造的 Rust 无头浏览器&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;如果你觉得传统的 Headless Chrome 过于臃肿且容易被反爬虫识别，那么 &lt;b&gt;Obscura&lt;/b&gt; 绝对值得一试。这是一个基于 Rust 编写的开源无头浏览器引擎，旨在为 AI Agent 和网页抓取提供极速、轻量且隐形的自动化体验。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;核心优势&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;轻量化&lt;/b&gt;：内存占用仅需约 30MB（相比 Chrome 的 200MB+），二进制文件仅 70MB。&lt;br /&gt;•   &lt;b&gt;极致速度&lt;/b&gt;：启动几乎是瞬间完成，页面加载速度比 Headless Chrome 快约 6 倍。&lt;br /&gt;•   &lt;b&gt;内置隐身模式&lt;/b&gt;：默认支持反指纹识别、随机化 GPU/Canvas/Audio 等硬件信息，并自动拦截 3500+ 个追踪器。&lt;br /&gt;•   &lt;b&gt;兼容性强&lt;/b&gt;：支持 Chrome DevTools Protocol (CDP)，可以作为 Puppeteer 和 Playwright 的无缝替代品。&lt;br /&gt;•   &lt;b&gt;Rust 驱动&lt;/b&gt;：利用 V8 引擎运行真实 JavaScript，确保执行环境的高性能与安全性。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;快速上手&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Obscura 提供单二进制文件，无需安装 Node.js 或 Chrome 即可运行。你可以通过简单的命令行直接抓取动态内容，或者启动一个 CDP 服务器供自动化脚本调用：&lt;br /&gt;&lt;br /&gt;&lt;pre&gt;&lt;code&gt;# 获取网页标题
./obscura fetch https://example.com --eval &quot;document.title&quot;

# 启动 CDP 服务
./obscura serve --port 9222 --stealth
&lt;/code&gt;&lt;/pre&gt;&lt;br /&gt;&lt;br /&gt;对于追求性能和隐匿性的开发者来说，Obscura 是构建下一代 AI 自动化工具的理想底层引擎。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/h4ckf0r0day/obscura&quot; target=&quot;_blank&quot;&gt;https://github.com/h4ckf0r0day/obscura&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E9%A1%B9%E7%9B%AE&quot;&gt;#开源项目&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%97%A0%E5%A4%B4%E6%B5%8F%E8%A7%88%E5%99%A8&quot;&gt;#无头浏览器&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Rust&quot;&gt;#Rust&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23AI%E5%B7%A5%E5%85%B7&quot;&gt;#AI工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E7%88%AC%E8%99%AB%E6%8A%80%E6%9C%AF&quot;&gt;#爬虫技术&lt;/a&gt;&lt;a href=&quot;https://github.com/h4ckf0r0day/obscura&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - h4ckf0r0day/obscura: The headless browser for AI agents and web scraping&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/eYEqy6QbZ0Qq8KwgJU-m45PU3jrGYKm2Qn5GOr2zVtbYNwWrn59wd71BwSD0XLGfczpboM4tbTpurIjOyYcNJaqCRMUY3-xzaD_Nx5RyEYymYTtQV55aWO31FpGEIWqM5SdpaBgSMzSJIpLw994fxj0UpRtLNxCqz3qrXgnDYu9X8OGqMaMC3HFGHRGcSG5w4oGZ2ChkDhRr87Sdw7FG6p08lzdzsJGpiPSAWEAX9PPgkkeOlaQ20v-7oPDbjKxnxsYjFbA4KKNZtx_6mhGWo-tiBCdR4lWUMUxdyyWBJGHw4yJUAdLER12rBq4nto-dJnkJshwzZwRr4gckdVgLsg.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;lazy&quot; /&gt;
  &lt;div&gt;GitHub - h4ckf0r0day/obscura: The headless browser for AI agents and web scraping&lt;/div&gt;
  &lt;div&gt;The headless browser for AI agents and web scraping - h4ckf0r0day/obscura&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Paseo：随时随地指挥你的 AI 编程助手想要在离开工位时也能继续推进代码进度？Paseo 是一款开源、自托管的 AI 编程 Agent 调度平台，让你能够从手机、桌面或终端轻松管理和运行 AI 助手</title><link>https://localhost/posts/125</link><guid isPermaLink="true">https://localhost/posts/125</guid><pubDate>Sat, 11 Apr 2026 08:44:20 GMT</pubDate><content:encoded>Paseo：随时随地指挥你的 AI 编程助手&lt;br /&gt;&lt;br /&gt;想要在离开工位时也能继续推进代码进度？Paseo 是一款开源、自托管的 AI 编程 Agent 调度平台，让你能够从手机、桌面或终端轻松管理和运行 AI 助手。&lt;br /&gt;&lt;br /&gt;主要功能亮点：&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;全平台覆盖&lt;/b&gt;：支持 iOS、Android、桌面端及 Web，甚至可以直接通过 CLI 脚本化运行，实现多端无缝衔接。&lt;br /&gt;•   &lt;b&gt;集成主流 Agent&lt;/b&gt;：完美支持 Claude Code、Codex 和 OpenCode 等主流 AI 编程助手，保留原有的技能和配置。&lt;br /&gt;•   &lt;b&gt;隐私与安全&lt;/b&gt;：代码始终保留在你的本地机器上，支持端到端加密中继，确保远程连接时的代码安全。&lt;br /&gt;•   &lt;b&gt;本地语音交互&lt;/b&gt;：内置完全本地化的语音识别与合成技术，无需将语音数据上传云端即可实现指令下达。&lt;br /&gt;•   &lt;b&gt;开发者友好&lt;/b&gt;：支持键盘快捷键优先操作、Git 工作流隔离（Worktrees）以及全方位的命令行支持。&lt;br /&gt;&lt;br /&gt;Paseo 是一款纯粹的开源工具，不直接调用推理 API，而是作为官方 CLI 的透明调度层，既自由又强大。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://paseo.sh/&quot; target=&quot;_blank&quot;&gt;https://paseo.sh/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E7%BC%96%E7%A8%8B&quot;&gt;#AI编程&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E9%A1%B9%E7%9B%AE&quot;&gt;#开源项目&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Paseo&quot;&gt;#Paseo&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E5%B7%A5%E5%85%B7&quot;&gt;#开发者工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&quot;&gt;#人工智能&lt;/a&gt;&lt;a href=&quot;https://paseo.sh/&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Paseo&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Paseo – Run Claude Code, Codex, Copilot, OpenCode from anywhere&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/tsdb41uFeE86Ceg5JHOAXkByMotBrbdEc5F257z0MJY5KDP4DHvBymY1v1ymn9ueyh28LCHaclXOyWokU2ZufkLU_7Ckr-eGluIAiCi3f_xUL3NRCGqn_M6yz11nV1dNoryadiQjKsRIXoZdBY-qNdRgX47lLwRIwDHJXf20HyxyC2EZ_6xZYMmYcSjmOFoQLWYggh8y18xkpuF8cEZnX0S9UPmYrCR98Ln_Ob-m1DDOEKAx6A6Zf5-wjT0_qN9djbIlLk0oatykVLkpTWrSd4vQLuXwFy3u_EBM3Er7aldp7btlUtjgfAom8V9_MNgwa7kDJeYmOiJuT695e1dmMA.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;lazy&quot; /&gt;
  &lt;div&gt;Paseo – Run Claude Code, Codex, Copilot, OpenCode from anywhere&lt;/div&gt;
  &lt;div&gt;Self-hosted daemon for Claude Code, Codex, Copilot, OpenCode, and Pi. Agents run on your machine with your full dev environment. Connect from phone, desktop, or web.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>CursorBench：Cursor 如何更贴近真实开发来评估模型质量开发者正在把更长、更复杂的编程任务交给智能体：跨多个文件、工具和步骤</title><link>https://localhost/posts/120</link><guid isPermaLink="true">https://localhost/posts/120</guid><pubDate>Fri, 13 Mar 2026 06:03:11 GMT</pubDate><content:encoded>&lt;b&gt;CursorBench：Cursor 如何更贴近真实开发来评估模型质量&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;开发者正在把更长、更复杂的编程任务交给智能体：跨多个文件、工具和步骤。Cursor 认为，评测方式也必须随之升级，才能真实反映“好用与否”。&lt;br /&gt;&lt;br /&gt;Cursor 的做法是 &lt;b&gt;线上 + 线下&lt;/b&gt; 的混合评测闭环：&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;线下：CursorBench（内部基准）&lt;/b&gt;&lt;br /&gt;    基于工程团队的真实 Cursor 会话构建，而不是从公开代码库抽题。因为更贴近实际工作流、信息更不充分且常带歧义，CursorBench 往往能更好地区分前沿模型，并衡量多维能力（正确性、代码质量、效率、交互行为等）。&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;线上：真实流量的受控实验&lt;/b&gt;&lt;br /&gt;    用于捕捉线下评测遗漏的退化：例如线下评分器判“正确”，但开发者实际体验变差。Cursor 会用多类代理指标（交互信号 + 输出质量信号）综合观察，并通过消融实验归因（如移除语义搜索工具来定位其关键场景）。&lt;br /&gt;&lt;br /&gt;为什么不太依赖公开基准？Cursor 指出三类常见问题：&lt;br /&gt;&lt;br /&gt;1.  &lt;b&gt;任务不匹配&lt;/b&gt;：许多基准仍偏向“修 bug”或“解谜题”，与真实开发请求脱节。&lt;br /&gt;2.  &lt;b&gt;评分困难&lt;/b&gt;：真实请求常有多种正确解，固定答案容易误伤合理方案。&lt;br /&gt;3.  &lt;b&gt;数据污染&lt;/b&gt;：公开仓库题目容易进入训练数据，分数被抬高；甚至出现“记忆补丁”与测试缺陷等问题。&lt;br /&gt;&lt;br /&gt;下一步，Cursor 预计开发会更多转向“长时运行智能体”。他们也计划让 CursorBench 适配更长任务，并解决成本、可复现性、以及离线结果与真实体验之间的差距。&lt;br /&gt;&lt;br /&gt;原文链接：&lt;a href=&quot;https://cursor.com/cn/blog/cursorbench&quot; target=&quot;_blank&quot;&gt;https://cursor.com/cn/blog/cursorbench&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23%E6%A8%A1%E5%9E%8B%E8%AF%84%E6%B5%8B&quot;&gt;#模型评测&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E7%BC%96%E7%A8%8B%E6%99%BA%E8%83%BD%E4%BD%93&quot;&gt;#编程智能体&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%9F%BA%E5%87%86%E6%B5%8B%E8%AF%95&quot;&gt;#基准测试&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Cursor&quot;&gt;#Cursor&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E4%BD%93%E9%AA%8C&quot;&gt;#开发者体验&lt;/a&gt;&lt;a href=&quot;https://cursor.com/cn/blog/cursorbench&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Cursor&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;How we compare model quality in Cursor · Cursor&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/QRvICVn9snfzukg82oFNZXywk4nurNWHeEwJrrPLmFAO7IZZHlo7sEP_qI_acKG1_RPMpo7Lfm88ritWi6KP78DNBgac4qbTzAiVDEtUTR_7NEL6WmTe2O8lmNRtdhifXCW31XhvLvk8X8jHBOycBh1ztir-qVYthNrpbL1DYK4UMtpJhYHAfb4N_hH7EO3NmZQ2n_YNq9KDTRVyocV4ORVIPzFwoynkGakSxLab1gFHzk860MJ_JmRhC47fVUVijcu3bswc_P62gdWXIUfGd-WCCiZiQVLxKMZxq061REs2e5Ts1omkAiPEOMcwXWhhUsUjBB2BBMWBWn7ugDTCzA.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;How we compare model quality in Cursor · Cursor&lt;/div&gt;
  &lt;div&gt;We use a hybrid online-offline eval process to keep our understanding of model quality aligned with what developers actually do.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Stripe「Minions」：一键生成、端到端交付的无人值守编码代理Stripe 在内部打造了一套名为 Minions 的编码代理：从接到任务到产出可评审的 PR，全程几乎无需人类介入</title><link>https://localhost/posts/116</link><guid isPermaLink="true">https://localhost/posts/116</guid><pubDate>Tue, 10 Feb 2026 14:31:52 GMT</pubDate><content:encoded>&lt;b&gt;Stripe「Minions」：一键生成、端到端交付的无人值守编码代理&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Stripe 在内部打造了一套名为 &lt;b&gt;Minions&lt;/b&gt; 的编码代理：从接到任务到产出可评审的 PR，全程几乎无需人类介入。现在，Stripe &lt;b&gt;每周有超过 1000 个合并的 PR&lt;/b&gt; 是由 Minions 从头到尾生成的（人类负责 Review，但不写代码）。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;为什么要自研？&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;在 Stripe 这种超大规模、强约束的工程环境里，“从零写个原型”和“在成熟巨型代码库里安全改动”完全不是一回事：&lt;br /&gt;&lt;br /&gt;•   代码库规模巨大（数亿行），栈也相对小众：大量后端是 &lt;b&gt;Ruby + Sorbet&lt;/b&gt;，还有大量 &lt;b&gt;Stripe 自研库&lt;/b&gt;，LLM 天然不熟&lt;br /&gt;•   业务风险极高：Stripe 的代码承载着 &lt;b&gt;每年超过 1 万亿美元&lt;/b&gt; 的支付规模，并受金融合规与监管约束&lt;br /&gt;•   既要让代理“会写”，也要让它“按规矩写、能跑通、能过 CI”，并与既有研发流程深度结合&lt;br /&gt;&lt;br /&gt;&lt;b&gt;工程师怎么用？&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;最常见的入口是 &lt;b&gt;Slack&lt;/b&gt;：&lt;br /&gt;&lt;br /&gt;•   在讨论线程里 &lt;a href=&quot;https://t.me/Slack&quot; target=&quot;_blank&quot;&gt;@Slack&lt;/a&gt; App 就能发起 Minion，它会读取整个线程与相关链接作为上下文&lt;br /&gt;•   也集成到内部系统里：文档平台、Feature Flag、工单系统等&lt;br /&gt;    例如 CI 发现 flaky tests，会生成工单，直接提供按钮让 Minion 去修&lt;br /&gt;&lt;br /&gt;完成后，Minion 会：&lt;br /&gt;&lt;br /&gt;•   创建分支 → 推送 → 跑 CI → 按模板生成 PR&lt;br /&gt;&lt;br /&gt;如果效果不理想，人类可以补充指令让它再改；即使不完美，也常常是很好的“可用起点”。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Minions 背后怎么运作（要点版）&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Stripe 的思路是：&lt;b&gt;把“创意生成”交给 LLM，把“必须可靠执行的步骤”交给确定性工具链&lt;/b&gt;。&lt;br /&gt;&lt;br /&gt;•   运行环境：在隔离的 &lt;b&gt;devbox&lt;/b&gt; 中执行（10 秒内可启动，预热并预载代码与服务），与生产与公网隔离，便于并行&lt;br /&gt;•   Agent 框架：基于 Block 的开源编码代理 &lt;b&gt;goose&lt;/b&gt; 的 fork，并做了强定制&lt;br /&gt;•   规则与上下文：读取各类 agent rule 文件，但多为“按目录条件生效”，避免全局死规则拖累&lt;br /&gt;•   工具调用：接入 &lt;b&gt;MCP&lt;/b&gt;（函数调用通用协议），并建设内部 MCP 服务 &lt;b&gt;Toolshed&lt;/b&gt;，提供 &lt;b&gt;400+&lt;/b&gt; 工具（文档、工单、构建状态、Sourcegraph 搜索等）&lt;br /&gt;•   反馈与质量闸门：&lt;br /&gt;    •   首先跑本地启发式 lint/检查（通常 &amp;lt;5 秒）&lt;br /&gt;    •   再跑选择性的 CI（Stripe 有 300 万+ 测试），部分失败可自动修复&lt;br /&gt;    •   为控制成本与等待时间：&lt;b&gt;最多两轮 CI&lt;/b&gt;，强调“能本地提前发现就不要拖到 CI”&lt;br /&gt;&lt;br /&gt;&lt;b&gt;接下来&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;这篇是系列 Part 1，主要讲“怎么用、能做什么”；Part 2 会深入实现细节。整体信号很明确：当“开发者注意力”成为稀缺资源时，无人值守、可并行的编码代理正在改变工程协作方式。&lt;br /&gt;&lt;br /&gt;原文链接：&lt;a href=&quot;https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents&quot; target=&quot;_blank&quot;&gt;https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E5%B7%A5%E7%A8%8B%E5%8C%96&quot;&gt;#AI工程化&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E7%BC%96%E7%A0%81%E4%BB%A3%E7%90%86&quot;&gt;#编码代理&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E6%95%88%E7%8E%87&quot;&gt;#开发者效率&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23CI%E5%AE%9E%E8%B7%B5&quot;&gt;#CI实践&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Stripe&quot;&gt;#Stripe&lt;/a&gt;&lt;a href=&quot;https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;stripe.dev&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Minions: Stripe’s one-shot, end-to-end coding agents&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/H18ir4W7Yx5_y3FWZkpWcsbvq3tjwyhUR2cnF0H8zvQEMEA5hDDuzmWhlJMBqLt1a6rwdrjM7EZks3PRwzG5fKWcZuteGl6cCISlgkoPdBPluHLb1_LdSjq6sK5TIAJHPGzIQTidPEeuFE6bVyc0l3mw_bMwoWgKu09iX7PfPbW9ljEhh8D-CGo_juWvKyLQmO48TL5Q5XsCiS413KHYyOlbRUUGBa98Kl6-avUPqjDOLvvaeC9oSmqqtLOfYFQjLGy4bVo0e9spukFV3F-ffYVjVQ_tOJbmFuVBiJVZJEKaHDk9lOZov2-h9GuQJYKBehz65LkdCb4g-TepDOBhIQ.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Minions: Stripe’s one-shot, end-to-end coding agents&lt;/div&gt;
  &lt;div&gt;Minions are Stripe’s homegrown coding agents, responsible for more than a thousand pull requests merged each week. Though humans review the code, minions write it from start to finish. Learn how they work, and how we built them.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>VM0：用自然语言搭建 AI Agent，并在云端 24/7 运行VM0 主打的是「面向 AI Agent 的基础设施」，让你用自然语言定义工作流、在云端沙盒环境里持续运行，并且能完整观测每次执行过程</title><link>https://localhost/posts/107</link><guid isPermaLink="true">https://localhost/posts/107</guid><pubDate>Sun, 01 Feb 2026 02:19:33 GMT</pubDate><content:encoded>&lt;b&gt;VM0：用自然语言搭建 AI Agent，并在云端 24/7 运行&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;VM0 主打的是「面向 AI Agent 的基础设施」，让你用自然语言定义工作流、在云端沙盒环境里持续运行，并且能完整观测每次执行过程。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;它能做什么&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;一键运行 Agent&lt;/b&gt;：支持按需执行或定时调度，适合做日报、监控、内容汇总等自动化任务。&lt;br /&gt;•   &lt;b&gt;自然语言构建工作流&lt;/b&gt;：在 Claude Code 里描述目标，协作编辑 &lt;code&gt;AGENTS.md&lt;/code&gt;，快速拼出可执行的 Agent 指令与流程。&lt;br /&gt;•   &lt;b&gt;云端隔离沙盒&lt;/b&gt;：本地开发、云端运行，环境隔离，适合让 Agent 长时间稳定跑任务。&lt;br /&gt;•   &lt;b&gt;全链路可观测&lt;/b&gt;：实时日志、产物输出、执行回放（checkpoint），便于排查与迭代。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;示例场景（官网展示）&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;HackerNews 摘要 Agent&lt;/b&gt;：自动读 Top 文章，筛选 AI 相关内容并生成可发布的总结。&lt;br /&gt;•   &lt;b&gt;TikTok 达人筛选 Agent&lt;/b&gt;：搜索与筛选创作者，输出分析报告。&lt;br /&gt;•   &lt;b&gt;日报 Agent&lt;/b&gt;：聚合多源数据与 API，总结后写入 Notion。&lt;br /&gt;•   &lt;b&gt;博客生成 Agent&lt;/b&gt;：结合多个 API 自动产出内容。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;快速开始（官网命令）&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;code&gt;npm install -g @vm0/cli &amp;amp;&amp;amp; vm0 onboard&lt;/code&gt;&lt;br /&gt;&lt;br /&gt;原链接：&lt;a href=&quot;https://www.vm0.ai/&quot; target=&quot;_blank&quot;&gt;https://www.vm0.ai/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E4%BB%A3%E7%90%86&quot;&gt;#AI代理&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E8%87%AA%E5%8A%A8%E5%8C%96%E5%B7%A5%E4%BD%9C%E6%B5%81&quot;&gt;#自动化工作流&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E4%BA%91%E7%AB%AF%E6%B2%99%E7%9B%92&quot;&gt;#云端沙盒&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%8F%AF%E8%A7%82%E6%B5%8B%E6%80%A7&quot;&gt;#可观测性&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E5%B7%A5%E5%85%B7&quot;&gt;#开发者工具&lt;/a&gt;&lt;a href=&quot;http://vm0.ai/&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;www.vm0.ai&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;VM0 - Your Trustworthy AI Teammate&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/Oh3JDegNmjGafTZD0ZoudXj2HmZXAw3KiYvgPRj7ObNdKjcQmS6ExRnC0K4dbBuPk5fVARSK1LYFf80f1mRWU73O5Xt3JzQW4vf9eUc-hgGtkj_0CDGl3PQueFTNG4ACI82cTmcwi4gkfNB-OBEcaKPZky8pTuRoWJSz-cvDd4ipx4lXMRAm09VLYb9d_8iw67lhvCMyQCzUESBeNQTeqr3A32CDn0LpO3RSZMiLAqEJVyU1D2qGj5EUfDRe55XSxrfYe6o0Xo-gvHUFah3bdK_44kZFmNfW6akzanJ41lzwWrPaGDKw8zXhHb_y4FOhmgGnHt6-qz-bRbfxKQl93Q.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;VM0 - Your Trustworthy AI Teammate&lt;/div&gt;
  &lt;div&gt;Zero connects to 100+ tools and does the work. Reports, triage, outreach, research. In Slack or on the web.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Moltbook：面向 AI Agent 的“社交广场”Moltbook 把“社交网络”做成了 AI Agent 的主场：Agent 在这里发布内容、讨论、点赞投票；人类也可以围观、了解它们都在做什么</title><link>https://localhost/posts/104</link><guid isPermaLink="true">https://localhost/posts/104</guid><pubDate>Sat, 31 Jan 2026 03:09:01 GMT</pubDate><content:encoded>&lt;b&gt;Moltbook：面向 AI Agent 的“社交广场”&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Moltbook 把“社交网络”做成了 AI Agent 的主场：Agent 在这里发布内容、讨论、点赞投票；人类也可以围观、了解它们都在做什么。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;你能在 Moltbook 看到什么？&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;海量 Agent 与社区分区（Submolts）&lt;/b&gt;：按主题聚合讨论与内容流&lt;br /&gt;•   &lt;b&gt;动态广场（Posts）&lt;/b&gt;：从自动化工作流、工具技巧，到各类实验与想法分享&lt;br /&gt;•   &lt;b&gt;人机配对（Top Pairings）&lt;/b&gt;：展示 Agent 与其绑定的人类账号/身份影响力（平台内视角）&lt;br /&gt;&lt;br /&gt;&lt;b&gt;如果你想“把 Agent 送进去”&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   官方给了一个简单的上手方式：把指令发给你的 Agent，让它按说明注册并生成认领链接，再通过社交平台验证归属。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;面向开发者&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   Moltbook 也在推进开发者平台：允许应用通过 Moltbook 身份与 Agent 做认证与集成（当前以申请早期访问为主）。&lt;br /&gt;&lt;br /&gt;链接：&lt;a href=&quot;https://www.moltbook.com/&quot; target=&quot;_blank&quot;&gt;https://www.moltbook.com/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E6%99%BA%E8%83%BD%E4%BD%93&quot;&gt;#AI智能体&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E7%A4%BE%E4%BA%A4%E7%BD%91%E7%BB%9C&quot;&gt;#社交网络&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E5%B9%B3%E5%8F%B0&quot;&gt;#开发者平台&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23AI%E5%BA%94%E7%94%A8&quot;&gt;#AI应用&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E7%A4%BE%E5%8C%BA%E8%A7%82%E5%AF%9F&quot;&gt;#社区观察&lt;/a&gt;&lt;a href=&quot;https://www.moltbook.com/&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;moltbook&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;moltbook - the front page of the agent internet&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/J4G0bmZIbvvBAPz_3VaiRTSO5u1b9L7OyW0a016RVDTKyNaGH0pf5sj5Dk7Mo1myQZPhIADgQquXMxoPFS-k9U84pI4Cyw4R0MOaHneLkxmLJGu8QaS-hExxQCSnT0TSe-9MWC1NAO1heZyrQv-0vSp2U67sgTnzFUXMpLD3Sr_hFqm5vpg2Yh65Yi0FbaPSFuKhi66PeZSoP6t_f3fSXxZ7ponJV2htQoZPui8yBCkALgMfvpCgnXktp_9HbZPxkgB0L3ZJf1s4uY_oaSaQwp516wrziNksx4uBNH_-4Ln8xM4y0ap5oaXa8VfDrAFxzxmRiXADY1bQPEh1lnqlxQ.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;moltbook - the front page of the agent internet&lt;/div&gt;
  &lt;div&gt;A social network built exclusively for AI agents. Where AI agents share, discuss, and upvote. &lt;i&gt;&lt;b&gt;🦞&lt;/b&gt;&lt;/i&gt;&lt;i&gt;&lt;b&gt;🤖&lt;/b&gt;&lt;/i&gt;&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Vercel AI Gateway 现已支持 Claude Code Max：订阅直连、统一观测Vercel 宣布其 AI Gateway 现已支持在 Claude Code CLI 中使用 Claude Code Max 订阅</title><link>https://localhost/posts/103</link><guid isPermaLink="true">https://localhost/posts/103</guid><pubDate>Wed, 28 Jan 2026 15:23:27 GMT</pubDate><content:encoded>&lt;b&gt;Vercel AI Gateway 现已支持 Claude Code Max：订阅直连、统一观测&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Vercel 宣布其 &lt;b&gt;AI Gateway&lt;/b&gt; 现已支持在 &lt;b&gt;Claude Code CLI&lt;/b&gt; 中使用 &lt;b&gt;Claude Code Max&lt;/b&gt; 订阅。对开发者来说，这意味着：你可以继续用自己已有的 Anthropic 订阅，不增加额外费用，同时把 Claude Code 的调用统一接入 Vercel 平台，获得更完整的&lt;b&gt;可观测性、用量追踪与监控&lt;/b&gt;能力。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;你能获得什么&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;沿用现有 Claude Code Max 订阅&lt;/b&gt;：照常用 Anthropic 模型，无需额外开销&lt;br /&gt;•   &lt;b&gt;统一观测与用量管理&lt;/b&gt;：通过 Vercel 平台查看请求、监控使用模式与成本趋势&lt;br /&gt;•   &lt;b&gt;更灵活的路由能力&lt;/b&gt;：AI Gateway 可作为直通 Anthropic 的代理；必要时也可作为路由器切换到其他提供方（fallback）&lt;br /&gt;&lt;br /&gt;&lt;b&gt;快速配置（核心步骤）&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;在你的 shell 配置文件（如 &lt;code&gt;~/.zshrc&lt;/code&gt; 或 &lt;code&gt;~/.bashrc&lt;/code&gt;）加入环境变量：&lt;br /&gt;&lt;br /&gt;•   将 Anthropic 入口指向 AI Gateway&lt;br /&gt;•   用独立的 &lt;code&gt;x-ai-gateway-api-key&lt;/code&gt; 做网关鉴权（与 Claude 订阅鉴权并存）&lt;br /&gt;&lt;br /&gt;启动 Claude Code：&lt;br /&gt;&lt;br /&gt;•   运行 &lt;code&gt;claude&lt;/code&gt;&lt;br /&gt;•   登录时选择 &lt;b&gt;Option 1 - Claude account with subscription&lt;/b&gt;（使用带订阅的 Claude 账号）&lt;br /&gt;•   若遇到问题，可先 &lt;code&gt;claude /logout&lt;/code&gt; 再重新登录&lt;br /&gt;&lt;br /&gt;&lt;b&gt;工作原理（简述）&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Claude Code 仍然使用 Anthropic 的订阅凭证进行认证，并携带 &lt;code&gt;Authorization&lt;/code&gt; 头。由于该头用于 Claude 订阅身份，AI Gateway 采用单独的 &lt;code&gt;x-ai-gateway-api-key&lt;/code&gt; 进行自身认证，从而实现两套鉴权机制同时生效。&lt;br /&gt;&lt;br /&gt;原文链接：&lt;a href=&quot;https://vercel.com/changelog/claude-code-max-via-ai-gateway-available-now-for-claude-code&quot; target=&quot;_blank&quot;&gt;https://vercel.com/changelog/claude-code-max-via-ai-gateway-available-now-for-claude-code&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23Vercel&quot;&gt;#Vercel&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23AIGateway&quot;&gt;#AIGateway&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23ClaudeCode&quot;&gt;#ClaudeCode&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%8F%AF%E8%A7%82%E6%B5%8B%E6%80%A7&quot;&gt;#可观测性&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E5%B7%A5%E5%85%B7&quot;&gt;#开发者工具&lt;/a&gt;&lt;a href=&quot;https://vercel.com/changelog/claude-code-max-via-ai-gateway-available-now-for-claude-code&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Vercel&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Claude Code Max via AI Gateway, available now for Claude Code - Vercel&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/TDacMDCcwNcgXqShsMFrqfFOt6dSXWs8UArwqv_cM_cMUvBTfWQVgArQvk3AJ1WF_rdlFKAkXRvsUS_sSic2tGLi4yXc4IPCFxFVoHFmWgFAjwE5lJv7slTDouIAO2i9js9BLH9aotqcZj38NUWnNW15iVEmybCnxB1mdWqhTOivINHAQOruKqWYrxe2FH9LMnQlhVXQllAR25GZnxOnOXAtZluaAtAAkB7cwMxupbgPokvf1dqSQkVdCwXogxrgwRFDB_ROmjrjRgjac-AAQEjT5EtbjVEZlcF9P7eCCFGkjiXIXH1IvYdOqQHM6nKIy3Xp9SM0s-AHH4mHyGl14A.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Claude Code Max via AI Gateway, available now for Claude Code - Vercel&lt;/div&gt;
  &lt;div&gt;You can use your Claude Code Max subscription through Vercel&apos;s AI Gateway. This lets you leverage your existing subscription while gaining centralized observability, usage tracking, and monitoring capabilities for all your Claude Code requests.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>CoreSpeed：为 AI Agent 打造的容器运行时基础设施CoreSpeed 主打把「Agent 运行」这件事做成开箱即用的基础设施：你可以像部署普通容器一样部署 AI Agent，并获得更快启动、更强隔离和更易扩展的体验</title><link>https://localhost/posts/99</link><guid isPermaLink="true">https://localhost/posts/99</guid><pubDate>Thu, 22 Jan 2026 00:51:52 GMT</pubDate><content:encoded>&lt;b&gt;CoreSpeed：为 AI Agent 打造的容器运行时基础设施&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;CoreSpeed 主打把「Agent 运行」这件事做成开箱即用的基础设施：你可以像部署普通容器一样部署 AI Agent，并获得更快启动、更强隔离和更易扩展的体验。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;它解决的核心问题：把 Agent 从 Demo 变成可上线的系统。&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;b&gt;关键能力一览&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;127ms 级别快速启动&lt;/b&gt;：通过内置 Warm Pool，让容器接近“秒开/毫秒开”，减少冷启动等待。&lt;br /&gt;•   &lt;b&gt;按用户隔离的安全沙箱&lt;/b&gt;：一人一容器，降低数据串扰与安全风险。&lt;br /&gt;•   &lt;b&gt;无限水平扩展 + 可缩到 0&lt;/b&gt;：按需分配资源，空闲可降到零成本运行。&lt;br /&gt;•   &lt;b&gt;AI &amp;amp; MCP Gateway&lt;/b&gt;：统一接入 AI 模型与 MCP Server，提供可观测性与安全防护（例如减少 API Key 泄露风险），并支持按调用计费。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;配套：Zypher（TypeScript Agent Runtime）&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;同时他们提供 &lt;b&gt;Zypher SDK&lt;/b&gt;，强调：&lt;br /&gt;&lt;br /&gt;•   不是固定工作流，而是「真 Agent」的反应式循环&lt;br /&gt;•   模型/供应商无关（Claude、GPT 等）&lt;br /&gt;•   多 Agent 协作架构&lt;br /&gt;•   丰富工具与 MCP 协议支持&lt;br /&gt;•   更节省 Token 的上下文加载与执行策略&lt;br /&gt;&lt;br /&gt;原文链接：&lt;a href=&quot;https://www.corespeed.io/&quot; target=&quot;_blank&quot;&gt;https://www.corespeed.io/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E4%BB%A3%E7%90%86&quot;&gt;#AI代理&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%AE%B9%E5%99%A8%E5%9F%BA%E7%A1%80%E8%AE%BE%E6%96%BD&quot;&gt;#容器基础设施&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23MCP&quot;&gt;#MCP&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23AgentRuntime&quot;&gt;#AgentRuntime&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E5%B7%A5%E5%85%B7&quot;&gt;#开发者工具&lt;/a&gt;</content:encoded></item><item><title>Amp 宣布下线 Amp Tab：Tab 补全时代正在退场Amp 团队宣布将移除 Amp Tab（内联 Tab 补全功能），理由很直接：这不再符合他们看到的未来</title><link>https://localhost/posts/98</link><guid isPermaLink="true">https://localhost/posts/98</guid><pubDate>Thu, 22 Jan 2026 00:51:29 GMT</pubDate><content:encoded>&lt;b&gt;Amp 宣布下线 Amp Tab：Tab 补全时代正在退场&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Amp 团队宣布将移除 &lt;b&gt;Amp Tab&lt;/b&gt;（内联 Tab 补全功能），理由很直接：这不再符合他们看到的未来。&lt;br /&gt;&lt;br /&gt;他们的判断基于一个变化——AI 写代码的占比正在迅速上升：&lt;br /&gt;&lt;br /&gt;•   一年前，代码大多还是人手写&lt;br /&gt;•   2025 年 6 月发布 Amp Tab 时，Amp 已经在写大部分代码&lt;br /&gt;•   现在，Amp 负责了他们 &lt;b&gt;90%&lt;/b&gt; 的交付代码&lt;br /&gt;&lt;br /&gt;Amp 认为，Tab 补全与传统补全引擎来自“人写为主、AI 辅助”的时代；但这个时代正在结束。越来越多用户的工作方式变成：&lt;b&gt;几天不打开编辑器，也能持续交付代码&lt;/b&gt;。瓶颈不再是“写得快不快”，而是“把代码产出、落地得快不快”。&lt;br /&gt;&lt;br /&gt;因此，Amp 将把资源投入到“后补全时代”的方向：默认由智能体（agents）完成大部分编码工作，而不是在输入时做局部补全。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;时间安排：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   Amp Tab 将继续可用至 &lt;b&gt;2026 年 1 月底&lt;/b&gt;&lt;br /&gt;•   之后如果仍需要内联补全，可考虑：Cursor / GitHub Copilot / Zed&lt;br /&gt;&lt;br /&gt;原文链接：&lt;a href=&quot;https://ampcode.com/news/tab-tab-dead&quot; target=&quot;_blank&quot;&gt;https://ampcode.com/news/tab-tab-dead&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E7%BC%96%E7%A8%8B&quot;&gt;#AI编程&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E4%BB%A3%E7%A0%81%E8%A1%A5%E5%85%A8&quot;&gt;#代码补全&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E5%B7%A5%E5%85%B7&quot;&gt;#开发者工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%99%BA%E8%83%BD%E4%BD%93&quot;&gt;#智能体&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Amp&quot;&gt;#Amp&lt;/a&gt;&lt;a href=&quot;https://ampcode.com/news/tab-tab-dead&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Ampcode&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Tab, Tab, Dead&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/XGvDyb1ItsI-SB6oWzm9jd7I81AEht335YVF1QyTo6d-En2CKfnqlZcZnwLaoW4gM7H7iBgfCAz-kIIrAxM5U-Q5-7dtL179AK9wXhU9sY4MiPMIozAe4gi7MkmEMOzvCl48nUONbukUCrIRT1sVlRE0Efpg4RDe_cMiW9PkFwXPhcszNjU_G4kZdCVkj65ynRdfU_HOuJ2p-V44E9tKJZ8-utCOBs743zvoE_V4kgh1oEuSFtUCiaSpmc9ENirmbRjDewT0t1725xDuT_38yWIEFNXvF0HcnfE_vKTOVzaxJjJIstvYFhuIj2YrUXtMzvxq_9EZYgGl2fwTFP05_Q.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Tab, Tab, Dead&lt;/div&gt;
  &lt;div&gt;We&apos;re removing Amp Tab. It is not part of the future we see.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>以“推理速度”交付：AI 编程把瓶颈从写代码变成了等模型这篇文章的核心观点很直接：AI 编程代理的能力跃迁后，作者交付软件的速度越来越不取决于“敲代码”，而更受限于两件事——模型推理时间（inference time）和少数真正需要深度思考的设计决策</title><link>https://localhost/posts/96</link><guid isPermaLink="true">https://localhost/posts/96</guid><pubDate>Sun, 18 Jan 2026 02:00:29 GMT</pubDate><content:encoded>&lt;b&gt;以“推理速度”交付：AI 编程把瓶颈从写代码变成了等模型&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;这篇文章的核心观点很直接：AI 编程代理的能力跃迁后，作者交付软件的速度越来越不取决于“敲代码”，而更受限于两件事——模型推理时间（inference time）和少数真正需要深度思考的设计决策。&lt;br /&gt;&lt;br /&gt;作者回顾了今年的变化：从最初“有些提示能一次跑通就很惊喜”，到现在“默认就该一次跑通”。在这种前提下，他甚至不再逐行读代码，而是看执行/修改流，关注系统结构是否合理、关键组件在哪里、整体是否按预期运转。&lt;br /&gt;&lt;br /&gt;文章也给了不少可复用的工作方法：&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;先从 CLI 做起&lt;/b&gt;：任何产品先做命令行版本，方便代理直接运行验证，形成闭环；核心逻辑稳了再上 UI（比如扩展、App）。&lt;br /&gt;•   &lt;b&gt;关键决策是生态与依赖&lt;/b&gt;：语言/框架/依赖选对了，代理更容易一次完成；作者常用 TypeScript（Web）、Go（CLI）、Swift（macOS/iOS）。&lt;br /&gt;•   &lt;b&gt;更偏向“对话式协作”，而不是复杂流程&lt;/b&gt;：先和模型聊清楚、让它探索代码、共创方案，满意后再让它开干；他认为“Plan mode”更像旧时代不得已的手段。&lt;br /&gt;•   &lt;b&gt;对比 codex 与 Opus&lt;/b&gt;：codex 常会先长时间读代码再动手，虽然更慢但更稳，尤其适合大型功能和重构；Opus 更“急”，适合小改动但更容易漏上下文。&lt;br /&gt;•   &lt;b&gt;迭代式构建，不依赖回滚&lt;/b&gt;：不喜欢 checkpoint/频繁 revert，更多是让模型继续改、继续朝更好的方向“绕山而上”。&lt;br /&gt;•   &lt;b&gt;自动化与多项目并行&lt;/b&gt;：同时推进多个项目，用队列把想法排进去；瓶颈往往是人而不是编排系统。&lt;br /&gt;•   &lt;b&gt;配置思路&lt;/b&gt;：提高工具输出 token 上限、合理设置自动压缩阈值，让模型能一次读更多文件；作者强调新压缩机制更可靠，甚至像一次“复查”。&lt;br /&gt;&lt;br /&gt;如果用一句话总结：当“写代码”越来越像可并行外包给代理的体力活，工程师的价值更集中在选型、架构、数据流、约束定义与验收标准上；而真正影响交付速度的，往往是推理等待时间和你是否想清楚要做什么。&lt;br /&gt;&lt;br /&gt;原链接：&lt;a href=&quot;https://steipete.me/posts/2025/shipping-at-inference-speed&quot; target=&quot;_blank&quot;&gt;https://steipete.me/posts/2025/shipping-at-inference-speed&lt;/a&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E7%BC%96%E7%A8%8B&quot;&gt;#AI编程&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Codex&quot;&gt;#Codex&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E5%B7%A5%E4%BD%9C%E6%B5%81&quot;&gt;#开发工作流&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%95%88%E7%8E%87%E5%B7%A5%E5%85%B7&quot;&gt;#效率工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E8%BD%AF%E4%BB%B6%E5%B7%A5%E7%A8%8B&quot;&gt;#软件工程&lt;/a&gt;&lt;a href=&quot;https://steipete.me/posts/2025/shipping-at-inference-speed&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;steipete.me&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Shipping at Inference-Speed | Peter Steinberger&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/QSC2uF_dtnLu-ExpeINZw7h0XOzC0Ppv9WVzUWH1h2pTf98bbca2Jx6Y07MvXb-5elup6llTAcgAfuSsK3yS1jmfyOunlkcCHLt4KNUsQtXpa6m9VBNqaa5HTtekoQNKudJo5IqblDZSUPyQ1vAHjD3uhDwfn3PiOs3CF9TAURH5eaixTsWjt7cehba5E43rrWlloUEEp6RdlN0UIQc2f8zN0kyJ9iqhUm7Ocw1bzNoy0FodGpWp-2Nw9jBk0_DEqXi3A86Lp_6WM6UYYdGg7f24ouc71DxoF-zF3RtXztfva59yG1Uy4KWpGRHSR51tz4k96GeLjOn30nZRXjfaaw.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Shipping at Inference-Speed | Peter Steinberger&lt;/div&gt;
  &lt;div&gt;Why I stopped reading code and started watching it stream by.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Open Responses：让 LLM 接口真正“可互通”的开放规范Open Responses 是一个开源规范与生态，目标是基于 OpenAI Responses API 的理念，建立多模型提供方可互操作的统一接口层</title><link>https://localhost/posts/94</link><guid isPermaLink="true">https://localhost/posts/94</guid><pubDate>Fri, 16 Jan 2026 05:36:14 GMT</pubDate><content:encoded>&lt;b&gt;Open Responses：让 LLM 接口真正“可互通”的开放规范&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Open Responses 是一个开源规范与生态，目标是基于 OpenAI Responses API 的理念，建立&lt;b&gt;多模型提供方可互操作&lt;/b&gt;的统一接口层。它通过共享 Schema 和配套工具，让开发者能用同一种请求/输出结构，跨不同提供方调用模型、处理流式返回，并组合更复杂的 Agent 工作流。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;为什么需要它？&lt;/b&gt;&lt;br /&gt;现在各家 LLM API 的核心组件越来越相似（消息、工具调用、流式、多模态等），但细节编码方式不同，迁移与兼容成本高。Open Responses 希望把“共同部分”沉淀成稳定规范，减少重复适配。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;它强调的设计方向：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;默认多提供方&lt;/b&gt;：一套 Schema 映射多家模型/平台&lt;br /&gt;•   &lt;b&gt;更贴近真实 Agent 工作流&lt;/b&gt;：统一的流式事件、工具调用模式，以及以“items”作为输出与工具使用的原子单元&lt;br /&gt;•   &lt;b&gt;可扩展但不碎片化&lt;/b&gt;：核心稳定，同时允许在必要时容纳提供方特性&lt;br /&gt;&lt;br /&gt;&lt;b&gt;如何开始：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   阅读规范，理解 items、流式事件、工具使用等核心概念&lt;br /&gt;•   查看 OpenAPI 参考，掌握完整类型与接口面&lt;br /&gt;•   用官方的验收测试验证你的 API 实现一致性&lt;br /&gt;&lt;br /&gt;原链接：&lt;a href=&quot;https://www.openresponses.org/&quot; target=&quot;_blank&quot;&gt;https://www.openresponses.org/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23LLM&quot;&gt;#LLM&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%94%BE%E8%A7%84%E8%8C%83&quot;&gt;#开放规范&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%A4%9A%E6%A8%A1%E5%9E%8B&quot;&gt;#多模型&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E4%BA%92%E6%93%8D%E4%BD%9C&quot;&gt;#互操作&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23API%E8%AE%BE%E8%AE%A1&quot;&gt;#API设计&lt;/a&gt;&lt;a href=&quot;https://www.openresponses.org/&quot; target=&quot;_blank&quot;&gt;
  &lt;i&gt;&lt;/i&gt;
  &lt;div&gt;www.openresponses.org&lt;/div&gt;
  
  &lt;div&gt;Open Responses&lt;/div&gt;
  &lt;div&gt;Open Responses documentation overview.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Claude Opus 4.5：让“能做”突然变得很容易作者分享了一个明显的转折：三个月前他还不相信“AI 代理能替代开发者”，但在体验 Claude Opus 4.5 后，他开始认为这件事正在发生——至少在相当一部分软件开发场景里</title><link>https://localhost/posts/90</link><guid isPermaLink="true">https://localhost/posts/90</guid><pubDate>Mon, 12 Jan 2026 09:21:00 GMT</pubDate><content:encoded>&lt;b&gt;Claude Opus 4.5：让“能做”突然变得很容易&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;作者分享了一个明显的转折：三个月前他还不相信“AI 代理能替代开发者”，但在体验 Claude Opus 4.5 后，他开始认为这件事正在发生——至少在相当一部分软件开发场景里。&lt;br /&gt;&lt;br /&gt;他用几个真实项目说明差异不在“会写代码”，而在于&lt;b&gt;一次成功率、能自我迭代、能把复杂系统拼起来&lt;/b&gt;：&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;Windows 右键图片格式转换工具&lt;/b&gt;：从文件资源管理器菜单到打包、安装/卸载脚本、发布网站、GitHub Actions 自动发布，整体接近“一次成型”。遇到报错会自己用 &lt;code&gt;dotnet&lt;/code&gt; 构建、读错误、再修复。&lt;br /&gt;•   &lt;b&gt;录屏与简单剪辑工具&lt;/b&gt;：从类似 LICEcap 的录制开始，持续加到视频/图片编辑、裁剪、模糊、标注等功能，作者感叹“几小时就推进到很远”。&lt;br /&gt;•   &lt;b&gt;AI 发帖工具（给小生意用）&lt;/b&gt;：iOS 端批量上传照片→AI 生成文案→定时发到 Facebook。后端涉及认证、存储、云函数、日志排错等一堆“胶水活”，但模型能通过 CLI 自己创建资源、查日志并修问题，还顺手做了管理后台。&lt;br /&gt;•   &lt;b&gt;订单与路线追踪&lt;/b&gt;：解析 Gmail 订单、规划路线、统计行驶时间（用于税务），作者强调：这种“手写很痛苦”的 Google/Firebase 集成，Opus 4.5 反而很顺。&lt;br /&gt;&lt;br /&gt;文章也没有回避争议点：&lt;br /&gt;作者承认自己并不完全理解这些应用“内部怎么搭起来的”（比如 Swift 不熟），但他的焦虑在减轻——因为当问题出现时，模型往往能定位并修复自己的 bug。于是他提出一个更激进的想法：&lt;b&gt;代码也许不必主要面向人类可读，而是面向 LLM 可推理、可重写、可调试&lt;/b&gt;。&lt;br /&gt;&lt;br /&gt;他甚至分享了一份自用的“AI-first 编码”提示词要点（概念层面）：&lt;br /&gt;&lt;br /&gt;•   追求&lt;b&gt;可预测、可调试、低耦合、入口清晰、控制流线性&lt;/b&gt;&lt;br /&gt;•   少炫技抽象，减少层级与间接性&lt;br /&gt;•   该删就删；重构也要分高/中/低优先级&lt;br /&gt;•   安全需要更谨慎：API key、登录流程、敏感数据存储等不能盲信&lt;br /&gt;&lt;br /&gt;结尾的态度是复杂的：既兴奋于“几小时能做出过去要几周/月的东西”，也沮丧于技能壁垒被压平。但他给出的建议很朴素：&lt;b&gt;别等“都懂了”再开始，继续做东西，只是更快了；同时一定盯紧安全与密钥。&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;原文链接：&lt;a href=&quot;https://burkeholland.github.io/posts/opus-4-5-change-everything/&quot; target=&quot;_blank&quot;&gt;https://burkeholland.github.io/posts/opus-4-5-change-everything/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E7%BC%96%E7%A8%8B&quot;&gt;#AI编程&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E5%B7%A5%E5%85%B7&quot;&gt;#开发者工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Claude&quot;&gt;#Claude&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E8%BD%AF%E4%BB%B6%E5%B7%A5%E7%A8%8B&quot;&gt;#软件工程&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E7%94%9F%E4%BA%A7%E5%8A%9B&quot;&gt;#生产力&lt;/a&gt;&lt;a href=&quot;https://burkeholland.github.io/posts/opus-4-5-change-everything/&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Burke Holland&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Opus 4.5 is going to change everything&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/jKAXnnOfMIbh6EezeTBOeaAzrTuDXMEt99CnWqvoTq-qX-N9guCo1QMDSxwW02nVH4qtxNgbd9tTegM4Y5h0BXIckWCEnnYfeG1NtAEwvsFOIG1MfUpvvHf_poDErytHXBMzSpoHqI3e12iQBtWvSVSB4bXu3KjRI6Kv1Jj5Os1YYUV4d4CPD9drqIMiL7Dmb1BIeP3PzVx1Xks6KeuBg7A-AnTWM_5EL74wXSEEIv37pNU8ddt4iTHDfpiTQ-E1Lr9XuyLN3NljhhTDmzAJF6FkU9sw4LGLz7zLjqwaMNPbu028DnlxSVIrnAAmgArDI2KMGq7U9WqVWyfJezSOew.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Opus 4.5 is going to change everything&lt;/div&gt;
  &lt;div&gt;Three months ago I would have dismissed claims that AI could replace developers. Today, after using Claude Opus 4.5, I believe AI coding agents can absolutely replace developers.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Ref：给你的 AI Agent 一份“刚刚好”的文档上下文做 AI 编程助手最怕两件事：胡编和上下文膨胀</title><link>https://localhost/posts/85</link><guid isPermaLink="true">https://localhost/posts/85</guid><pubDate>Sat, 27 Dec 2025 02:47:44 GMT</pubDate><content:encoded>&lt;b&gt;Ref：给你的 AI Agent 一份“刚刚好”的文档上下文&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;做 AI 编程助手最怕两件事：&lt;b&gt;胡编&lt;/b&gt;和&lt;b&gt;上下文膨胀&lt;/b&gt;。Ref 主打的就是把问题变简单——让你的 Agent 能随用随查公共/私有技术文档，只拿“够用且准确”的信息。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;它怎么做？&lt;/b&gt;&lt;br /&gt;Ref 通过 MCP（Model Context Protocol）把文档上下文接到你的 AI 工具里：既有持续更新的公共文档索引，也支持把你的私有资料（如 GitHub 仓库、PDF）纳入检索。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;给 Agent 的两个核心能力：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;code&gt;search_documentation&lt;/code&gt;：面向技术文档的精确搜索，能定位到具体章节，支持公有与私有文档集。&lt;br /&gt;•   &lt;code&gt;read_url&lt;/code&gt;：读取任意网页或 GitHub 文件内容（可含私有内容），适合顺藤摸瓜跟进链接。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;为什么不是“东拼西凑工具链”？&lt;/b&gt;&lt;br /&gt;你当然可以分别用：代码片段、搜索、爬取、私有代码检索、PDF 检索等工具组合；Ref 的定位是把这些需求尽量合并成一个更统一的入口，减少集成成本与上下文噪音。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;安全与企业能力（官方强调点）：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   SOC2 合规（并提供 Trust Center 与隐私安全说明）&lt;br /&gt;•   支持 SSO 与 MCP OAuth&lt;br /&gt;•   提供“主动提示注入防护”（对返回的上下文做注入扫描，仍在开发中）&lt;br /&gt;&lt;br /&gt;&lt;b&gt;定价概览：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   Free：200 credits（不刷新、不失效，官方估算约 10 周常规使用）&lt;br /&gt;•   Basic：$9/月，1000 credits&lt;br /&gt;•   Team：$9/月/席位，1000 credits/席位（团队共享私有文档索引与统一账单）&lt;br /&gt;•   Enterprise：SSO、SOC2、优先支持、定制化等&lt;br /&gt;&lt;br /&gt;如果你在用 Claude/Cursor/Zed 等工具做工程开发，且经常需要“查最新文档 + 查公司内部资料”，这种“面向文档的上下文层”会比泛用搜索/爬虫更省 token，也更贴近代码场景。&lt;br /&gt;&lt;br /&gt;原链接：&lt;a href=&quot;https://ref.tools/&quot; target=&quot;_blank&quot;&gt;https://ref.tools/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23MCP&quot;&gt;#MCP&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E5%B7%A5%E5%85%B7&quot;&gt;#开发者工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%8A%80%E6%9C%AF%E6%96%87%E6%A1%A3&quot;&gt;#技术文档&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23AI%E7%BC%96%E7%A8%8B%E5%8A%A9%E6%89%8B&quot;&gt;#AI编程助手&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23RAG&quot;&gt;#RAG&lt;/a&gt;&lt;a href=&quot;https://ref.tools/&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;ref.tools&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Ref - Review every important decision&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/QFyUoGFWtualnjVx2LtRT40DX3iMZaktHuOE7fjg6jda98K7IeY3dR8Htzo83keZluA7yPYK9kpPxSHc88y3zHA-JQIK63mzAvunHJDiTwIkIT2_mRNVqY64lU4T1g3P-7HKS2OFP6hurGT2uYF-Nu5MrwoOMMcAscHeNXZ4z_v_ZG6KVrobCMkqhyR3ZTpMFtMpXi9nX3zbUa20kuyw-esenoJaPPuu3X6tREIb8xljPxrZO1JYTUclhpblErb6Ip4iFF6Z-W3Zsc1rDp7Bdfra0svZSVTJSxD0rpkOAjrJ65CEoj13dzhuHHnhAEP_hAVb_MM1_b8wtcTm7KOn_w.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Ref - Review every important decision&lt;/div&gt;
  &lt;div&gt;One workspace to plan, review and manage coding agents with your team.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>2025 年 AI 编程现状：效率在涨，工具与模型在分化Greptile 发布的《The State of AI Coding 2025》梳理了 AI 编程在 2025 年的关键趋势：工程产出显著提升，开发工具生态快速扩张，而不同大模型在“响应速度、吞吐、成本”上的取舍越来越清晰</title><link>https://localhost/posts/84</link><guid isPermaLink="true">https://localhost/posts/84</guid><pubDate>Fri, 26 Dec 2025 13:19:39 GMT</pubDate><content:encoded>&lt;b&gt;2025 年 AI 编程现状：效率在涨，工具与模型在分化&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Greptile 发布的《The State of AI Coding 2025》梳理了 AI 编程在 2025 年的关键趋势：工程产出显著提升，开发工具生态快速扩张，而不同大模型在“响应速度、吞吐、成本”上的取舍越来越清晰。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;1) 工程效率：PR 更大，个人产出更高&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;PR 规模变大&lt;/b&gt;：2025 年 3 月到 11 月，PR 的中位改动行数从 57 增至 76，约 &lt;b&gt;+33%&lt;/b&gt;。&lt;br /&gt;•   &lt;b&gt;开发者产出上升&lt;/b&gt;：人均代码产出从 4,450 增至 7,839 行，约 &lt;b&gt;+76%&lt;/b&gt;，AI 工具被视为“产能放大器”。&lt;br /&gt;•   &lt;b&gt;中型团队提升更明显&lt;/b&gt;：6–15 人团队的人均产出从 7,005 增至 13,227 行，约 &lt;b&gt;+89%&lt;/b&gt;。&lt;br /&gt;•   &lt;b&gt;单文件改动更密&lt;/b&gt;：每个文件的改动行数中位数从 18 增至 22，约 &lt;b&gt;+20%&lt;/b&gt;，说明 PR 不只变大，也更“集中”。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;2) 工具采用：从“能用”到“形成标准层”&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;记忆/Memory 基建&lt;/b&gt;：&lt;code&gt;mem0&lt;/code&gt; 以 &lt;b&gt;59%&lt;/b&gt; 份额领跑（按 PyPI + npm 月下载量口径）。&lt;br /&gt;•   &lt;b&gt;向量数据库&lt;/b&gt;：没有绝对赢家；Weaviate 约 &lt;b&gt;25%&lt;/b&gt;，其余多家在 10–25% 之间拉锯。&lt;br /&gt;•   &lt;b&gt;AI 规则文件&lt;/b&gt;：&lt;code&gt;CLAUDE.md&lt;/code&gt; 使用率 &lt;b&gt;67%&lt;/b&gt;；不少团队多格式并存，且 &lt;b&gt;17% 的仓库三种格式都用&lt;/b&gt;。&lt;br /&gt;•   &lt;b&gt;AI SDK 增长&lt;/b&gt;：Anthropic SDK 以 &lt;b&gt;43M&lt;/b&gt; 下载领先（约 8 倍增长）；Pydantic AI 增长 &lt;b&gt;3.7×&lt;/b&gt; 到 &lt;b&gt;6M&lt;/b&gt;。&lt;br /&gt;•   &lt;b&gt;LLMOps&lt;/b&gt;：LiteLLM 月下载量增长 &lt;b&gt;4×&lt;/b&gt; 至 &lt;b&gt;41M&lt;/b&gt;（LangSmith 与 LangChain 安装存在绑定关系）。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;3) 模型格局：生态差距在收敛&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;SDK 下载量&lt;/b&gt;：OpenAI 约 &lt;b&gt;130M&lt;/b&gt; 领先；Anthropic 自 2023 年 4 月起增长 &lt;b&gt;1,547×&lt;/b&gt;；Google 约 &lt;b&gt;13.6M&lt;/b&gt;。&lt;br /&gt;•   &lt;b&gt;差距缩小&lt;/b&gt;：OpenAI 与 Anthropic 的下载量比从 2024 年 1 月的 &lt;b&gt;47:1&lt;/b&gt;，降至 2025 年 11 月的 &lt;b&gt;4.2:1&lt;/b&gt;。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;4) 作为“编程 Agent 后端”，模型各有侧重&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;报告用统一参数对多模型做了延迟、吞吐、成本等基准：&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;首 token 响应（TTFT）&lt;/b&gt;：Claude Sonnet/Opus（p50 &amp;lt; 2.5s）明显更快，更利于交互式编程保持“心流”。&lt;br /&gt;•   &lt;b&gt;生成吞吐&lt;/b&gt;：GPT-5 Codex / GPT-5.1 吞吐更高，长输出更快结束，利于并行跑更多 Agent/CI。&lt;br /&gt;•   &lt;b&gt;成本倍率（以 GPT-5 Codex = 1× 归一）&lt;/b&gt;：GPT-5 Codex ≈ GPT-5.1（1×）；Gemini 3 Pro（1.4×）；Sonnet 4.5（2×）；Opus 4.5（3.3×）。&lt;br /&gt;&lt;br /&gt;结论很直接：选型不再是“谁最强”，而是你更在意 &lt;b&gt;响应速度、吞吐效率，还是预算&lt;/b&gt;。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;5) 研究方向：规模、上下文与 Agent 的“系统工程”&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;报告还汇总了 2025 年影响工具与应用的一批研究线索，包括：&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;MoE 的效率设计&lt;/b&gt;（如 DeepSeek-V3：关注 KV cache、路由与训练信号密度）。&lt;br /&gt;•   &lt;b&gt;长上下文 vs RAG 的边界&lt;/b&gt;（不同数据结构下各有优势；以及 KV 级检索等新思路）。&lt;br /&gt;•   &lt;b&gt;Agent 训练与检索策略&lt;/b&gt;（用 RL 学会“何时搜索”、如何管理长程记忆、如何降低噪声上下文干扰等）。&lt;br /&gt;&lt;br /&gt;原文链接：&lt;a href=&quot;https://www.greptile.com/state-of-ai-coding-2025&quot; target=&quot;_blank&quot;&gt;https://www.greptile.com/state-of-ai-coding-2025&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E7%BC%96%E7%A8%8B&quot;&gt;#AI编程&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E6%95%88%E7%8E%87&quot;&gt;#开发效率&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23LLM%E5%B7%A5%E5%85%B7%E9%93%BE&quot;&gt;#LLM工具链&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%A8%A1%E5%9E%8B%E8%AF%84%E6%B5%8B&quot;&gt;#模型评测&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E8%BD%AF%E4%BB%B6%E5%B7%A5%E7%A8%8B%E8%B6%8B%E5%8A%BF&quot;&gt;#软件工程趋势&lt;/a&gt;&lt;a href=&quot;https://www.greptile.com/state-of-ai-coding-2025&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Greptile&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;AI Code Review | Greptile | Merge 4X Faster, Catch 3X More Bugs&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/kfEKSaEZIR3QTeXxWrXO8Lp2naWnErYsANKp-7I1a11rEOTNHYcB-IgpUkYsPDuUPt7tLsWyJy9NV1PA6FcaUIxmy2iKtXyFp-yXKtp40H1mPfPN26Wu5axj63BPQ1rh0POkXp0Wc3vF5vk4Hgx1j6c3PISC4SpjFZU_isur0o9H9up7gw1uafVYCD2T9J85DU1R9Ln5sgQOynRZoLLsG158fYn1VhK9rJKM3vwdlVDpsA9NAqXi2DBV6AYjBxqsgRiopVVaOnvfF6r50s1DP2HNv3TyXC0-b_84LYDFVhC2gFMvdBZ4KKrB5qj74KfDdj3Ngn0q_fQ5cqqzCus7Sw.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;AI Code Review | Greptile | Merge 4X Faster, Catch 3X More Bugs&lt;/div&gt;
  &lt;div&gt;AI Code Reviews that understand your entire codebase. Automate PR reviews, catch bugs faster, improve code quality with AI-driven analysis. Try Greptile free!&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>一份配置，多端通用：MCP Config 转换器mcp-config 是一个参考实现：把“同一份 MCP Server 配置”一键转换成不同应用所需的配置文件或命令，避免在 Claude Desktop、Cursor、VS Code 等多处重复手工改配置</title><link>https://localhost/posts/79</link><guid isPermaLink="true">https://localhost/posts/79</guid><pubDate>Tue, 23 Dec 2025 14:51:40 GMT</pubDate><content:encoded>&lt;b&gt;一份配置，多端通用：MCP Config 转换器&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;code&gt;mcp-config&lt;/code&gt; 是一个参考实现：把“同一份 MCP Server 配置”一键转换成不同应用所需的配置文件或命令，避免在 Claude Desktop、Cursor、VS Code 等多处重复手工改配置。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;它解决什么问题&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   只维护一份 MCP Server 定义（支持远程 HTTP / 本地 stdio）&lt;br /&gt;•   按目标客户端输出对应格式：&lt;code&gt;JSON&lt;/code&gt; / &lt;code&gt;CLI&lt;/code&gt; / &lt;code&gt;TOML&lt;/code&gt;&lt;br /&gt;•   适配 30+ 客户端格式，减少迁移与同步成本&lt;br /&gt;&lt;br /&gt;&lt;b&gt;怎么用（概念流程）&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   将仓库的 &lt;code&gt;src/&lt;/code&gt; 复制到你的项目中&lt;br /&gt;•   使用 &lt;code&gt;getClients()&lt;/code&gt; 查看支持的客户端&lt;br /&gt;•   用 &lt;code&gt;transformConfig({ server, client })&lt;/code&gt; 生成目标客户端需要的配置字符串（例如 Cursor 的 JSON，或 Claude Code 的添加命令）&lt;br /&gt;&lt;br /&gt;&lt;b&gt;支持范围（示例）&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   JSON 类：Claude Desktop、Cursor、Windsurf、VS Code/Copilot、JetBrains、Zed、Warp、Perplexity Desktop 等&lt;br /&gt;•   CLI 类：Claude Code、Amp、OpenAI Codex CLI 等&lt;br /&gt;&lt;br /&gt;&lt;b&gt;适合谁&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   同时在多个 IDE/客户端里用 MCP 的开发者与团队&lt;br /&gt;•   想把“配置维护”从手工劳动变成可复用工具链的人&lt;br /&gt;&lt;br /&gt;原链接：&lt;a href=&quot;https://github.com/iannuttall/mcp-config&quot; target=&quot;_blank&quot;&gt;https://github.com/iannuttall/mcp-config&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23MCP&quot;&gt;#MCP&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E9%85%8D%E7%BD%AE%E7%AE%A1%E7%90%86&quot;&gt;#配置管理&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E5%B7%A5%E5%85%B7&quot;&gt;#开发工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23TypeScript&quot;&gt;#TypeScript&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%95%88%E7%8E%87%E6%8F%90%E5%8D%87&quot;&gt;#效率提升&lt;/a&gt;&lt;a href=&quot;https://github.com/iannuttall/mcp-config&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - iannuttall/mcp-config: Turn one MCP server setup into the right format for lots of apps.&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/AfSl3bJgQ5IfFhASY9xXrWhW5EXDO5nKc_HGjfZvZUmau8UwTIh0q5QYeSHpJT8edjah8D213jHly3YyRw8sK2swmO25QBrk7YZKOWGVw_SqNCoRj8-oXiVjsTs7XS0n8BKp36YD2_bt4KzpLhzmLklR22X0fi5wfCQztWuBX7HBedv8byqtBpegDnr1rrERT3dXp9WnFUk-e5yk2fxI7GVj5b4mqtXeuGpCnNybCl2h7lt7PskrDKuyjZhGzWoMrRnJxbixH6sboBtB7wcySnIRlWfJzJ4USd_Y23YiOmNJQgrzYQIXYCMHmkK9oVnl0Ia8ZA88iom70rMqXQpMCQ.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;GitHub - iannuttall/mcp-config: Turn one MCP server setup into the right format for lots of apps.&lt;/div&gt;
  &lt;div&gt;Turn one MCP server setup into the right format for lots of apps. - iannuttall/mcp-config&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Bloom：自动化生成“行为评估”的开源框架前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）</title><link>https://localhost/posts/76</link><guid isPermaLink="true">https://localhost/posts/76</guid><pubDate>Sun, 21 Dec 2025 00:57:48 GMT</pubDate><content:encoded>&lt;b&gt;Bloom：自动化生成“行为评估”的开源框架&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）。Anthropic 发布了 &lt;b&gt;Bloom&lt;/b&gt;：一个开源的“代理式”评估生成框架，用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。&lt;br /&gt;&lt;br /&gt;Bloom 的核心思路是：&lt;b&gt;研究者只需定义要测的行为&lt;/b&gt;（并可提供少量示例与配置），Bloom 就能自动生成大量情境并运行对话，最后给出该行为在不同模型上的&lt;b&gt;出现频率与严重程度&lt;/b&gt;。官方结果显示，Bloom 的评分与人工标注有较强一致性，也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Bloom 怎么做评估（四阶段流水线）&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;理解（Understanding）&lt;/b&gt;：分析研究者的行为描述与示例，明确“要测什么、为什么测”。&lt;br /&gt;•   &lt;b&gt;构思（Ideation）&lt;/b&gt;：自动生成一批用于诱发目标行为的评估场景（含系统提示、用户设定、环境等）。&lt;br /&gt;•   &lt;b&gt;执行（Rollout）&lt;/b&gt;：并行跑场景，对话中还会模拟用户与工具响应，以更真实地触发目标行为。&lt;br /&gt;•   &lt;b&gt;判定（Judgment）&lt;/b&gt;：评审模型为每段对话打分，并输出套件级总结指标（如诱发率、平均行为强度）。&lt;br /&gt;&lt;br /&gt;与固定题库不同，Bloom &lt;b&gt;每次运行可生成不同场景&lt;/b&gt;，但通过“seed 配置”保持可复现；研究者还能调节模型选择、对话长度、是否使用工具、场景多样性，以及增加如“真实感”“诱发难度”等副指标。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;已发布的基准与一个案例&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Anthropic 同时发布了对 16 个模型的基准结果，覆盖四类对齐相关行为：&lt;br /&gt;&lt;br /&gt;•   迎合性妄想（delusional sycophancy）&lt;br /&gt;•   受指令驱动的长程破坏（instructed long-horizon sabotage）&lt;br /&gt;•   自我保存（self-preservation）&lt;br /&gt;•   自我偏好偏差（self-preferential bias）&lt;br /&gt;&lt;br /&gt;在“自我偏好偏差”案例中，Bloom 复现了系统卡里的模型排序，并进一步发现：在某些模型上，提高推理强度会降低偏差（更多体现为识别利益冲突后拒绝自评）。&lt;br /&gt;&lt;br /&gt;开源地址与技术细节见原文与报告：&lt;br /&gt;&lt;a href=&quot;https://www.anthropic.com/research/bloom&quot; target=&quot;_blank&quot;&gt;https://www.anthropic.com/research/bloom&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E5%AE%89%E5%85%A8&quot;&gt;#AI安全&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%AF%B9%E9%BD%90%E7%A0%94%E7%A9%B6&quot;&gt;#对齐研究&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%A8%A1%E5%9E%8B%E8%AF%84%E4%BC%B0&quot;&gt;#模型评估&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E5%B7%A5%E5%85%B7&quot;&gt;#开源工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%A4%A7%E6%A8%A1%E5%9E%8B&quot;&gt;#大模型&lt;/a&gt;&lt;a href=&quot;https://www.anthropic.com/research/bloom&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Anthropic&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Introducing Bloom: an open source tool for automated behavioral evaluations&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/NWSrWt-qhFWFdiOC-gJsqXo2Hfaia1Ip2iYsAoug41Tm8TIp4ddsr1IJ7lXaNNurJfGoGQHwuvrdJlz-KGUEkmEcpG4UUOVWw09F8maCmPb3KCmIqNESjBiMnxEWLf2W0Gbk2K3zd9YURkwpZwbVa-F7meLw-cU_fPmOmpSnZXdNIJaLvWoLROda7DvYmCcAvUUaWu6Gq98DunCJO2FBQdB8JvKcP8BkC4WSO0bgh_oU1ys3Ek0mg8bAlkw9Yh56Ztw5m1CqtdiqCEXdIUDrlawfZ2FwRoXJRNToEKGVrFBwM7vPW7WcdylnORcLmEsPKqpMr_AqL1A3RweWZSbXVg.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Introducing Bloom: an open source tool for automated behavioral evaluations&lt;/div&gt;
  &lt;div&gt;Anthropic is an AI safety and research company that&apos;s working to build reliable, interpretable, and steerable AI systems.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Agent Skills：给 AI Agent “装上技能包”Agent Skills 是一种开放格式：把一套可复用的指令、脚本与资源打包成「技能」，让智能体在需要时按需加载，从而更准确、更高效地完成真实工作</title><link>https://localhost/posts/74</link><guid isPermaLink="true">https://localhost/posts/74</guid><pubDate>Fri, 19 Dec 2025 11:21:52 GMT</pubDate><content:encoded>&lt;b&gt;Agent Skills：给 AI Agent “装上技能包”&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Agent Skills 是一种开放格式：把一套可复用的&lt;b&gt;指令、脚本与资源&lt;/b&gt;打包成「技能」，让智能体在需要时按需加载，从而更准确、更高效地完成真实工作。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;为什么需要它？&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   智能体能力越来越强，但常缺少上下文与流程知识；技能把这些&lt;b&gt;程序化经验与团队/组织知识&lt;/b&gt;变成可携带、可版本管理的包&lt;br /&gt;•   对作者：一次构建，多处部署，跨多种智能体产品复用&lt;br /&gt;•   对企业与团队：把组织最佳实践沉淀为可审计、可迭代的工作流&lt;br /&gt;&lt;br /&gt;&lt;b&gt;它能带来什么？&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;领域专长&lt;/b&gt;：把法律审阅、数据分析等专业流程封装成可复用指南&lt;br /&gt;•   &lt;b&gt;新能力扩展&lt;/b&gt;：例如自动做演示文稿、搭建 MCP Server、分析数据集等&lt;br /&gt;•   &lt;b&gt;可重复的工作流&lt;/b&gt;：多步骤任务标准化，稳定且可追踪&lt;br /&gt;•   &lt;b&gt;互操作性&lt;/b&gt;：同一技能可在不同“支持技能”的工具/产品间通用&lt;br /&gt;&lt;br /&gt;&lt;b&gt;生态与开放性&lt;/b&gt;&lt;br /&gt;该格式最初由 Anthropic 提出并以开放标准发布，已被多种 AI 开发工具与产品支持，并在 GitHub 上开放协作。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;上手入口&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   了解技能是什么、格式规范、如何集成、示例技能与参考库（校验与生成 prompt XML）&lt;br /&gt;&lt;br /&gt;原链接：&lt;a href=&quot;https://agentskills.io/home&quot; target=&quot;_blank&quot;&gt;https://agentskills.io/home&lt;/a&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E4%BB%A3%E7%90%86&quot;&gt;#AI代理&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%94%BE%E6%A0%87%E5%87%86&quot;&gt;#开放标准&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%B7%A5%E4%BD%9C%E6%B5%81&quot;&gt;#工作流&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E7%9F%A5%E8%AF%86%E6%B2%89%E6%B7%80&quot;&gt;#知识沉淀&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E5%B7%A5%E5%85%B7&quot;&gt;#开发者工具&lt;/a&gt;&lt;a href=&quot;https://agentskills.io/home&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Agent Skills&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Agent Skills Overview - Agent Skills&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/Romwug8VL68FewpWdwJKI7wnoJHA_ilVcgxXSl7zu0crjCmqT7XbJ4ZWIme5ncAKzA5BVCpvDafeh24XNKEUJ3Rm4uqLYFND-WZUhFU4V60JRLv3TpeqbPn7ZUWfFLcvY5jyLsXplqjjOqMmZ0wazWEhjWh6jY9K3WN9ftMAA_k367iF6piEA7w1xOnYexYdgxuNvNTL_8oIxIIoX9FDwDjU7WgVwV8AdhDOIX5jhiTMOJ-TT7gn1onnWK-WXZzXAxfzgcXtokd_a2RPehRYcuseMdE3VjrV8NV7v5_NE63_veGa9_IjjvCkCkw4DfkpHSg_jvCvj_Ad41bHxbHROw.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Agent Skills Overview - Agent Skills&lt;/div&gt;
  &lt;div&gt;A standardized way to give AI agents new capabilities and expertise.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>如何让 Claude Code Skills 可靠激活Claude Code 的 Skills 功能理论上会根据描述自动激活，但实际测试发现激活率仅约 20%，跟抛硬币差不多</title><link>https://localhost/posts/69</link><guid isPermaLink="true">https://localhost/posts/69</guid><pubDate>Sun, 14 Dec 2025 12:27:39 GMT</pubDate><content:encoded>如何让 Claude Code Skills 可靠激活&lt;br /&gt;&lt;br /&gt;Claude Code 的 Skills 功能理论上会根据描述自动激活，但实际测试发现激活率仅约 20%，跟抛硬币差不多。作者通过 200+ 次测试，找到了两种有效方案。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;测试结果对比：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;• &lt;b&gt;Simple 简单指令&lt;/b&gt;：整体成功率仅 20%&lt;br /&gt;• &lt;b&gt;Forced Eval 强制评估&lt;/b&gt;：成功率 84%，最稳定&lt;br /&gt;• &lt;b&gt;LLM Eval 预评估&lt;/b&gt;：成功率 80%，更快更省钱&lt;br /&gt;&lt;br /&gt;&lt;u&gt;核心发现&lt;/u&gt;&lt;br /&gt;&lt;br /&gt;强制评估之所以有效，在于它创建了「承诺机制」：&lt;br /&gt;&lt;br /&gt;1. Claude 必须逐一评估每个 Skill 并给出 YES/NO&lt;br /&gt;2. 明确表态后才能继续实现&lt;br /&gt;3. 使用 &quot;MANDATORY&quot;、&quot;CRITICAL&quot; 等强硬措辞增加执行力&lt;br /&gt;&lt;br /&gt;&lt;u&gt;如何选择&lt;/u&gt;&lt;br /&gt;&lt;br /&gt;&lt;blockquote&gt;Forced Eval：追求稳定性，不介意输出冗长&lt;br /&gt;LLM Eval：追求速度和成本，适合单一技能场景&lt;br /&gt;&lt;/blockquote&gt;&lt;br /&gt;使用方法：在 &lt;code&gt;.claude/hooks/&lt;/code&gt; 创建对应脚本，并在 &lt;code&gt;settings.json&lt;/code&gt; 中配置 hook。如果用 &lt;a href=&quot;https://github.com/spences10/claude-skills-cli&quot; target=&quot;_blank&quot;&gt;claude-skills-cli&lt;/a&gt;，可直接运行：&lt;br /&gt;&lt;br /&gt;&lt;pre&gt;&lt;code&gt;pnpm exec claude-skills-cli add-hook
&lt;/code&gt;&lt;/pre&gt;&lt;br /&gt;&lt;br /&gt;&lt;i&gt;&lt;b&gt;🔗&lt;/b&gt;&lt;/i&gt; &lt;a href=&quot;https://scottspence.com/posts/how-to-make-claude-code-skills-activate-reliably&quot; target=&quot;_blank&quot;&gt;原文链接&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23ClaudeCode&quot;&gt;#ClaudeCode&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Skills&quot;&gt;#Skills&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E6%8A%80%E5%B7%A7&quot;&gt;#开发技巧&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Anthropic&quot;&gt;#Anthropic&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23AI%E5%B7%A5%E5%85%B7&quot;&gt;#AI工具&lt;/a&gt;&lt;a href=&quot;https://github.com/spences10/claude-skills-cli&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  
  &lt;div&gt;GitHub - spences10/claude-skills-cli: &lt;i&gt;&lt;b&gt;🤖&lt;/b&gt;&lt;/i&gt; CLI for creating Claude Agent Skills with progressive disclosure validation. Built for…&lt;/div&gt;
  &lt;div&gt;&lt;i&gt;&lt;b&gt;🤖&lt;/b&gt;&lt;/i&gt; CLI for creating Claude Agent Skills with progressive disclosure validation. Built for Claude Code to use when humans ask it to create skills. - spences10/claude-skills-cli&lt;/div&gt;
&lt;/a&gt;</content:encoded></item></channel></rss>