面条的草稿箱
无原创,纯转发
-
- Anthropic 为 Claude 推出高级工具使用功能
Anthropic 近日宣布为其开发者平台上的 Claude 模型推出高级工具使用功能,旨在将 Claude 转变为一个强大的任务协调核心。这项新功能使 Claude 能够更可靠、更准确地与外部工具和 API 进行交互,从而自动化复杂的流程。
核心亮点包括:智能编排:Claude 现在可以充当“推理引擎”,将复杂的用户请求分解为一系列步骤,并调用合适的工具来完成任务。
强制工具使用:开发者可以指定模型必须使用某个特定工具,从而实现更可控和可预测的应用逻辑。
并行工具调用:模型能够同时调用多个工具,显著提高了处理需要多方信息输入的复杂任务的效率。
通过这些增强功能,开发者可以构建更复杂、更可靠的 AI 代理,使其能够处理从客户支持到复杂数据分析的各种自动化工作流。
原文链接:https://www.anthropic.com/engineering/advanced-tool-use
#Anthropic #Claude #AI #ToolUse #LLM - 这篇文章探讨了“制造软件”的真正含义. 作者认为,这远不止是编写代码,而是一个发现、创造和交付价值的完整过程. 它始于深入理解问题和用户需求,终于创造出能为他人生活带来积极改变的工具.
真正的挑战在于处理那些模糊不清、充满人性的部分:理解混乱的需求、平衡不同的观点、并在不断变化的环境中找到前进的道路.
软件开发是一门手艺,它结合了解决问题的智慧和创造有用工具的乐趣. 从一个想法到最终产品,这个过程充满了挑战,但也带来了巨大的满足感.
原文链接:Making Software
#软件开发 #产品思维 #编程 #创造力 - 互联网往事:为何我们从 IPv4 直接跳到了 IPv6?
我们都熟悉 IPv4 和 IPv6,但你是否好奇过 IPv5 去了哪里?
实际上,IPv5 确实存在过,它也被称为互联网流协议 (ST),是一个诞生于上世纪 70 年代末的实验性协议,专为实时数据流传输 (例如早期的网络电话) 而设计.
它与 IPv4 一样使用 32 位地址,但并非其替代品,更像是一个功能扩展. 然而,随着宽带技术的崛起,网络带宽和延迟问题得到了有效解决,使得 IPv5 的专门设计显得多余.
因此,这个协议最终被历史所尘封. 为了避免版本号上的混淆,当 IPv4 的下一代协议正式推出时,便直接命名为 IPv6.
原文链接:https://www.tomshardware.com/networking/ipv5-and-the-internet-stream-protocol-a-data-streaming-experiment-rendered-unnecessary-by-broadband
#IPv5 #IPv6 #网络协议 #互联网历史 - 将 “Skills” 系统移植到 OpenAI Codex
作者成功地将最初为 Anthropic 的 Claude 设计的 “Skills” 和 “Superpowers” 系统移植到了 OpenAI 的 Codex 上, 整个过程仅花费了几个小时, 展现了当前 AI 开发的惊人速度。
核心理念
“Skills” 系统是一种将人类的工作流程和知识规范化的方法, 允许 AI 代理学习、记忆和重复执行复杂的任务。这就像为 AI 创建一本操作手册, 使其能够不断学习和改进, 而无需在每次任务开始时都重新加载所有知识。
关键亮点
- 跨平台实现: 尽管 Codex 缺乏像 Claude那样的原生插件系统, 但作者通过巧妙的引导程序成功实现了移植。
- Codex 的优势: 文章指出, Codex 在遵循指令方面非常“字面化”, 这使得它在执行这些结构化的 “Skills” 时可能比 Claude 更可靠。
- 实践意义: 该系统允许开发者为 AI 代理构建一个可重复使用的流程库, 涵盖从头脑风暴到测试驱动开发等各种任务, 极大地提升了 AI 在软件开发中的自主性和效率。
简而言之, 这项工作为如何让 AI 学习和掌握标准操作流程提供了一个有趣的范例, 让 AI 代理的自我完善成为可能。
原文链接 - 构建 Agent 依然困难重重
作者 Armin Ronacher 分享了他在构建 AIAgent过程中的新经验和教训,坦言这一领域依旧充满挑战。
核心观点:
SDK 选择:高级抽象 SDK (如Vercel AI SDK) 在复杂场景下可能带来麻烦。直接使用原生 SDK (如OpenAI、Anthropic) 能更好地控制模型间的差异。
缓存策略:手动管理缓存(如Anthropic的方式)虽然看起来麻烦,但能让成本和效果更可控,因此更受青睐。
循环中的强化:在Agent的每次工具调用后,通过“强化”注入额外信息(如任务目标、状态更新、失败提示)至关重要。
失败隔离:将可能失败的任务放在子Agent中运行,可以避免主循环被大量失败信息干扰,保持上下文的整洁。
共享状态:建立一个类似文件系统的共享层,让不同工具和子Agent能方便地交换数据,是避免工作流程出现“死胡同”的关键。
输出工具的挑战:让Agent在最后稳定调用一个特定的“输出工具”(比如发邮件)并控制其语气,比想象中更难。
模型选择与成本:模型选择需因地制宜。Anthropic的模型在工具调用上表现优异,而Gemini擅长处理长文档。高效的Agent能减少 Token 消耗,因此模型单价低不代表总成本低。
测试与评估:这仍然是构建Agent中最难、最令人头疼的问题,目前尚无完美的解决方案。
原文链接 - MCP Apps:为服务器带来交互式用户界面
模型上下文协议(MCP)社区发布了一项名为 “MCP Apps” 的新扩展提案,旨在为 MCP 引入标准化的交互式用户界面支持。此举旨在解决当前服务器在呈现视觉信息、收集复杂用户输入时遇到的局限性,并避免生态系统的碎片化。
该提案由来自 Anthropic、OpenAI 的 MCP 核心维护者与 MCP-UI 社区共同合作,融合了 MCP-UI 和 OpenAI Apps SDK 的成功经验。提案亮点
- 标准化接口:为服务器向客户端提供丰富的交互式 UI 制定了统一标准。
- 增强安全性:UI 内容将在沙盒 iframe 中运行,并通过预声明模板、可审计消息和用户同意机制等多层设计确保安全。
- 向后兼容:该扩展为可选功能,现有实现无需更改即可继续工作。
- 社区协作:鼓励开发者审阅完整的技术规范并参与讨论。
原文链接:https://blog.modelcontextprotocol.io/posts/2025-11-21-mcp-apps/ -
- 你的数据包是如何环游世界的?
当你访问一个网站时,数据究竟走了怎样一条路?这个有趣的交互式网站,通过traceroute技术,为你实时展示了从它的服务器到你设备的网络路径。
文章深入浅出地解释了其背后的核心技术:Traceroute:利用 ICMP 包的 TTL(生存时间)机制,一步步“探测”出数据包经过的每一个路由器节点。
自治系统 (AS):我们所说的互联网,实际上是由成千上万个独立管理的网络(即自治系统)互联而成的巨大网络。你的访问请求就是在这些 AS 之间穿梭。
BGP 协议:决定数据路径的“交通规则”正是 BGP(边界网关协议)。它负责在各个自治系统之间交换路由信息,从而规划出数据传输的最佳路线。
此外,该网站还有一个技术亮点:它在不使用 JavaScript 的情况下,仅通过巧妙的 CSS 技巧就实现了traceroute结果的动态加载。
这篇文章不仅是一个酷炫的技术展示,更是一篇关于互联网底层结构与协议的绝佳科普。
原文链接: https://how-did-i-get-here.net/ - Kata Containers:兼具容器的速度与虚拟机的安全
这是一个开源容器运行时,它利用轻量级虚拟机,在提供硬件级强隔离的同时,保持了容器般的速度和体验,有效解决了传统容器共享内核带来的安全风险。
主要特性:
🚀 性能:性能媲美标准 Linux 容器,没有传统虚拟机的性能损耗。
🛡️ 安全:通过硬件虚拟化技术 (VT 扩展) 实现内核、网络、I/O 和内存的全面隔离。
🧩 兼容性:支持 OCI 容器格式、Kubernetes CRI 接口等行业标准。
💡 简洁性:无需在完整虚拟机中嵌套容器,易于集成和使用。
该项目由 Open Infrastructure Foundation 管理,整合了 Intel Clear Containers 和 Hyper.sh RunV 的优点,并支持 QEMU、Cloud-Hypervisor 和 Firecracker 等多种管理程序。
原文链接:https://katacontainers.io/ - GitHub Copilot 编辑建议功能的进化之路
GitHub Copilot 的“下一处编辑建议” (NES) 功能旨在预测并推荐开发者下一步的代码修改,这项任务比简单的代码补全更具挑战性,因为它需要深入理解开发者的意图,并做到快速响应且不过度干扰.
关键突破:高质量的训练数据
团队发现,使用最终的 Pull Request 数据训练模型效果不佳,因为它无法反映开发者在编码过程中的真实、动态的编辑行为. 于是,他们转而收集内部志愿者的实时编码会话,构建了一个高质量的数据集. 事实证明,这比海量但不够精确的数据更有效.
从监督微调到强化学习
1. 监督微调 (SFT):利用上述高质量数据集,团队成功训练出第一个表现优异的 NES 模型.
2. 强化学习 (RL):为解决 SFT 无法教会模型“什么是不好的建议”这一问题,团队引入了强化学习. 通过设计一个“评分器”来判断建议质量,模型得以在更广泛的数据上进行训练,学会避免生成干扰性的建议.
最新模型的改进
最新版本的 NES 模型在多个方面进行了优化:
- 提示词优化:减少了上下文长度,提升响应速度.
- 数据质量过滤:使用大模型筛选训练数据,减少无用建议.
- 合成数据:从大模型蒸馏知识,训练出更高效的小模型.
- 超参数调整:为新架构优化参数,提升建议质量.
成果与未来
通过持续迭代,NES 模型的建议接受率提升了 26.5%,而隐藏率则降低了 25.6%. 未来,GitHub 计划让 NES 支持跨文件建议、提供更快的响应并更智能地理解上下文.
原文链接 - Agent Sessions 2: 统一管理你的 AI 命令行会话
Agent Sessions 2 是一款专为开发者设计的本地会话浏览器,它将 Codex CLI、Claude Code 和 Gemini CLI 的会话整合在一个强大的界面中. 无论你是想查找过去某个完美的提示词,还是需要快速恢复一个旧的会话,它都能帮你轻松搞定.
主要功能
✨ 统一界面与搜索:跨平台浏览和搜索所有会话.
🚀 即时恢复:在终端中一键重新打开任何会话.
📊 用量追踪:实时监控 API 使用情况,避免超出限制.
📈 数据分析:提供会话趋势、热力图等可视化洞察.
🔒 本地优先,保护隐私:所有数据均在本地处理,无需上传云端.
该应用完全开源,可通过 Homebrew 安装.
原始链接: https://jazzyalex.github.io/agent-sessions/ - mcp-use Python SDK 新功能:代码模式
mcp-use推出了创新的“代码模式”(Code Mode),允许 AI 代理通过执行代码与工具交互,而非传统的直接调用. 这种新方法能为复杂工作流节省高达 98.7% 的上下文(Context)消耗.
传统的工具调用方式存在两大痛点:
1. 上下文过载:一次性加载所有工具(如 150+ 个)的定义,会预先消耗大量 Token.
2. 中间结果冗余:每个工具的输出结果都需要流经模型,即使只是为了传递给下一个工具.
代码模式通过让 AI 代理生成并执行代码,巧妙地解决了这些问题.
核心优势
渐进式披露
代理按需搜索并加载工具,无需预加载所有工具定义,将 Token 消耗从150,000+降至约2,000.
上下文高效
在独立环境中处理海量数据,仅将最终摘要返回给代理,避免将庞大的中间结果(如 10,000 行数据)写入上下文.
强大的控制流
利用代码原生支持的循环、条件和错误处理等逻辑,高效处理复杂任务,告别繁琐的工具调用链.
隐私保护
敏感数据在安全的执行环境中处理和流转,不会进入模型上下文,有效保护数据隐私.
工作原理
在代码模式下,AI 代理主要使用两个新工具:
-execute_code: 执行一段 Python 代码来调用其他工具.
-search_tools: 动态搜索和发现可用的工具.
实际效果
以文件系统批量重命名任务为例,代码模式将工具调用次数减少了 94%,上下文 Token 消耗降低了 94%,执行速度提升了 17 倍.
---
原始链接 - 深入 iMessage 底层:一个 Agent 是如何诞生的
苹果的 iMessage 功能强大,但始终没有向开发者开放自动化接口。这篇文章深入探讨了如何通过逆向工程和系统工具,构建一个能以代码方式收发 iMessage 消息的 Agent,其核心成果是一个名为imessage-kit的开源项目。
技术探索亮点:数据库探秘:揭示了 iMessage 消息存储在
~/Library/Messages/chat.db数据库中,并解决了 macOS 特有的时间戳(始于 2001 年)和富文本格式解析难题。
权限与安全:详细说明了如何获取 macOS 的“完全磁盘访问权限”以读取数据库,并解释了为何应使用“轮询”而非文件监听来实时获取新消息。
AppleScript 的妙用与挑战:在没有官方 API 的情况下,利用古老的 AppleScript 成为发送消息的唯一途径。文章分享了处理字符转义、绕过沙盒限制发送附件等实用技巧。
开源实现:作者将所有研究成果封装成一个开源 TypeScript SDKimessage-kit,它屏蔽了底层复杂性,让开发者能轻松构建 iMessage 机器人、实现数据分析或与其他系统集成。
尽管该方案存在无法发送特效、Tapback 等局限,但它为实现 iMessage 自动化和 AI Agent 集成迈出了关键一步。
原文链接 - AI Proxy:新一代高性能 AI 网关
AI Proxy 是一个高性能的 AI 网关,它以 OpenAI 协议作为入口,为 AI 服务管理提供了一套强大而全面的解决方案.
✨ 核心功能
- 智能路由: 基于模型优先级和错误率,实现智能的渠道选择和错误重试.
- 全面监控: 提供详尽的日志记录、数据统计与分析,包括请求量、错误率、消耗等.
- 多功能支持: 内置多租户隔离、速率限制(RPM/TPM)、模型映射和计费等功能.
- 通知系统: 关键事件(如渠道余额、错误率)可配置告警通知.
🚀 部署与集成
- 支持 Docker 和 Docker Compose 一键部署.
- 可与 Sealos、FastGPT 等平台无缝集成.
对于需要统一管理、调度和监控多个 AI 模型服务的开发者和团队来说,AI Proxy 是一个理想的选择.
原始链接: https://github.com/labring/aiproxy - LLM Gateway:统一管理你的大语言模型 API
LLM Gateway 是一款开源的大语言模型 API 网关,它充当你的应用和多个 LLM 提供商(如 OpenAI、Anthropic、Google 等)之间的中间件,旨在帮助开发者更高效地管理、路由和分析 LLM 请求。
主要功能:
- 统一接口:提供与 OpenAI API 兼容的格式,方便应用无缝迁移。
- 多提供商路由:通过单一网关连接和路由到不同的 LLM 提供商。
- 用量分析:集中管理 API 密钥,跟踪请求、Token 用量、响应时间和成本。
- 性能监控:帮助你比较不同模型的性能和成本效益,以优化选择。
该项目支持云端托管版本和自部署两种方式,让你既可以快速上手,也可以完全掌控自己的数据。对于需要灵活切换、管理和分析多个 LLM 服务的开发者来说,这是一个非常实用的工具。
原始链接:https://github.com/theopenco/llmgateway - AIO Sandbox: AI 代理的一体化沙盒环境
agent-infra/sandbox是一个为 AI 代理设计的开源一体化沙盒环境,它将浏览器、终端、文件系统、VSCode Server 和 Jupyter Notebook 等多种工具集成在单个 Docker 容器中.
该项目旨在解决传统沙盒功能单一、组件间难以协作的问题. 通过共享统一的文件系统,用户可以在浏览器中下载文件,并立即在终端或代码编辑器中无缝访问,极大地简化了开发和调试流程.
主要特性*统一环境*: 所有工具共享文件系统,实现无缝工作流.
*多功能接口*: 支持通过 VNC、VSCode、Jupyter 和 Web 终端进行访问.
*安全执行*: 提供隔离的 Python 和 Node.js 运行时.
*开箱即用*: 预配置了多种开发工具和 MCP 服务,无需复杂设置.
*为代理而生*: 提供兼容 MCP 的 API,方便 AI 代理集成.
对于构建和测试 AI 代理的开发者来说,这是一个功能强大且便捷的工具.
原始链接 - 使用 ChatGPT 自动化社交媒体管理
还在为管理多个社交媒体平台而烦恼吗?这篇文章介绍了一个高效的工作流程,通过将 ChatGPT 与 Composio 的 Rube MCP 服务器相结合,让你在一个对话窗口内完成所有社交媒体管理任务.
这个智能社交媒体助手可以帮你:发现热点:无需无休止地刷屏,即可发现 Reddit 和 HackerNews 上的热门话题.
生成内容:轻松地为 Twitter 和 LinkedIn 等不同平台量身定制帖子.
直接发布:在 ChatGPT 内直接发布或安排你的内容,无需切换标签页.
追踪表现:在一个地方集中监控帖子的点赞、分享、浏览和评论.
Rube 是一个为 AI 代理设计的通用连接器,它为 ChatGPT 等模型搭建了一座桥梁,使其能轻松连接到数百个你日常使用的应用程序(如 Reddit、Twitter、HackerNews),并处理了繁琐的 API 对接和身份验证问题.
通过这种方式,你可以将社交媒体管理从一项耗时的工作转变为一个智能、自动化的系统,从而节省时间,专注于创作优质内容.
原文链接:Managing social media and making viral content in Chatgpt using Rube MCP -
- Anthropic 新方法:用代码执行提升 AI 代理效率
Anthropic 提出了一种利用代码执行和模型上下文协议 (MCP) 来构建更高效、更具扩展性 AI 代理的新方法。
目前 AI 代理在连接大量工具时,常因一次性加载所有工具定义而导致上下文窗口过载、成本激增。同时,工具调用的中间结果(如长文档)反复传入模型,也极其低效。
Anthropic 的解决方案是:让 AI 代理编写代码与工具 API 交互,而非直接调用。这样,代理能像浏览文件系统一样,按需加载完成任务所需的特定工具,从而解决上述难题。
这一方法带来了几点核心优势:
✅ 大幅降低 Token 消耗
按需加载可将 Token 使用量减少高达 98% (文中示例从 15 万降至 2 千)。
⚙️ 高效的数据流
代理可在代码环境中预处理海量数据,只将关键结果返回模型,避免上下文被淹没。
🔒 增强隐私与安全
敏感信息可在安全的执行环境中处理,无需进入模型上下文,有效保护数据隐私。
🧠 实现技能积累
代理能将代码保存为可复用的“技能”,实现跨任务的记忆和能力成长。
虽然该方法需要安全的沙箱执行环境,增加了实现复杂性,但其在效率和能力上的提升是显著的。
原文链接: https://www.anthropic.com/engineering/code-execution-with-mcp