面条的草稿箱
无原创,纯转发
-
-
- 如何让 AI Agent 高效处理长期复杂任务?
当 AI 智能体(Agent)处理需要数小时甚至数天的复杂任务时,它们常常会因为上下文窗口的限制而“失忆”,导致工作中断、效率低下。Anthropic 从人类软件工程师的协作模式中汲取灵感,设计了一套有效的解决方案。
核心方法分为两步:
1️⃣ 初始化智能体(Initializer Agent)在任务开始时,该智能体首先搭建好整个工作环境。它会:
- 分解任务:将用户的高级指令分解成一个详尽的功能列表(features list)并存入 JSON 文件。
- 建立基础:创建init.sh启动脚本、claude-progress.txt进度日志文件,并完成首次 Git 提交。
这确保了后续工作有清晰的目标和坚实的基础,避免了 Agent 试图一次性完成所有工作或过早宣布任务完成。
2️⃣ 编码智能体(Coding Agent)在后续的每一个会话中,编码智能体都遵循“小步快跑”的原则:
- 聚焦单点:每次只专注于实现功能列表中的一项。
- 记录进展:完成一项功能后,通过 Git 提交代码并附上清晰的说明,同时更新进度日志文件。
- 严格测试:利用 Puppeteer 等浏览器自动化工具进行端到端测试,确保代码质量。
这种“初始化 + 增量编码”的模式,让每个 Agent 在开始新会话时,都能通过阅读日志和功能列表快速了解项目状态,确保工作连贯、高效。它有效地解决了 AI Agent 在长期任务中的一致性问题,使其能像一个纪律严明的工程团队一样协作。
阅读原文
#AI #Agent #LLM #Anthropic #软件工程 - 如何更好地使用 AI 进行 UI 设计?Lovable 的 Prompt 指南
这是一篇关于如何在使用 AI UI 构建工具 Lovable 时,写出更有效 Prompt 的实用指南。核心思想是通过结构化、系统化的方式与 AI 沟通,从而获得高质量、可控的设计成果。
一个非常有效的技巧是让 AI 主动提问。在你的需求后面加上一句:“为了完全理解我的需求,请向我提问”,这样可以提前澄清细节,避免后期反复修改。
指南将整个过程分为四个阶段:1. 奠定基础
在动手前先做好规划,明确产品功能、目标用户和核心操作。从一开始就确定好整体的设计风格,是后续所有工作的基础。2. 系统化思考
不要一次性生成整个页面,而是像搭积木一样,按组件(如导航栏、卡片)进行构建。使用真实内容而非占位符,并使用具体的 UI 术语(按钮、模态框)和风格关键词(如“极简”、“电影感”)来精确传达你的意图。3. 精确构建
为常用布局创建可复用的 Prompt 模式以提高效率。通过 URL 直接添加图片或视频素材,并善用“编辑”功能进行微调,而不是每次都从头开始。4. 迭代与发布
在设计阶段就考虑后端逻辑(如用户登录状态),并有意识地对设计进行版本管理,让迭代过程清晰可控。
这套方法论不仅适用于 Lovable,对我们与其他 AI 工具进行高效协作也极具启发。
原文链接:https://docs.lovable.dev/prompting/prompting-one
#AI #提示工程 #UIDesign #Web开发 #Lovable - 如何编写出色的
agents.md文件?
GitHub 分析超 2500 个仓库的经验总结
GitHub Copilot 新推出的自定义代理功能,允许你通过agents.md文件构建专属的 AI 专家团队,例如@docs-agent(文档工程师) 或@test-agent(测试工程师).
然而,大多数代理文件因指令模糊而效果不佳。“你是一个有用的编程助手” 这类宽泛的描述是行不通的.
GitHub 团队通过分析超过 2500 个agents.md文件,总结出了编写高效代理的关键要素:为 AI 提供具体的操作手册,而不是模糊的提示。
成功的agents.md文件都具备以下特点:
1. 明确角色与专长清晰定义代理的身份,例如:“你是一名测试工程师,为 React 组件编写测试”.
2. 提供可执行命令将
npm test,pytest -v等具体命令放在前面,代理会频繁引用它们.
3. 代码范例优于解释一个真实的代码片段比三段描述更能清晰地传达你的代码风格.
4. 设定清晰的边界明确告知 AI 不能做什么,例如:“绝不提交密钥”、“不要修改
src/目录下的源代码”.
5. 详细说明技术栈使用 “React 18 with TypeScript, Vite, and Tailwind CSS”,而不是笼统的 “React project”.
6. 覆盖六大核心领域命令、测试、项目结构、代码风格、Git 工作流和边界.
如何开始?
从一个简单的任务开始,比如编写单元测试或修复 lint 错误. 你可以让 Copilot 帮助生成初始的agents.md文件,然后在此基础上进行迭代优化.
原文链接
#GitHub #Copilot #AI #Agents #Developer -
- Anthropic 为 Claude 推出高级工具使用功能
Anthropic 近日宣布为其开发者平台上的 Claude 模型推出高级工具使用功能,旨在将 Claude 转变为一个强大的任务协调核心。这项新功能使 Claude 能够更可靠、更准确地与外部工具和 API 进行交互,从而自动化复杂的流程。
核心亮点包括:智能编排:Claude 现在可以充当“推理引擎”,将复杂的用户请求分解为一系列步骤,并调用合适的工具来完成任务。
强制工具使用:开发者可以指定模型必须使用某个特定工具,从而实现更可控和可预测的应用逻辑。
并行工具调用:模型能够同时调用多个工具,显著提高了处理需要多方信息输入的复杂任务的效率。
通过这些增强功能,开发者可以构建更复杂、更可靠的 AI 代理,使其能够处理从客户支持到复杂数据分析的各种自动化工作流。
原文链接:https://www.anthropic.com/engineering/advanced-tool-use
#Anthropic #Claude #AI #ToolUse #LLM - 这篇文章探讨了“制造软件”的真正含义. 作者认为,这远不止是编写代码,而是一个发现、创造和交付价值的完整过程. 它始于深入理解问题和用户需求,终于创造出能为他人生活带来积极改变的工具.
真正的挑战在于处理那些模糊不清、充满人性的部分:理解混乱的需求、平衡不同的观点、并在不断变化的环境中找到前进的道路.
软件开发是一门手艺,它结合了解决问题的智慧和创造有用工具的乐趣. 从一个想法到最终产品,这个过程充满了挑战,但也带来了巨大的满足感.
原文链接:Making Software
#软件开发 #产品思维 #编程 #创造力 - 互联网往事:为何我们从 IPv4 直接跳到了 IPv6?
我们都熟悉 IPv4 和 IPv6,但你是否好奇过 IPv5 去了哪里?
实际上,IPv5 确实存在过,它也被称为互联网流协议 (ST),是一个诞生于上世纪 70 年代末的实验性协议,专为实时数据流传输 (例如早期的网络电话) 而设计.
它与 IPv4 一样使用 32 位地址,但并非其替代品,更像是一个功能扩展. 然而,随着宽带技术的崛起,网络带宽和延迟问题得到了有效解决,使得 IPv5 的专门设计显得多余.
因此,这个协议最终被历史所尘封. 为了避免版本号上的混淆,当 IPv4 的下一代协议正式推出时,便直接命名为 IPv6.
原文链接:https://www.tomshardware.com/networking/ipv5-and-the-internet-stream-protocol-a-data-streaming-experiment-rendered-unnecessary-by-broadband
#IPv5 #IPv6 #网络协议 #互联网历史 - 将 “Skills” 系统移植到 OpenAI Codex
作者成功地将最初为 Anthropic 的 Claude 设计的 “Skills” 和 “Superpowers” 系统移植到了 OpenAI 的 Codex 上, 整个过程仅花费了几个小时, 展现了当前 AI 开发的惊人速度。
核心理念
“Skills” 系统是一种将人类的工作流程和知识规范化的方法, 允许 AI 代理学习、记忆和重复执行复杂的任务。这就像为 AI 创建一本操作手册, 使其能够不断学习和改进, 而无需在每次任务开始时都重新加载所有知识。
关键亮点
- 跨平台实现: 尽管 Codex 缺乏像 Claude那样的原生插件系统, 但作者通过巧妙的引导程序成功实现了移植。
- Codex 的优势: 文章指出, Codex 在遵循指令方面非常“字面化”, 这使得它在执行这些结构化的 “Skills” 时可能比 Claude 更可靠。
- 实践意义: 该系统允许开发者为 AI 代理构建一个可重复使用的流程库, 涵盖从头脑风暴到测试驱动开发等各种任务, 极大地提升了 AI 在软件开发中的自主性和效率。
简而言之, 这项工作为如何让 AI 学习和掌握标准操作流程提供了一个有趣的范例, 让 AI 代理的自我完善成为可能。
原文链接 - 构建 Agent 依然困难重重
作者 Armin Ronacher 分享了他在构建 AIAgent过程中的新经验和教训,坦言这一领域依旧充满挑战。
核心观点:
SDK 选择:高级抽象 SDK (如Vercel AI SDK) 在复杂场景下可能带来麻烦。直接使用原生 SDK (如OpenAI、Anthropic) 能更好地控制模型间的差异。
缓存策略:手动管理缓存(如Anthropic的方式)虽然看起来麻烦,但能让成本和效果更可控,因此更受青睐。
循环中的强化:在Agent的每次工具调用后,通过“强化”注入额外信息(如任务目标、状态更新、失败提示)至关重要。
失败隔离:将可能失败的任务放在子Agent中运行,可以避免主循环被大量失败信息干扰,保持上下文的整洁。
共享状态:建立一个类似文件系统的共享层,让不同工具和子Agent能方便地交换数据,是避免工作流程出现“死胡同”的关键。
输出工具的挑战:让Agent在最后稳定调用一个特定的“输出工具”(比如发邮件)并控制其语气,比想象中更难。
模型选择与成本:模型选择需因地制宜。Anthropic的模型在工具调用上表现优异,而Gemini擅长处理长文档。高效的Agent能减少 Token 消耗,因此模型单价低不代表总成本低。
测试与评估:这仍然是构建Agent中最难、最令人头疼的问题,目前尚无完美的解决方案。
原文链接 - MCP Apps:为服务器带来交互式用户界面
模型上下文协议(MCP)社区发布了一项名为 “MCP Apps” 的新扩展提案,旨在为 MCP 引入标准化的交互式用户界面支持。此举旨在解决当前服务器在呈现视觉信息、收集复杂用户输入时遇到的局限性,并避免生态系统的碎片化。
该提案由来自 Anthropic、OpenAI 的 MCP 核心维护者与 MCP-UI 社区共同合作,融合了 MCP-UI 和 OpenAI Apps SDK 的成功经验。提案亮点
- 标准化接口:为服务器向客户端提供丰富的交互式 UI 制定了统一标准。
- 增强安全性:UI 内容将在沙盒 iframe 中运行,并通过预声明模板、可审计消息和用户同意机制等多层设计确保安全。
- 向后兼容:该扩展为可选功能,现有实现无需更改即可继续工作。
- 社区协作:鼓励开发者审阅完整的技术规范并参与讨论。
原文链接:https://blog.modelcontextprotocol.io/posts/2025-11-21-mcp-apps/ -
- 你的数据包是如何环游世界的?
当你访问一个网站时,数据究竟走了怎样一条路?这个有趣的交互式网站,通过traceroute技术,为你实时展示了从它的服务器到你设备的网络路径。
文章深入浅出地解释了其背后的核心技术:Traceroute:利用 ICMP 包的 TTL(生存时间)机制,一步步“探测”出数据包经过的每一个路由器节点。
自治系统 (AS):我们所说的互联网,实际上是由成千上万个独立管理的网络(即自治系统)互联而成的巨大网络。你的访问请求就是在这些 AS 之间穿梭。
BGP 协议:决定数据路径的“交通规则”正是 BGP(边界网关协议)。它负责在各个自治系统之间交换路由信息,从而规划出数据传输的最佳路线。
此外,该网站还有一个技术亮点:它在不使用 JavaScript 的情况下,仅通过巧妙的 CSS 技巧就实现了traceroute结果的动态加载。
这篇文章不仅是一个酷炫的技术展示,更是一篇关于互联网底层结构与协议的绝佳科普。
原文链接: https://how-did-i-get-here.net/ - Kata Containers:兼具容器的速度与虚拟机的安全
这是一个开源容器运行时,它利用轻量级虚拟机,在提供硬件级强隔离的同时,保持了容器般的速度和体验,有效解决了传统容器共享内核带来的安全风险。
主要特性:
🚀 性能:性能媲美标准 Linux 容器,没有传统虚拟机的性能损耗。
🛡️ 安全:通过硬件虚拟化技术 (VT 扩展) 实现内核、网络、I/O 和内存的全面隔离。
🧩 兼容性:支持 OCI 容器格式、Kubernetes CRI 接口等行业标准。
💡 简洁性:无需在完整虚拟机中嵌套容器,易于集成和使用。
该项目由 Open Infrastructure Foundation 管理,整合了 Intel Clear Containers 和 Hyper.sh RunV 的优点,并支持 QEMU、Cloud-Hypervisor 和 Firecracker 等多种管理程序。
原文链接:https://katacontainers.io/ - GitHub Copilot 编辑建议功能的进化之路
GitHub Copilot 的“下一处编辑建议” (NES) 功能旨在预测并推荐开发者下一步的代码修改,这项任务比简单的代码补全更具挑战性,因为它需要深入理解开发者的意图,并做到快速响应且不过度干扰.
关键突破:高质量的训练数据
团队发现,使用最终的 Pull Request 数据训练模型效果不佳,因为它无法反映开发者在编码过程中的真实、动态的编辑行为. 于是,他们转而收集内部志愿者的实时编码会话,构建了一个高质量的数据集. 事实证明,这比海量但不够精确的数据更有效.
从监督微调到强化学习
1. 监督微调 (SFT):利用上述高质量数据集,团队成功训练出第一个表现优异的 NES 模型.
2. 强化学习 (RL):为解决 SFT 无法教会模型“什么是不好的建议”这一问题,团队引入了强化学习. 通过设计一个“评分器”来判断建议质量,模型得以在更广泛的数据上进行训练,学会避免生成干扰性的建议.
最新模型的改进
最新版本的 NES 模型在多个方面进行了优化:
- 提示词优化:减少了上下文长度,提升响应速度.
- 数据质量过滤:使用大模型筛选训练数据,减少无用建议.
- 合成数据:从大模型蒸馏知识,训练出更高效的小模型.
- 超参数调整:为新架构优化参数,提升建议质量.
成果与未来
通过持续迭代,NES 模型的建议接受率提升了 26.5%,而隐藏率则降低了 25.6%. 未来,GitHub 计划让 NES 支持跨文件建议、提供更快的响应并更智能地理解上下文.
原文链接 - Agent Sessions 2: 统一管理你的 AI 命令行会话
Agent Sessions 2 是一款专为开发者设计的本地会话浏览器,它将 Codex CLI、Claude Code 和 Gemini CLI 的会话整合在一个强大的界面中. 无论你是想查找过去某个完美的提示词,还是需要快速恢复一个旧的会话,它都能帮你轻松搞定.
主要功能
✨ 统一界面与搜索:跨平台浏览和搜索所有会话.
🚀 即时恢复:在终端中一键重新打开任何会话.
📊 用量追踪:实时监控 API 使用情况,避免超出限制.
📈 数据分析:提供会话趋势、热力图等可视化洞察.
🔒 本地优先,保护隐私:所有数据均在本地处理,无需上传云端.
该应用完全开源,可通过 Homebrew 安装.
原始链接: https://jazzyalex.github.io/agent-sessions/ - mcp-use Python SDK 新功能:代码模式
mcp-use推出了创新的“代码模式”(Code Mode),允许 AI 代理通过执行代码与工具交互,而非传统的直接调用. 这种新方法能为复杂工作流节省高达 98.7% 的上下文(Context)消耗.
传统的工具调用方式存在两大痛点:
1. 上下文过载:一次性加载所有工具(如 150+ 个)的定义,会预先消耗大量 Token.
2. 中间结果冗余:每个工具的输出结果都需要流经模型,即使只是为了传递给下一个工具.
代码模式通过让 AI 代理生成并执行代码,巧妙地解决了这些问题.
核心优势
渐进式披露
代理按需搜索并加载工具,无需预加载所有工具定义,将 Token 消耗从150,000+降至约2,000.
上下文高效
在独立环境中处理海量数据,仅将最终摘要返回给代理,避免将庞大的中间结果(如 10,000 行数据)写入上下文.
强大的控制流
利用代码原生支持的循环、条件和错误处理等逻辑,高效处理复杂任务,告别繁琐的工具调用链.
隐私保护
敏感数据在安全的执行环境中处理和流转,不会进入模型上下文,有效保护数据隐私.
工作原理
在代码模式下,AI 代理主要使用两个新工具:
-execute_code: 执行一段 Python 代码来调用其他工具.
-search_tools: 动态搜索和发现可用的工具.
实际效果
以文件系统批量重命名任务为例,代码模式将工具调用次数减少了 94%,上下文 Token 消耗降低了 94%,执行速度提升了 17 倍.
---
原始链接 - 深入 iMessage 底层:一个 Agent 是如何诞生的
苹果的 iMessage 功能强大,但始终没有向开发者开放自动化接口。这篇文章深入探讨了如何通过逆向工程和系统工具,构建一个能以代码方式收发 iMessage 消息的 Agent,其核心成果是一个名为imessage-kit的开源项目。
技术探索亮点:数据库探秘:揭示了 iMessage 消息存储在
~/Library/Messages/chat.db数据库中,并解决了 macOS 特有的时间戳(始于 2001 年)和富文本格式解析难题。
权限与安全:详细说明了如何获取 macOS 的“完全磁盘访问权限”以读取数据库,并解释了为何应使用“轮询”而非文件监听来实时获取新消息。
AppleScript 的妙用与挑战:在没有官方 API 的情况下,利用古老的 AppleScript 成为发送消息的唯一途径。文章分享了处理字符转义、绕过沙盒限制发送附件等实用技巧。
开源实现:作者将所有研究成果封装成一个开源 TypeScript SDKimessage-kit,它屏蔽了底层复杂性,让开发者能轻松构建 iMessage 机器人、实现数据分析或与其他系统集成。
尽管该方案存在无法发送特效、Tapback 等局限,但它为实现 iMessage 自动化和 AI Agent 集成迈出了关键一步。
原文链接 - AI Proxy:新一代高性能 AI 网关
AI Proxy 是一个高性能的 AI 网关,它以 OpenAI 协议作为入口,为 AI 服务管理提供了一套强大而全面的解决方案.
✨ 核心功能
- 智能路由: 基于模型优先级和错误率,实现智能的渠道选择和错误重试.
- 全面监控: 提供详尽的日志记录、数据统计与分析,包括请求量、错误率、消耗等.
- 多功能支持: 内置多租户隔离、速率限制(RPM/TPM)、模型映射和计费等功能.
- 通知系统: 关键事件(如渠道余额、错误率)可配置告警通知.
🚀 部署与集成
- 支持 Docker 和 Docker Compose 一键部署.
- 可与 Sealos、FastGPT 等平台无缝集成.
对于需要统一管理、调度和监控多个 AI 模型服务的开发者和团队来说,AI Proxy 是一个理想的选择.
原始链接: https://github.com/labring/aiproxy