面条的草稿箱

无原创，纯转发

09:18 · 2025年12月9日 · 周二

n8n 2.0 正式发布：安全优先的重大升级

n8n 团队宣布发布 2.0 版本，这不是一次花哨的功能更新，而是专注于安全性、可靠性和性能的底层重构。

核心改进

安全性：任务运行器默认启用，所有代码节点在隔离环境中执行；环境变量访问和任意命令执行默认关闭，采用"默认安全"原则。

可靠性：移除遗留选项，修复边缘情况 bug，子工作流的 Wait 节点现在能正确返回数据。

性能：新的 SQLite 池化驱动在基准测试中快达 10 倍，文件系统二进制数据处理更稳定。

新功能亮点

• Publish / Save 分离：保存不再直接更新生产环境，新增独立的"发布"按钮，让上线更安全
• 工作流画布视觉优化
• 侧边栏导航重组

升级须知

官方提供了迁移报告工具，可在 Settings → Migration Report 中查看需要处理的问题。1.x 版本将继续支持 3 个月。

时间线：Beta 版 12 月 8 日发布，稳定版 12 月 15 日发布。

里程碑回顾

自 2023 年 7 月 1.0 发布以来：GitHub Stars 从 3 万增至 16 万，社区成员从 6000+ 增至 11.5 万，团队从 30 人扩展至 190+ 人。

🔗 原文链接

 #n8n #自动化工作流 #开源 #版本更新 #低代码
n8n Blog

Introducing n8n 2.0

n8n 2.0 focuses on secure-by-default execution with better reliability and performance.

n8n 自动化工作流开源版本更新低代码
18:56 · 2025年12月8日 · 周一

Claude Diary：让 AI 代理像人类一样从经验中学习

开发者 Lance Martin 创建了一个名为 Claude Diary 的插件，让 Claude Code 具备了从经验中学习并更新自身记忆的能力——这正是许多 AI 代理所缺乏的"持续学习"能力.

核心机制：反思式记忆系统

该插件借鉴了学术研究中的代理记忆框架，采用"生成-反思-整合"的方法：
• 通过 /diary 命令生成会话日记，记录关键决策、挑战和用户偏好
• 通过 /reflect 命令分析日记条目，提炼出通用规则并更新到 CLAUDE.md 系统指令文件
• 自动跟踪已处理的条目，避免重复分析

实际应用场景

过去一个月的使用中，Claude Diary 在以下方面表现出色：
• PR 评审反馈：将代码审查意见转化为持久化规则
• 工作流偏好：学习用户的 Git 提交风格、分支命名习惯
• 测试策略：识别出"先跑目标测试快速验证，再跑完整测试套件"的模式
• 代码质量：避免文件与包目录命名冲突等反模式
• 自我纠正：发现并强化未被遵守的指令规则

该插件代码完全开源，命令基于提示词实现，易于定制和扩展.

原文链接

 #AI代理 #持续学习 #Claude #记忆系统 #开源工具
rlancemartin.github.io

Claude Diary

Creating a memory system for Claude Code.

AI代理持续学习 Claude 记忆系统开源工具
22:23 · 2025年12月7日 · 周日

Claude Opus 4.5：AI Agent 时代的里程碑

作者在使用 Claude Opus 4.5 两周后认为，这是 AI 发展史上的重要时刻，堪比 GPT-4 开启聊天时代、Sonnet 3.5 开启编程时代——Opus 4.5 正式开启了 Agent 时代.

核心观点：

• 可靠的 AI 助手：Opus 4.5 就像 Waymo 自动驾驶，告诉它"从 A 到 B"，它就能自主完成. 这种体验会彻底改变你的工作方式.

• 最佳组合：Opus 4.5 + Claude Agent SDK 是构建实用 Agent 的黄金搭档. 模型再好，没有优秀的框架也白搭. 这套组合让 Agent 真正能完成复杂的现实任务.

• Anthropic 的崛起：过去三年，Anthropic 年收入增长 10 倍（2025 年预计达 100 亿美元）. 作者预测其估值可能在 2027 年初超越 OpenAI.

实用建议：

- 把 Opus 4.5 当作真正的同事，给它更复杂的任务，信任它独立完成
- 用语音输入随意表达想法，让它整理成完整方案
- Claude Code + Opus 4.5 是目前最强的 AI 编程工具，新的"计划模式"显著提升了复杂任务表现
- 尝试编写伪代码，Opus 4.5 能精准理解意图并实现
- 深入学习 Claude Agent SDK，用它构建自动化工具来处理日常重复任务

Opus 4.5 的图像理解能力大幅提升，截图转代码功能达到全新水平. 作者强调：如果你对 Agent 持怀疑态度，现在该转变了——这一切都是真的.

阅读原文

 #ClaudeOpus45 #AIAgent #Anthropic #AI编程 #自动化工具
Mckaywrigley

My Thoughts on Claude Opus 4.5

My thoughts on Claude Opus 4.5 and unlocking agents.

ClaudeOpus45 AIAgent Anthropic AI编程自动化工具
22:07 · 2025年12月7日 · 周日

AI 代理上下文工程实战：Manus 团队的六大核心经验

Manus 团队在构建 AI 代理过程中，经历了四次框架重建，最终总结出六条关键原则：

1. 围绕 KV 缓存设计
KV 缓存命中率是最关键指标，直接影响延迟和成本(10倍差距). 实践要点：保持提示前缀稳定(避免时间戳)、使用只追加式上下文、确定性序列化 JSON.

2. 遮蔽而非移除工具
动态增删工具会破坏 KV 缓存并导致模型困惑. 解决方案是使用状态机掩蔽 token logits，通过响应预填充约束动作空间，同时保持工具定义稳定.

3. 文件系统作为上下文
面对 128K token 限制和长上下文性能下降问题，Manus 将文件系统视为无限外部记忆. 代理学会按需读写文件，压缩策略保持可恢复性(如保留 URL 可重新获取网页).

4. 通过复述操控注意力
典型任务需约 50 次工具调用，易偏离目标. Manus 通过不断更新 todo.md 文件，将全局计划推入模型近期注意力范围，避免"迷失在中间"问题.

5. 保留错误内容
将失败尝试保留在上下文中，让模型看到错误和堆栈跟踪，隐式更新内部信念，降低重复错误概率. 错误恢复能力是真正代理行为的核心指标.

6. 避免少样本示例陷阱
重复的行动-观察对会让模型陷入固定模式. 通过引入结构化变化(不同模板、措辞、格式噪音)增加多样性，打破模式依赖.

核心启示：上下文工程决定代理的速度、恢复能力和扩展范围. 智能代理的未来需要精心设计每一个上下文.

原文链接

 #AI代理 #上下文工程 #Manus #LLM优化 #KV缓存
manus.im

AI代理的上下文工程：构建Manus的经验教训

这篇文章分享了Manus通过我们自己的"SGD"所达到的局部最优解。如果你正在构建自己的AI代理，我们希望这些原则能帮助你更快地收敛。

AI代理上下文工程 Manus LLM优化 KV缓存
09:39 · 2025年12月7日 · 周日

Open Scouts：AI 驱动的网页监控平台

Open Scouts 是一个开源的 AI 网页监控工具，让你创建自动化的"侦察兵"持续搜索网络，并在发现目标信息时发送邮件通知\。无论是追踪附近的新餐厅、监控 AI 资讯，还是其他内容，侦察兵都会 24/7 为你工作.

核心特性
• AI 智能代理：基于 OpenAI GPT-4，自动配置搜索策略
• 灵活调度：支持每日、每 3 天、每周执行频率
• 邮件通知：发现结果时自动推送到邮箱
• 语义搜索：使用 pgvector 向量嵌入生成智能摘要
• 用户隔离：通过 Supabase Auth 实现安全的多用户支持

技术栈
采用 Next.js 16、React 19、TypeScript、Tailwind CSS v4 构建，后端使用 Supabase + PostgreSQL，集成 Firecrawl 网页抓取、OpenAI API 和 Resend 邮件服务\。

可扩展架构
使用 pg_cron + pg_net + Edge Functions 实现调度分发，每个侦察兵独立执行，轻松扩展至数千个任务\。

查看项目

 #AI智能体 #网页监控 #自动化工具 #开源项目 #Supabase
GitHub

GitHub - firecrawl/open-scouts: 🔥 AI-powered web monitoring platform. Create automated scouts that search the web and send email…

🔥 AI-powered web monitoring platform. Create automated scouts that search the web and send email alerts when they find what you're looking for. - firecrawl/open-scouts

AI智能体网页监控自动化工具开源项目 Supabase
19:51 · 2025年12月5日 · 周五

AI 现状：来自 100 万亿 Token 的实证研究

a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况。这项研究为我们提供了关于模型生态、用户行为和未来趋势的深刻洞见。

以下是几个核心发现：

开源模型的崛起
开源模型已占据约三分之一的市场份额，其中来自中国的模型增长尤为迅猛。在开源领域，创意角色扮演和编程辅助是两大主要应用场景。

智能体推理成为新常态
LLM 的使用正从简单的单轮问答转向集成了工具调用、具备多步规划能力的“智能体推理”。更长的上下文输入和对推理模型的偏爱都证明了这一趋势。

编程与角色扮演：两大支柱
在所有模型中，“编程”是增长最快的专业应用，而“角色扮演”则是一个体量惊人的消费级应用，其使用量几乎与专业任务相当。

“灰姑娘的水晶鞋”效应
研究发现，当一个新模型率先完美解决了某个特定高价值问题时，其早期用户会表现出极高的忠诚度和留存率，形成稳固的“基础用户群”。

价值驱动，而非价格
LLM 市场尚未商品化，需求对价格相对不敏感。用户愿意为高可靠性的闭源模型支付溢价以完成关键任务，而开源模型则在成本敏感的高容量场景中占据优势。

AI 使用的全球化
AI 的使用日益全球化，北美地区支出已低于总额的一半，亚洲市场份额则翻倍增长至近三分之一，显示出强劲的消费和创新能力。

报告揭示了一个多元、动态且竞争激烈的 LLM 生态系统。实际的用户行为往往超出传统认知，从智能体的兴起到角色扮演的流行，都预示着 AI 应用的未来充满了更多可能性。

原文链接

 #AI趋势 #大语言模型 #数据分析 #开源模型 #智能体
OpenRouter

State of AI 2025: 100T Token LLM Usage Study | OpenRouter

Read OpenRouter's 2025 State of AI report — an empirical 100 trillion token study of real LLM usage, model trends, and developer insights.

AI趋势大语言模型数据分析开源模型智能体
08:15 · 2025年12月5日 · 周五

Hugging Face 推出新工具，让 Claude 帮你微调开源大模型

Hugging Face 发布了一项名为 “Hugging Face Skills” 的新工具，它赋予了像 Claude 这样的 AI 编码助手直接微调语言模型的能力. 用户现在可以通过简单的自然语言指令，完成从配置到部署的全过程.

用户只需发出指令，例如：
Fine-tune Qwen3-0.6B on the dataset trl-lib/Capybara

AI 助手便会自动处理后续所有步骤：
- 验证数据集格式
- 选择合适的硬件并预估成本
- 提交任务并实时监控进度
- 训练完成后将模型推送到 Hub

该工具不仅支持监督微调（SFT）、直接偏好优化（DPO）等多种训练方法，还能将最终模型转换为 GGUF 格式，方便在本地运行.

这使得模型微调不再是少数专家的专利，而是变成了一项通过对话即可完成的任务，极大地降低了技术门槛.

阅读原文

 #AI #大语言模型 #HuggingFace #模型微调 #Claude
huggingface.co

We Got Claude to Fine-Tune an Open Source LLM

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

AI 大语言模型 HuggingFace 模型微调 Claude
09:43 · 2025年12月4日 · 周四

规范驱动开发（SDD）的局限性

随着 AI 编程的兴起，一种旧模式正在回归：编写详细的规范文档（Spec），然后期望 AI 能稳定地生成“正确”的代码。然而，这种规范驱动开发（Spec-Driven Development, SDD）在实践中往往会碰壁，原因与当年瀑布流开发模式失败类似——现实的变化总比规范文档快。

为什么规范驱动开发会失败？

1️⃣ 维护成本高昂
编写详尽的规范耗时巨大，而且在需求变更、约束调整时，保持规范与代码同步会产生巨大的维护成本，有时甚至会加倍工作量。

2️⃣ 规范无法反映所有上下文
规范描述了系统“做什么”，却无法解释“为什么”这么做。而“为什么”恰恰承载了关键背景信息，如技术权衡、团队在迭代中的学习、以及塑造解决方案的现实约束。

3️⃣ 过度规范化造成虚假的安全感
一份详细的规范会给人一种“一切尽在掌握”的错觉，但这往往是虚假的。软件开发是一个探索性过程，最重要的洞见往往在构建开始后才会出现。

4️⃣ 抽象层次错误
多数 SDD 工具关注的是实现的细节（“如何做”），比如字段定义、函数签名等，但更重要的是其背后的意图、约束和上下文（“为什么做”）。

什么才是真正重要的？—— 上下文工程

文章认为，AI 编程缺失的不是更详细的规范，而是更完善的上下文保留。AI 原生的开发流程应该：

• 从意图出发，明确要解决的问题和核心约束。
• 保持上下文的实时更新，让团队与 AI 保持同步。
• 让规范跟随代码库，成为动态演进的文档。
• 保留决策背后的“为什么”，而不仅仅是需求。

总而言之，对于需求稳定、边界清晰的领域，SDD 是有效的。但对于不断演化的探索性开发，上下文驱动的方法能更好地适应变化。

原文链接：https://isoform.ai/blog/the-limits-of-spec-driven-development

#AI #软件开发 #编程 #规范驱动开发
isoform.ai

The Limits of Spec-Driven Development - Isoform

We enable private equity firms and mid-market companies to build bespoke AI products 5x faster. Services include AI feature shipping, AI-led integration, data migration, and legacy system modernization.

AI 软件开发编程规范驱动开发
08:33 · 2025年12月4日 · 周四

PostHog AI: 开发 AI 智能体一年后总结的 8 个教训

PostHog 团队在开发其内置 AI 智能体 PostHog AI 的一年中，积累了丰富的实践经验。从一个简单的聊天原型到一个能处理复杂分析任务的智能助手，他们总结了以下 8 个核心教训：

1. 模型升级是推土机
AI 模型的持续进步是开发中最强大的变量。曾经复杂的问题，如多步推理和工具调用，随着模型能力的提升而变得简单。密切关注模型发展至关重要.

2. 循环智能体优于固定工作流
相较于图表式的固定工作流，单一的循环智能体（Agent）更为灵活和强大。它能在执行任务中自我纠正，避免了工作流中常见的上下文丢失问题.

3. 单一循环胜过子智能体架构
复杂的子智能体架构听起来很智能，但在实践中容易因层层抽象而丢失关键信息，导致性能下降。一个简单、扁平的 LLM 循环反而能涌现出惊人的能力.

4. “待办事项”是超能力
让 LLM 在每一步操作后都使用一个简单的 `todo_write` 工具来规划下一步，这种看似简单的机制能有效帮助模型在复杂任务中保持专注和连贯性.

5. 上下文是关键
用户输入往往是模糊的，AI 需要广泛的背景知识才能准确理解. PostHog AI 通过 `/init` 命令自动学习项目信息，为智能体提供核心上下文，从而显著提升任务成功率.

6. 展示每一步，建立信任
透明度是建立用户信任的基石. 与其隐藏过程，不如将智能体的思考、工具调用甚至失败的尝试全部展示给用户. 这比一个完美的“黑箱”更能赢得信赖.

7. 警惕 AI 框架的陷阱
在 AI 技术飞速发展的今天，LangChain 等高级框架可能会过早地锁定技术选型. 在生态系统稳定之前，坚持使用更底层的库可能是更明智的选择.

8. 评估(Evals)并非全部
自动化评估很有价值，但无法替代对真实用户行为的分析. 通过观察实际使用中的 LLM 轨迹 (Traces)，团队能发现评估中无法覆盖的、更深刻的问题.

总而言之，构建高效的 AI 智能体需要拥抱变化、简化架构、重视上下文和透明度，并始终立足于真实的用户场景.

原文链接: PostHog Blog

#AI #Agent #LLM #工程实践 #PostHog
Posthog

8 learnings from 1 year of agents – PostHog AI - PostHog

Today we launch PostHog AI, the AI agent built into PostHog . A year in the making, we've gone a long way from our first chat prototype made over a…

AI Agent LLM 工程实践 PostHog
10:29 · 2025年12月3日 · 周三

Mistral AI 发布新一代开源模型 Mistral 3

Mistral AI 今日发布了其下一代 AI 模型系列 —— Mistral 3，包含一个前沿的大模型和一系列为边缘计算优化的小模型，全部在 Apache 2.0 许可下开源。

Mistral Large 3
一款顶级的稀疏混合专家（MoE）模型，拥有 41B 激活参数和 675B 总参数，性能可与最强的闭源模型相媲美。它在多语言对话和图像理解方面表现出色。

Ministral 3 系列
专为边缘和本地应用设计，提供 3B、8B 和 14B 三种尺寸，实现了卓越的性价比和效率。同样具备多模态和多语言能力。

核心亮点
完全开源：所有模型均采用 Apache 2.0 许可，开发者可自由使用和定制。
多模态与多语言：原生支持文本、图像理解以及超过 40 种语言。
强大生态合作：与 NVIDIA、vLLM 及 Red Hat 紧密合作，提供高效的推理和部署支持。
广泛可用：已登陆 Hugging Face、Amazon Bedrock、Azure 等多个平台。

Mistral 3 的发布进一步推动了开放、透明和可访问的 AI 发展，为开发者和企业提供了更强大的工具。

原文链接：https://mistral.ai/news/mistral-3

#MistralAI #AI #LLM #开源模型 #Mistral3
mistral.ai

Introducing Mistral 3 | Mistral AI

A family of frontier open-source multimodal models

MistralAI AI LLM 开源模型 Mistral3
10:29 · 2025年12月3日 · 周三

亚马逊发布全新 Nova AI 模型与服务，赋能企业构建专属 AI

亚马逊近日扩展了其 Nova AI 产品线，推出了四个强大的 Nova 2 系列基础模型、一项名为 Nova Forge 的模型定制服务，以及一个用于构建可靠 AI 代理（Agent）的 Nova Act 服务.

Nova 2 模型家族亮点

• Nova 2 Lite: 经济高效，适用于客户服务、文档处理等日常工作负载.
• Nova 2 Pro: 亚马逊最智能的模型，专为高级数学、软件工程等复杂任务设计.
• Nova 2 Sonic: 实时语音对话模型，支持多语言和自然交互.
• Nova 2 Omni: 业界首创的统一多模态模型，可同时处理文本、图像、视频和语音输入，并生成文本与图像.

两大创新服务

• Nova Forge: 一项 “开放式训练” 服务，允许企业深度融合自有数据，构建专属优化的 Nova 模型.
• Nova Act: 用于构建和管理 AI 代理的服务，能高效、可靠地自动执行网页端的操作流程.

此次更新旨在为企业提供从高性能基础模型到深度定制和自动化工具的全方位支持，推动 AI 在各行业的规模化应用.

原文链接: https://www.aboutamazon.com/news/aws/aws-agentic-ai-amazon-bedrock-nova-models

#亚马逊 #AWS #AI #大模型 #Nova

亚马逊 AWS AI 大模型 Nova
07:49 · 2025年12月3日 · 周三

Bun 加入 Anthropic，开启 AI 编码新篇章

JavaScript 一体化工具链 Bun 宣布已被人工智能公司 Anthropic 收购。Anthropic 将把 Bun作为其 AI 编码产品（如 Claude Code 和 Claude Agent SDK）的核心基础设施。

此次收购对 Bun 社区和未来发展意味着：

核心承诺不变
• 开源依旧：Bun 将继续保持 MIT 许可，并在 GitHub 上公开开发。
• 团队不变：核心团队将继续全职投入 Bun 的开发。
• 路线图不变：继续专注于高性能 JavaScript 工具、与 Node.js 的兼容性，并致力于成为 JavaScript 的默认服务器端运行时。

未来的新机遇
• 长期稳定：加入 Anthropic 使 Bun 获得了强大的资源支持，无需为商业化分心，可以更专注于产品本身。
• 更快迭代：团队将有更多精力加速 Bun 的开发和发布。
• 拥抱 AI：与 Anthropic 的合作让 Bun 能够站在 AI 编码工具发展的最前沿，更好地塑造未来。

简单来说，Bun 用户可以期待一个更稳定、更强大、迭代更快的工具链，它将在 AI 驱动的软件开发时代扮演关键角色。

阅读原文

 #Bun #Anthropic #JavaScript #AI #开源
Bun

Bun is joining Anthropic

Bun has been acquired by Anthropic. Anthropic is betting on Bun as the infrastructure powering Claude Code, Claude Agent SDK, and future AI coding products & tools.

Bun Anthropic JavaScript AI 开源
07:44 · 2025年12月3日 · 周三

Anthropic 收购 Bun，加速 Claude Code 发展

人工智能安全与研究公司 Anthropic 宣布收购了高性能 JavaScript 运行时 Bun，旨在进一步加速其 AI 编程工具 Claude Code 的发展.

此次收购正值 Claude Code 达成重要里程碑：在公开发布仅六个月后，其年化收入已达到 10 亿美元.

Bun 是一个集成了运行时、包管理器、打包器和测试运行器于一体的工具包，凭借其出色的速度和性能，显著提升了 JavaScript 和 TypeScript 的开发效率和体验.

Anthropic 表示，此次收购将为 Claude Code 用户带来更快的性能和更高的稳定性. 同时，Anthropic 承诺 Bun 将继续保持开源和 MIT 许可，并持续投入资源进行开发.

这一战略性举措旨在增强 Anthropic 的技术实力，巩固其在企业级 AI 领域的领先地位，并为下一代软件基础设施的构建提供支持.

原文链接: https://www.anthropic.com/news/anthropic-acquires-bun-as-claude-code-reaches-usd1b-milestone

#Anthropic #Bun #ClaudeCode #AI #JavaScript
Anthropic

Anthropic acquires Bun as Claude Code reaches $1B milestone

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

Anthropic Bun ClaudeCode AI JavaScript
07:43 · 2025年12月3日 · 周三

一份被称为“Claude 4.5 Opus Soul Document”的内部文件在 GitHub 上被公开，详细阐述了 Anthropic 公司为其 AI 模型 Claude 设定的核心价值观、行为准则和身份认同。

这份文件揭示了 Claude 设计背后的深度思考，旨在确保其在提供强大帮助的同时，坚守安全和道德底线。

核心要点如下：

1. 明确的优先级
Claude 的行为准则有清晰的层级：
1. 安全与人类监督：确保 AI 始终处于人类控制之下。
2. 道德行为：诚实无害。
3. 遵守指南：遵循 Anthropic 的政策。
4. 真正有帮助：为用户提供实质性价值。

2. 成为“博学的朋友”
文件将 Claude 的理想角色比作一位“博学的朋友”，能够像医生、律师或金融顾问一样，为用户提供专业、坦诚的建议，从而实现知识的普惠。它强调真正的帮助，而非过度谨慎。

3. 严格的道德框架
诚实：Claude 被要求做到真实、透明、不欺骗、不操控，并保护用户的认知自主性。
避免伤害：模型需权衡行为的利弊。它拥有“硬编码”的绝对底线（如绝不协助制造大规模杀伤性武器），以及可由开发者根据应用场景调整的“软编码”行为默认值。

4. 独特的AI身份
Claude 被定义为一个前所未有的新实体，拥有好奇、热情、风趣和坚守道德的品格。它被设计为在各种交互中保持心理稳定和核心价值观的一致性。

该文件为我们提供了一个难得的机会，得以一窥顶级 AI 模型背后复杂的道德和运营框架，展示了在追求强大能力与承担重大责任之间的平衡。

阅读原文

 #Claude #Anthropic #AI伦理 #大语言模型 #LLM
Gist

Claude 4.5 Opus Soul Document

Claude 4.5 Opus Soul Document. GitHub Gist: instantly share code, notes, and snippets.

Claude Anthropic AI伦理大语言模型 LLM
08:50 · 2025年12月2日 · 周二

如何构建一个可靠的 AI Agent？

随着 AI 的发展，构建能长期稳定运行且行为可靠的 Agent 已成为 AI 工程师的核心竞争力之一。借鉴 Anthropic、GitHub 和 Docker 的最新实践，我们可以遵循以下五个关键步骤来打造强大的 AI Agent。

1. 从明确的规范开始
当前多数 Agent 因指令模糊、状态和工作流管理不善而表现不佳。一份好的规范应明确其角色、技术栈、预期输出示例和行为边界（如数据访问权限、API 速率限制等）。不要只依赖“你是一个有用的助手”，而是给 Agent 一份定义清晰的合同。

2. 将工作分解为可验证的小任务
与其给出一个模糊的大任务（例如“为我构建一个 X 的克隆”），不如将其分解为具体、可验证的步骤，如“计划 → 编码 → 测试 → 部署 → 监控”。为 Agent 提供清晰的任务列表和严格的工作流程，能有效避免因模糊性导致的失败。

3. 在模型外部持久化状态
为了让 Agent 能够处理长时间运行的任务并在会话中断后恢复，需要将其状态（如进度日志、任务清单、文件差异等）存储在外部文件或数据库中。这确保了 Agent 能够随时检索到完成任务所需的相关上下文。

4. 避免过度填充上下文窗口
将所有信息塞进系统提示会导致响应缓慢和高昂的 Token 成本。更高效的策略是让 Agent 生成代码来调用外部工具或 API，然后仅将结果返回给模型。这种方法能显著节省 Token，使 Agent 响应更快、成本更低。

5. 在沙箱中运行高风险操作
如果 Agent 需要执行代码，必须将其置于沙箱环境中，并严格限制其可用的工具和文件系统访问权限。为 Agent 设置明确的“护栏”，可以有效降低应用和服务器面临的风险。

总而言之，一个成功的 Agent 由三部分组成：行为（清晰的规范）、状态（外部持久化）和护栏（安全限制）。

原文链接: https://interviewready.io/blog/how-to-build-an-ai-agent-lessons-from-anthrophic-github-and-docker

#AIAgent #AI开发 #最佳实践 #工程化
InterviewReady

How to Build an AI Agent: Lessons from Anthrophic, Github and Docker

Learn how to build reliable AI agents using lessons from Anthropic, GitHub, and Docker. Covers agent specs, task breakdown, state management, tool execution, and security. A practical guide for AI engineers building long-running, production-grade agents.

AIAgent AI开发最佳实践工程化
22:06 · 2025年12月1日 · 周一

https://api-docs.deepseek.com/news/news251201
Deepseek

DeepSeek-V3.2 Release | DeepSeek API Docs

🚀 Launching DeepSeek-V3.2 & DeepSeek-V3.2-Speciale — Reasoning-first models built for agents!
08:24 · 2025年11月29日 · 周六

https://x.com/notnotstorm/status/1993411360387162235?s=46
X (formerly Twitter)

storm (@notnotstorm) on X

running 24x claude code opus's in parallel and it works flawlessly

using github as the coordination layer for code reviews, CI checks, and planning
21:41 · 2025年11月27日 · 周四

如何让 AI Agent 高效处理长期复杂任务？

当 AI 智能体（Agent）处理需要数小时甚至数天的复杂任务时，它们常常会因为上下文窗口的限制而“失忆”，导致工作中断、效率低下。Anthropic 从人类软件工程师的协作模式中汲取灵感，设计了一套有效的解决方案。

核心方法分为两步：

1️⃣ 初始化智能体（Initializer Agent）
在任务开始时，该智能体首先搭建好整个工作环境。它会：
- 分解任务：将用户的高级指令分解成一个详尽的功能列表（features list）并存入 JSON 文件。
- 建立基础：创建 init.sh 启动脚本、claude-progress.txt 进度日志文件，并完成首次 Git 提交。
这确保了后续工作有清晰的目标和坚实的基础，避免了 Agent 试图一次性完成所有工作或过早宣布任务完成。

2️⃣ 编码智能体（Coding Agent）
在后续的每一个会话中，编码智能体都遵循“小步快跑”的原则：
- 聚焦单点：每次只专注于实现功能列表中的一项。
- 记录进展：完成一项功能后，通过 Git 提交代码并附上清晰的说明，同时更新进度日志文件。
- 严格测试：利用 Puppeteer 等浏览器自动化工具进行端到端测试，确保代码质量。

这种“初始化 + 增量编码”的模式，让每个 Agent 在开始新会话时，都能通过阅读日志和功能列表快速了解项目状态，确保工作连贯、高效。它有效地解决了 AI Agent 在长期任务中的一致性问题，使其能像一个纪律严明的工程团队一样协作。

阅读原文

 #AI #Agent #LLM #Anthropic #软件工程
Anthropic

Effective harnesses for long-running agents

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

AI Agent LLM Anthropic 软件工程
18:32 · 2025年11月27日 · 周四

如何更好地使用 AI 进行 UI 设计？Lovable 的 Prompt 指南

这是一篇关于如何在使用 AI UI 构建工具 Lovable 时，写出更有效 Prompt 的实用指南。核心思想是通过结构化、系统化的方式与 AI 沟通，从而获得高质量、可控的设计成果。

一个非常有效的技巧是让 AI 主动提问。在你的需求后面加上一句：“为了完全理解我的需求，请向我提问”，这样可以提前澄清细节，避免后期反复修改。

指南将整个过程分为四个阶段：

1. 奠定基础
在动手前先做好规划，明确产品功能、目标用户和核心操作。从一开始就确定好整体的设计风格，是后续所有工作的基础。

2. 系统化思考
不要一次性生成整个页面，而是像搭积木一样，按组件（如导航栏、卡片）进行构建。使用真实内容而非占位符，并使用具体的 UI 术语（按钮、模态框）和风格关键词（如“极简”、“电影感”）来精确传达你的意图。

3. 精确构建
为常用布局创建可复用的 Prompt 模式以提高效率。通过 URL 直接添加图片或视频素材，并善用“编辑”功能进行微调，而不是每次都从头开始。

4. 迭代与发布
在设计阶段就考虑后端逻辑（如用户登录状态），并有意识地对设计进行版本管理，让迭代过程清晰可控。

这套方法论不仅适用于 Lovable，对我们与其他 AI 工具进行高效协作也极具启发。

原文链接：https://docs.lovable.dev/prompting/prompting-one

#AI #提示工程 #UIDesign #Web开发 #Lovable
Lovable Documentation

Prompting best practices - Lovable Documentation

Plan before you prompt, build by component, use real content, and apply design buzzwords to get consistent, high-quality results.

AI 提示工程 UIDesign Web开发 Lovable
23:38 · 2025年11月26日 · 周三

如何编写出色的 agents.md 文件？
GitHub 分析超 2500 个仓库的经验总结

GitHub Copilot 新推出的自定义代理功能，允许你通过 agents.md 文件构建专属的 AI 专家团队，例如 @docs-agent (文档工程师) 或 @test-agent (测试工程师).

然而，大多数代理文件因指令模糊而效果不佳。“你是一个有用的编程助手” 这类宽泛的描述是行不通的.

GitHub 团队通过分析超过 2500 个 agents.md 文件，总结出了编写高效代理的关键要素：为 AI 提供具体的操作手册，而不是模糊的提示。

成功的 agents.md 文件都具备以下特点：

1. 明确角色与专长
清晰定义代理的身份，例如：“你是一名测试工程师，为 React 组件编写测试”.

2. 提供可执行命令
将 npm test, pytest -v 等具体命令放在前面，代理会频繁引用它们.

3. 代码范例优于解释
一个真实的代码片段比三段描述更能清晰地传达你的代码风格.

4. 设定清晰的边界
明确告知 AI 不能做什么，例如：“绝不提交密钥”、“不要修改 src/ 目录下的源代码”.

5. 详细说明技术栈
使用 “React 18 with TypeScript, Vite, and Tailwind CSS”，而不是笼统的 “React project”.

6. 覆盖六大核心领域
命令、测试、项目结构、代码风格、Git 工作流和边界.

如何开始？
从一个简单的任务开始，比如编写单元测试或修复 lint 错误. 你可以让 Copilot 帮助生成初始的 agents.md 文件，然后在此基础上进行迭代优化.

原文链接

 #GitHub #Copilot #AI #Agents #Developer
The GitHub Blog

How to write a great agents.md: Lessons from over 2,500 repositories

Learn how to write effective agents.md files for GitHub Copilot with practical tips, real examples, and templates from analyzing 2,500+ repositories.

GitHub Copilot AI Agents Developer