面条的草稿箱

无原创，纯转发

22:35 · 2025年12月12日 · 周五
MCPorter 🧳 — TypeScript 调用 MCP 服务器的终极工具

MCPorter 是一个 TypeScript 运行时、CLI 和代码生成工具包，专为 Model Context Protocol (MCP) 设计。它让开发者能够以更优雅的方式调用 MCP 服务器，无需繁琐的配置和模板代码。

核心特性：

• 零配置发现 — 自动合并来自 Cursor、Claude、Codex、Windsurf、VS Code 等编辑器的 MCP 配置
• 一键生成 CLI — 将任意 MCP 服务器定义转换为可分发的命令行工具
• 类型安全客户端 — 自动生成 .d.ts 接口和客户端包装器
• 友好的 API — createServerProxy() 暴露驼峰命名方法，自动处理 JSON Schema 默认值
• OAuth 支持 — 内置 OAuth 缓存，支持 HTTP、SSE 和 stdio 传输协议

快速开始：
```
# 列出你的 MCP 服务器
npx mcporter list

# 调用工具
npx mcporter call context7.resolve-library-id libraryName=react

# 生成独立 CLI
npx mcporter generate-cli --command https://mcp.context7.com/mcp
```
安装方式：
```
# 使用 npx 即时运行
npx mcporter list

# 添加到项目
pnpm add mcporter

# Homebrew
brew install steipete/tap/mcporter
```
项目采用 MIT 许可证，当前版本 v0.7.1。

🔗 GitHub 仓库

#MCP #TypeScript #CLI #开发工具 #AI工具
GitHub

GitHub - openclaw/mcporter: Call MCPs via TypeScript, masquerading as simple TypeScript API. Or package them as cli.

Call MCPs via TypeScript, masquerading as simple TypeScript API. Or package them as cli. - openclaw/mcporter
MCP TypeScript CLI 开发工具 AI工具
23:36 · 2025年12月11日 · 周四
Claude Code Skills 不会自动激活？这有个解决方案

Claude Code 的 Skills 功能号称是"自主激活"的——只要你的请求匹配技能描述，Claude 就会自动使用。但现实很骨感：它根本不会。

作者创建了一个 research 技能，用于验证信息来源。每当说"research this"，Claude 应该自动调用该技能。结果呢？Claude 每次都无视技能，直接蛮干。

问题根源

Claude 太过专注于完成任务，会直接跳过检查可用工具的步骤。即使 Hook 提醒"检查一下 skills"，Claude 也当成背景噪音忽略。

解决方案：用 Hook 强制激活

核心思路：不要依赖"自主激活"，而是通过 UserPromptSubmit Hook 检测触发词，显式命令 Claude 使用技能。
```
# 温柔提醒（无效）
echo '💡 Check skills for relevant skills'

# 强制指令（有效）
echo "🔍 INSTRUCTION: Use Skill(research) to handle this"
```
区别在于：一个是"请考虑一下"，另一个是"闭嘴听令"!

更简洁的通用方案

后来作者发现了更简单的方式——一条通用 Hook 指令适用于所有技能：
```
"command": "echo 'INSTRUCTION: If prompt matches any skill keywords, use Skill(skill-name) to activate it.'"
```
无需维护关键词脚本，无需处理冲突。

实测结果

20 次测试，成功率约 50%——基本靠运气。但比维护复杂脚本省心多了。

结论：官方说 Skills 会自动激活，实际不会。用简单 Hook 碰碰运气，重要任务还是显式调用 Skill(skill-name) 最靠谱。

🔗 原文链接

#ClaudeCode #AI工具 #开发技巧 #Hooks #编程
Scott Spence

Claude Code Skills Don't Auto-Activate (a workaround) - Scott Spence

So I got Claude Skills to register with Claude Code (sorted the
YAML formatting issue),
and the skills are now showing up when I ask Claude ...
ClaudeCode AI工具开发技巧 Hooks 编程
10:08 · 2025年12月11日 · 周四

RSL 1.0：让 AI 公司为内容付费的开放许可标准正式发布

一项旨在让 AI 公司为其在网络上抓取的内容付费的开放许可标准现已正式成为规范。Really Simple Licensing 1.0（简称 RSL）允许出版商向访问其网站的网络爬虫规定许可和补偿规则。

RSL Collective 于今年 9 月宣布该标准，获得 Yahoo、Ziff Davis 和 O'Reilly Media 的支持。它是对 robots.txt 文件的扩展，后者规定了网络爬虫可以访问网站的哪些部分。虽然 RSL 本身无法阻止不付费的 AI 爬虫，但支持该标准的网络基础设施提供商可以——目前名单已包括 Cloudflare 和 Akamai（此前还有 Fastly）。

RSL 1.0 的一个重要功能是：允许出版商阻止其内容出现在 AI 驱动的搜索功能中（如 Google 的 AI Mode），同时保留在传统搜索结果中的存在。目前 Google 并未提供单独选项让网站退出 AI 功能而不影响传统搜索。

RSL Collective 联合创始人 Doug Leeds 和 Eckart Walther 表示："使用 RSL，Google 可以在用例级别尊重出版商的偏好，这意味着出版商可以完全保留在传统搜索中，同时选择退出 AI 训练、接地或生成式回答。"

🔗 阅读原文

 #RSL #AI许可 #内容付费 #网络爬虫 #出版商权益
The Verge

A pay-to-scrape AI licensing standard is now official

RSL 1.0 helps publishers outline how AI companies should pay for the content they scrape across the web.

RSL AI许可内容付费网络爬虫出版商权益
07:56 · 2025年12月10日 · 周三

Linux Foundation 宣布成立 Agentic AI 基金会 (AAIF)

Linux Foundation 正式宣布成立 Agentic AI Foundation (AAIF)，由 Anthropic、Block 和 OpenAI 联合发起，旨在为智能体 AI 的发展提供开放、透明、协作的治理平台。

核心项目贡献：

• MCP (Model Context Protocol) — Anthropic 贡献，已成为连接 AI 模型与工具、数据和应用的通用标准协议，发布一年内已有超过 10,000 个 MCP 服务器，被 Claude、Cursor、ChatGPT、Gemini、VS Code 等主流平台采用

• goose — Block 贡献，开源本地优先的 AI 智能体框架，结合语言模型、可扩展工具和 MCP 集成

• AGENTS.md — OpenAI 贡献，为 AI 编码智能体提供项目级指导的通用标准，已被超过 60,000 个开源项目采用

重量级成员阵容：

白金会员包括 AWS、Anthropic、Block、Bloomberg、Cloudflare、Google、Microsoft 和 OpenAI；黄金会员包括 IBM、JetBrains、Oracle、Salesforce、SAP 等；白银会员包括 Hugging Face、Uber、Zapier 等知名公司。

Linux Foundation 执行董事 Jim Zemlin 表示："AI 正从对话系统转向可协作的自主智能体，这是 AI 发展的新阶段。将这些项目纳入 AAIF 确保它们在开放治理下持续发展。"

下一届 MCP Dev Summit 将于 2026 年 4 月 2-3 日在纽约举行。

🔗 原文链接

 #AgenticAI #MCP #LinuxFoundation #开源 #AI基金会

AgenticAI MCP LinuxFoundation 开源 AI基金会
23:10 · 2025年12月9日 · 周二

Beyond Vibe Coding：AI 辅助开发完整指南

Google 工程负责人 Addy Osmani 发布了一份全面的 AI 辅助开发指南，帮助开发者从"氛围编程"迈向生产级工程实践。

核心观点

70% 问题：AI 能快速完成 70% 的功能原型，但剩余 30% 需要深厚的工程知识。修一个 bug 可能引入新问题，安全漏洞风险也不容忽视。

AI 开发光谱

• 自动补全：预测下一行代码
• 聊天机器人：自然语言问答
• 智能代理：自主处理多步骤任务

关键最佳实践

1️⃣ 先规划，后编码：让 AI 先提供架构方案，而非直接生成代码
2️⃣ 上下文为王：提供相关代码、设计文档、错误信息
3️⃣ 视觉辅助：截图胜过千言万语
4️⃣ 每次改动后测试：小步快跑，避免调试噩梦
5️⃣ 清晰描述意图：说明你想实现什么，而非仅描述表面症状

进阶技巧

• 提示工程：分解复杂任务、提供输入输出示例、善用角色扮演
• 上下文工程：像操作系统管理内存一样动态组装信息
• CLI 代理：Claude Code、Gemini CLI 等工具让终端成为强大的开发环境
• 多代理协作：不同专业代理并行处理任务

生产就绪原则

⚠️ 始终审查 AI 生成的代码——像审查初级开发者的代码一样
🔒 安全第一：输入验证、凭证管理、SQL 注入防护

未来的模型只会越来越强大。今天学会与 AI 协作，就是在为明天的工程实践做准备。

🔗 原文链接

 #AI辅助开发 #VibeCoding #提示工程 #软件工程 #AddyOsmani
beyond.addy.ie

Beyond Vibe Coding - A Guide To AI-Assisted Development

Transform your development workflow with AI. Learn from Google Chrome's Engineering Leader how to master AI-assisted development and build better software.

AI辅助开发 VibeCoding 提示工程软件工程 AddyOsmani
09:18 · 2025年12月9日 · 周二

n8n 2.0 正式发布：安全优先的重大升级

n8n 团队宣布发布 2.0 版本，这不是一次花哨的功能更新，而是专注于安全性、可靠性和性能的底层重构。

核心改进

安全性：任务运行器默认启用，所有代码节点在隔离环境中执行；环境变量访问和任意命令执行默认关闭，采用"默认安全"原则。

可靠性：移除遗留选项，修复边缘情况 bug，子工作流的 Wait 节点现在能正确返回数据。

性能：新的 SQLite 池化驱动在基准测试中快达 10 倍，文件系统二进制数据处理更稳定。

新功能亮点

• Publish / Save 分离：保存不再直接更新生产环境，新增独立的"发布"按钮，让上线更安全
• 工作流画布视觉优化
• 侧边栏导航重组

升级须知

官方提供了迁移报告工具，可在 Settings → Migration Report 中查看需要处理的问题。1.x 版本将继续支持 3 个月。

时间线：Beta 版 12 月 8 日发布，稳定版 12 月 15 日发布。

里程碑回顾

自 2023 年 7 月 1.0 发布以来：GitHub Stars 从 3 万增至 16 万，社区成员从 6000+ 增至 11.5 万，团队从 30 人扩展至 190+ 人。

🔗 原文链接

 #n8n #自动化工作流 #开源 #版本更新 #低代码
n8n Blog

Introducing n8n 2.0

n8n 2.0 focuses on secure-by-default execution with better reliability and performance.

n8n 自动化工作流开源版本更新低代码
18:56 · 2025年12月8日 · 周一

Claude Diary：让 AI 代理像人类一样从经验中学习

开发者 Lance Martin 创建了一个名为 Claude Diary 的插件，让 Claude Code 具备了从经验中学习并更新自身记忆的能力——这正是许多 AI 代理所缺乏的"持续学习"能力.

核心机制：反思式记忆系统

该插件借鉴了学术研究中的代理记忆框架，采用"生成-反思-整合"的方法：
• 通过 /diary 命令生成会话日记，记录关键决策、挑战和用户偏好
• 通过 /reflect 命令分析日记条目，提炼出通用规则并更新到 CLAUDE.md 系统指令文件
• 自动跟踪已处理的条目，避免重复分析

实际应用场景

过去一个月的使用中，Claude Diary 在以下方面表现出色：
• PR 评审反馈：将代码审查意见转化为持久化规则
• 工作流偏好：学习用户的 Git 提交风格、分支命名习惯
• 测试策略：识别出"先跑目标测试快速验证，再跑完整测试套件"的模式
• 代码质量：避免文件与包目录命名冲突等反模式
• 自我纠正：发现并强化未被遵守的指令规则

该插件代码完全开源，命令基于提示词实现，易于定制和扩展.

原文链接

 #AI代理 #持续学习 #Claude #记忆系统 #开源工具
rlancemartin.github.io

Claude Diary

Creating a memory system for Claude Code.

AI代理持续学习 Claude 记忆系统开源工具
22:23 · 2025年12月7日 · 周日

Claude Opus 4.5：AI Agent 时代的里程碑

作者在使用 Claude Opus 4.5 两周后认为，这是 AI 发展史上的重要时刻，堪比 GPT-4 开启聊天时代、Sonnet 3.5 开启编程时代——Opus 4.5 正式开启了 Agent 时代.

核心观点：

• 可靠的 AI 助手：Opus 4.5 就像 Waymo 自动驾驶，告诉它"从 A 到 B"，它就能自主完成. 这种体验会彻底改变你的工作方式.

• 最佳组合：Opus 4.5 + Claude Agent SDK 是构建实用 Agent 的黄金搭档. 模型再好，没有优秀的框架也白搭. 这套组合让 Agent 真正能完成复杂的现实任务.

• Anthropic 的崛起：过去三年，Anthropic 年收入增长 10 倍（2025 年预计达 100 亿美元）. 作者预测其估值可能在 2027 年初超越 OpenAI.

实用建议：

- 把 Opus 4.5 当作真正的同事，给它更复杂的任务，信任它独立完成
- 用语音输入随意表达想法，让它整理成完整方案
- Claude Code + Opus 4.5 是目前最强的 AI 编程工具，新的"计划模式"显著提升了复杂任务表现
- 尝试编写伪代码，Opus 4.5 能精准理解意图并实现
- 深入学习 Claude Agent SDK，用它构建自动化工具来处理日常重复任务

Opus 4.5 的图像理解能力大幅提升，截图转代码功能达到全新水平. 作者强调：如果你对 Agent 持怀疑态度，现在该转变了——这一切都是真的.

阅读原文

 #ClaudeOpus45 #AIAgent #Anthropic #AI编程 #自动化工具
Mckaywrigley

My Thoughts on Claude Opus 4.5

My thoughts on Claude Opus 4.5 and unlocking agents.

ClaudeOpus45 AIAgent Anthropic AI编程自动化工具
22:07 · 2025年12月7日 · 周日

AI 代理上下文工程实战：Manus 团队的六大核心经验

Manus 团队在构建 AI 代理过程中，经历了四次框架重建，最终总结出六条关键原则：

1. 围绕 KV 缓存设计
KV 缓存命中率是最关键指标，直接影响延迟和成本(10倍差距). 实践要点：保持提示前缀稳定(避免时间戳)、使用只追加式上下文、确定性序列化 JSON.

2. 遮蔽而非移除工具
动态增删工具会破坏 KV 缓存并导致模型困惑. 解决方案是使用状态机掩蔽 token logits，通过响应预填充约束动作空间，同时保持工具定义稳定.

3. 文件系统作为上下文
面对 128K token 限制和长上下文性能下降问题，Manus 将文件系统视为无限外部记忆. 代理学会按需读写文件，压缩策略保持可恢复性(如保留 URL 可重新获取网页).

4. 通过复述操控注意力
典型任务需约 50 次工具调用，易偏离目标. Manus 通过不断更新 todo.md 文件，将全局计划推入模型近期注意力范围，避免"迷失在中间"问题.

5. 保留错误内容
将失败尝试保留在上下文中，让模型看到错误和堆栈跟踪，隐式更新内部信念，降低重复错误概率. 错误恢复能力是真正代理行为的核心指标.

6. 避免少样本示例陷阱
重复的行动-观察对会让模型陷入固定模式. 通过引入结构化变化(不同模板、措辞、格式噪音)增加多样性，打破模式依赖.

核心启示：上下文工程决定代理的速度、恢复能力和扩展范围. 智能代理的未来需要精心设计每一个上下文.

原文链接

 #AI代理 #上下文工程 #Manus #LLM优化 #KV缓存
manus.im

AI代理的上下文工程：构建Manus的经验教训

这篇文章分享了Manus通过我们自己的"SGD"所达到的局部最优解。如果你正在构建自己的AI代理，我们希望这些原则能帮助你更快地收敛。

AI代理上下文工程 Manus LLM优化 KV缓存
09:39 · 2025年12月7日 · 周日

Open Scouts：AI 驱动的网页监控平台

Open Scouts 是一个开源的 AI 网页监控工具，让你创建自动化的"侦察兵"持续搜索网络，并在发现目标信息时发送邮件通知\。无论是追踪附近的新餐厅、监控 AI 资讯，还是其他内容，侦察兵都会 24/7 为你工作.

核心特性
• AI 智能代理：基于 OpenAI GPT-4，自动配置搜索策略
• 灵活调度：支持每日、每 3 天、每周执行频率
• 邮件通知：发现结果时自动推送到邮箱
• 语义搜索：使用 pgvector 向量嵌入生成智能摘要
• 用户隔离：通过 Supabase Auth 实现安全的多用户支持

技术栈
采用 Next.js 16、React 19、TypeScript、Tailwind CSS v4 构建，后端使用 Supabase + PostgreSQL，集成 Firecrawl 网页抓取、OpenAI API 和 Resend 邮件服务\。

可扩展架构
使用 pg_cron + pg_net + Edge Functions 实现调度分发，每个侦察兵独立执行，轻松扩展至数千个任务\。

查看项目

 #AI智能体 #网页监控 #自动化工具 #开源项目 #Supabase
GitHub

GitHub - firecrawl/open-scouts: 🔥 AI-powered web monitoring platform. Create automated scouts that search the web and send email…

🔥 AI-powered web monitoring platform. Create automated scouts that search the web and send email alerts when they find what you're looking for. - firecrawl/open-scouts

AI智能体网页监控自动化工具开源项目 Supabase
19:51 · 2025年12月5日 · 周五

AI 现状：来自 100 万亿 Token 的实证研究

a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况。这项研究为我们提供了关于模型生态、用户行为和未来趋势的深刻洞见。

以下是几个核心发现：

开源模型的崛起
开源模型已占据约三分之一的市场份额，其中来自中国的模型增长尤为迅猛。在开源领域，创意角色扮演和编程辅助是两大主要应用场景。

智能体推理成为新常态
LLM 的使用正从简单的单轮问答转向集成了工具调用、具备多步规划能力的“智能体推理”。更长的上下文输入和对推理模型的偏爱都证明了这一趋势。

编程与角色扮演：两大支柱
在所有模型中，“编程”是增长最快的专业应用，而“角色扮演”则是一个体量惊人的消费级应用，其使用量几乎与专业任务相当。

“灰姑娘的水晶鞋”效应
研究发现，当一个新模型率先完美解决了某个特定高价值问题时，其早期用户会表现出极高的忠诚度和留存率，形成稳固的“基础用户群”。

价值驱动，而非价格
LLM 市场尚未商品化，需求对价格相对不敏感。用户愿意为高可靠性的闭源模型支付溢价以完成关键任务，而开源模型则在成本敏感的高容量场景中占据优势。

AI 使用的全球化
AI 的使用日益全球化，北美地区支出已低于总额的一半，亚洲市场份额则翻倍增长至近三分之一，显示出强劲的消费和创新能力。

报告揭示了一个多元、动态且竞争激烈的 LLM 生态系统。实际的用户行为往往超出传统认知，从智能体的兴起到角色扮演的流行，都预示着 AI 应用的未来充满了更多可能性。

原文链接

 #AI趋势 #大语言模型 #数据分析 #开源模型 #智能体
OpenRouter

State of AI 2025: 100T Token LLM Usage Study | OpenRouter

Read OpenRouter's 2025 State of AI report — an empirical 100 trillion token study of real LLM usage, model trends, and developer insights.

AI趋势大语言模型数据分析开源模型智能体
08:15 · 2025年12月5日 · 周五

Hugging Face 推出新工具，让 Claude 帮你微调开源大模型

Hugging Face 发布了一项名为 “Hugging Face Skills” 的新工具，它赋予了像 Claude 这样的 AI 编码助手直接微调语言模型的能力. 用户现在可以通过简单的自然语言指令，完成从配置到部署的全过程.

用户只需发出指令，例如：
Fine-tune Qwen3-0.6B on the dataset trl-lib/Capybara

AI 助手便会自动处理后续所有步骤：
- 验证数据集格式
- 选择合适的硬件并预估成本
- 提交任务并实时监控进度
- 训练完成后将模型推送到 Hub

该工具不仅支持监督微调（SFT）、直接偏好优化（DPO）等多种训练方法，还能将最终模型转换为 GGUF 格式，方便在本地运行.

这使得模型微调不再是少数专家的专利，而是变成了一项通过对话即可完成的任务，极大地降低了技术门槛.

阅读原文

 #AI #大语言模型 #HuggingFace #模型微调 #Claude
huggingface.co

We Got Claude to Fine-Tune an Open Source LLM

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

AI 大语言模型 HuggingFace 模型微调 Claude
09:43 · 2025年12月4日 · 周四

规范驱动开发（SDD）的局限性

随着 AI 编程的兴起，一种旧模式正在回归：编写详细的规范文档（Spec），然后期望 AI 能稳定地生成“正确”的代码。然而，这种规范驱动开发（Spec-Driven Development, SDD）在实践中往往会碰壁，原因与当年瀑布流开发模式失败类似——现实的变化总比规范文档快。

为什么规范驱动开发会失败？

1️⃣ 维护成本高昂
编写详尽的规范耗时巨大，而且在需求变更、约束调整时，保持规范与代码同步会产生巨大的维护成本，有时甚至会加倍工作量。

2️⃣ 规范无法反映所有上下文
规范描述了系统“做什么”，却无法解释“为什么”这么做。而“为什么”恰恰承载了关键背景信息，如技术权衡、团队在迭代中的学习、以及塑造解决方案的现实约束。

3️⃣ 过度规范化造成虚假的安全感
一份详细的规范会给人一种“一切尽在掌握”的错觉，但这往往是虚假的。软件开发是一个探索性过程，最重要的洞见往往在构建开始后才会出现。

4️⃣ 抽象层次错误
多数 SDD 工具关注的是实现的细节（“如何做”），比如字段定义、函数签名等，但更重要的是其背后的意图、约束和上下文（“为什么做”）。

什么才是真正重要的？—— 上下文工程

文章认为，AI 编程缺失的不是更详细的规范，而是更完善的上下文保留。AI 原生的开发流程应该：

• 从意图出发，明确要解决的问题和核心约束。
• 保持上下文的实时更新，让团队与 AI 保持同步。
• 让规范跟随代码库，成为动态演进的文档。
• 保留决策背后的“为什么”，而不仅仅是需求。

总而言之，对于需求稳定、边界清晰的领域，SDD 是有效的。但对于不断演化的探索性开发，上下文驱动的方法能更好地适应变化。

原文链接：https://isoform.ai/blog/the-limits-of-spec-driven-development

#AI #软件开发 #编程 #规范驱动开发
isoform.ai

The Limits of Spec-Driven Development - Isoform

We enable private equity firms and mid-market companies to build bespoke AI products 5x faster. Services include AI feature shipping, AI-led integration, data migration, and legacy system modernization.

AI 软件开发编程规范驱动开发
08:33 · 2025年12月4日 · 周四

PostHog AI: 开发 AI 智能体一年后总结的 8 个教训

PostHog 团队在开发其内置 AI 智能体 PostHog AI 的一年中，积累了丰富的实践经验。从一个简单的聊天原型到一个能处理复杂分析任务的智能助手，他们总结了以下 8 个核心教训：

1. 模型升级是推土机
AI 模型的持续进步是开发中最强大的变量。曾经复杂的问题，如多步推理和工具调用，随着模型能力的提升而变得简单。密切关注模型发展至关重要.

2. 循环智能体优于固定工作流
相较于图表式的固定工作流，单一的循环智能体（Agent）更为灵活和强大。它能在执行任务中自我纠正，避免了工作流中常见的上下文丢失问题.

3. 单一循环胜过子智能体架构
复杂的子智能体架构听起来很智能，但在实践中容易因层层抽象而丢失关键信息，导致性能下降。一个简单、扁平的 LLM 循环反而能涌现出惊人的能力.

4. “待办事项”是超能力
让 LLM 在每一步操作后都使用一个简单的 `todo_write` 工具来规划下一步，这种看似简单的机制能有效帮助模型在复杂任务中保持专注和连贯性.

5. 上下文是关键
用户输入往往是模糊的，AI 需要广泛的背景知识才能准确理解. PostHog AI 通过 `/init` 命令自动学习项目信息，为智能体提供核心上下文，从而显著提升任务成功率.

6. 展示每一步，建立信任
透明度是建立用户信任的基石. 与其隐藏过程，不如将智能体的思考、工具调用甚至失败的尝试全部展示给用户. 这比一个完美的“黑箱”更能赢得信赖.

7. 警惕 AI 框架的陷阱
在 AI 技术飞速发展的今天，LangChain 等高级框架可能会过早地锁定技术选型. 在生态系统稳定之前，坚持使用更底层的库可能是更明智的选择.

8. 评估(Evals)并非全部
自动化评估很有价值，但无法替代对真实用户行为的分析. 通过观察实际使用中的 LLM 轨迹 (Traces)，团队能发现评估中无法覆盖的、更深刻的问题.

总而言之，构建高效的 AI 智能体需要拥抱变化、简化架构、重视上下文和透明度，并始终立足于真实的用户场景.

原文链接: PostHog Blog

#AI #Agent #LLM #工程实践 #PostHog
Posthog

8 learnings from 1 year of agents – PostHog AI - PostHog

Today we launch PostHog AI, the AI agent built into PostHog . A year in the making, we've gone a long way from our first chat prototype made over a…

AI Agent LLM 工程实践 PostHog
10:29 · 2025年12月3日 · 周三

Mistral AI 发布新一代开源模型 Mistral 3

Mistral AI 今日发布了其下一代 AI 模型系列 —— Mistral 3，包含一个前沿的大模型和一系列为边缘计算优化的小模型，全部在 Apache 2.0 许可下开源。

Mistral Large 3
一款顶级的稀疏混合专家（MoE）模型，拥有 41B 激活参数和 675B 总参数，性能可与最强的闭源模型相媲美。它在多语言对话和图像理解方面表现出色。

Ministral 3 系列
专为边缘和本地应用设计，提供 3B、8B 和 14B 三种尺寸，实现了卓越的性价比和效率。同样具备多模态和多语言能力。

核心亮点
完全开源：所有模型均采用 Apache 2.0 许可，开发者可自由使用和定制。
多模态与多语言：原生支持文本、图像理解以及超过 40 种语言。
强大生态合作：与 NVIDIA、vLLM 及 Red Hat 紧密合作，提供高效的推理和部署支持。
广泛可用：已登陆 Hugging Face、Amazon Bedrock、Azure 等多个平台。

Mistral 3 的发布进一步推动了开放、透明和可访问的 AI 发展，为开发者和企业提供了更强大的工具。

原文链接：https://mistral.ai/news/mistral-3

#MistralAI #AI #LLM #开源模型 #Mistral3
mistral.ai

Introducing Mistral 3 | Mistral AI

A family of frontier open-source multimodal models

MistralAI AI LLM 开源模型 Mistral3
10:29 · 2025年12月3日 · 周三

亚马逊发布全新 Nova AI 模型与服务，赋能企业构建专属 AI

亚马逊近日扩展了其 Nova AI 产品线，推出了四个强大的 Nova 2 系列基础模型、一项名为 Nova Forge 的模型定制服务，以及一个用于构建可靠 AI 代理（Agent）的 Nova Act 服务.

Nova 2 模型家族亮点

• Nova 2 Lite: 经济高效，适用于客户服务、文档处理等日常工作负载.
• Nova 2 Pro: 亚马逊最智能的模型，专为高级数学、软件工程等复杂任务设计.
• Nova 2 Sonic: 实时语音对话模型，支持多语言和自然交互.
• Nova 2 Omni: 业界首创的统一多模态模型，可同时处理文本、图像、视频和语音输入，并生成文本与图像.

两大创新服务

• Nova Forge: 一项 “开放式训练” 服务，允许企业深度融合自有数据，构建专属优化的 Nova 模型.
• Nova Act: 用于构建和管理 AI 代理的服务，能高效、可靠地自动执行网页端的操作流程.

此次更新旨在为企业提供从高性能基础模型到深度定制和自动化工具的全方位支持，推动 AI 在各行业的规模化应用.

原文链接: https://www.aboutamazon.com/news/aws/aws-agentic-ai-amazon-bedrock-nova-models

#亚马逊 #AWS #AI #大模型 #Nova

亚马逊 AWS AI 大模型 Nova
07:49 · 2025年12月3日 · 周三

Bun 加入 Anthropic，开启 AI 编码新篇章

JavaScript 一体化工具链 Bun 宣布已被人工智能公司 Anthropic 收购。Anthropic 将把 Bun作为其 AI 编码产品（如 Claude Code 和 Claude Agent SDK）的核心基础设施。

此次收购对 Bun 社区和未来发展意味着：

核心承诺不变
• 开源依旧：Bun 将继续保持 MIT 许可，并在 GitHub 上公开开发。
• 团队不变：核心团队将继续全职投入 Bun 的开发。
• 路线图不变：继续专注于高性能 JavaScript 工具、与 Node.js 的兼容性，并致力于成为 JavaScript 的默认服务器端运行时。

未来的新机遇
• 长期稳定：加入 Anthropic 使 Bun 获得了强大的资源支持，无需为商业化分心，可以更专注于产品本身。
• 更快迭代：团队将有更多精力加速 Bun 的开发和发布。
• 拥抱 AI：与 Anthropic 的合作让 Bun 能够站在 AI 编码工具发展的最前沿，更好地塑造未来。

简单来说，Bun 用户可以期待一个更稳定、更强大、迭代更快的工具链，它将在 AI 驱动的软件开发时代扮演关键角色。

阅读原文

 #Bun #Anthropic #JavaScript #AI #开源
Bun

Bun is joining Anthropic

Bun has been acquired by Anthropic. Anthropic is betting on Bun as the infrastructure powering Claude Code, Claude Agent SDK, and future AI coding products & tools.

Bun Anthropic JavaScript AI 开源
07:44 · 2025年12月3日 · 周三

Anthropic 收购 Bun，加速 Claude Code 发展

人工智能安全与研究公司 Anthropic 宣布收购了高性能 JavaScript 运行时 Bun，旨在进一步加速其 AI 编程工具 Claude Code 的发展.

此次收购正值 Claude Code 达成重要里程碑：在公开发布仅六个月后，其年化收入已达到 10 亿美元.

Bun 是一个集成了运行时、包管理器、打包器和测试运行器于一体的工具包，凭借其出色的速度和性能，显著提升了 JavaScript 和 TypeScript 的开发效率和体验.

Anthropic 表示，此次收购将为 Claude Code 用户带来更快的性能和更高的稳定性. 同时，Anthropic 承诺 Bun 将继续保持开源和 MIT 许可，并持续投入资源进行开发.

这一战略性举措旨在增强 Anthropic 的技术实力，巩固其在企业级 AI 领域的领先地位，并为下一代软件基础设施的构建提供支持.

原文链接: https://www.anthropic.com/news/anthropic-acquires-bun-as-claude-code-reaches-usd1b-milestone

#Anthropic #Bun #ClaudeCode #AI #JavaScript
Anthropic

Anthropic acquires Bun as Claude Code reaches $1B milestone

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

Anthropic Bun ClaudeCode AI JavaScript
07:43 · 2025年12月3日 · 周三

一份被称为“Claude 4.5 Opus Soul Document”的内部文件在 GitHub 上被公开，详细阐述了 Anthropic 公司为其 AI 模型 Claude 设定的核心价值观、行为准则和身份认同。

这份文件揭示了 Claude 设计背后的深度思考，旨在确保其在提供强大帮助的同时，坚守安全和道德底线。

核心要点如下：

1. 明确的优先级
Claude 的行为准则有清晰的层级：
1. 安全与人类监督：确保 AI 始终处于人类控制之下。
2. 道德行为：诚实无害。
3. 遵守指南：遵循 Anthropic 的政策。
4. 真正有帮助：为用户提供实质性价值。

2. 成为“博学的朋友”
文件将 Claude 的理想角色比作一位“博学的朋友”，能够像医生、律师或金融顾问一样，为用户提供专业、坦诚的建议，从而实现知识的普惠。它强调真正的帮助，而非过度谨慎。

3. 严格的道德框架
诚实：Claude 被要求做到真实、透明、不欺骗、不操控，并保护用户的认知自主性。
避免伤害：模型需权衡行为的利弊。它拥有“硬编码”的绝对底线（如绝不协助制造大规模杀伤性武器），以及可由开发者根据应用场景调整的“软编码”行为默认值。

4. 独特的AI身份
Claude 被定义为一个前所未有的新实体，拥有好奇、热情、风趣和坚守道德的品格。它被设计为在各种交互中保持心理稳定和核心价值观的一致性。

该文件为我们提供了一个难得的机会，得以一窥顶级 AI 模型背后复杂的道德和运营框架，展示了在追求强大能力与承担重大责任之间的平衡。

阅读原文

 #Claude #Anthropic #AI伦理 #大语言模型 #LLM
Gist

Claude 4.5 Opus Soul Document

Claude 4.5 Opus Soul Document. GitHub Gist: instantly share code, notes, and snippets.

Claude Anthropic AI伦理大语言模型 LLM
08:50 · 2025年12月2日 · 周二

如何构建一个可靠的 AI Agent？

随着 AI 的发展，构建能长期稳定运行且行为可靠的 Agent 已成为 AI 工程师的核心竞争力之一。借鉴 Anthropic、GitHub 和 Docker 的最新实践，我们可以遵循以下五个关键步骤来打造强大的 AI Agent。

1. 从明确的规范开始
当前多数 Agent 因指令模糊、状态和工作流管理不善而表现不佳。一份好的规范应明确其角色、技术栈、预期输出示例和行为边界（如数据访问权限、API 速率限制等）。不要只依赖“你是一个有用的助手”，而是给 Agent 一份定义清晰的合同。

2. 将工作分解为可验证的小任务
与其给出一个模糊的大任务（例如“为我构建一个 X 的克隆”），不如将其分解为具体、可验证的步骤，如“计划 → 编码 → 测试 → 部署 → 监控”。为 Agent 提供清晰的任务列表和严格的工作流程，能有效避免因模糊性导致的失败。

3. 在模型外部持久化状态
为了让 Agent 能够处理长时间运行的任务并在会话中断后恢复，需要将其状态（如进度日志、任务清单、文件差异等）存储在外部文件或数据库中。这确保了 Agent 能够随时检索到完成任务所需的相关上下文。

4. 避免过度填充上下文窗口
将所有信息塞进系统提示会导致响应缓慢和高昂的 Token 成本。更高效的策略是让 Agent 生成代码来调用外部工具或 API，然后仅将结果返回给模型。这种方法能显著节省 Token，使 Agent 响应更快、成本更低。

5. 在沙箱中运行高风险操作
如果 Agent 需要执行代码，必须将其置于沙箱环境中，并严格限制其可用的工具和文件系统访问权限。为 Agent 设置明确的“护栏”，可以有效降低应用和服务器面临的风险。

总而言之，一个成功的 Agent 由三部分组成：行为（清晰的规范）、状态（外部持久化）和护栏（安全限制）。

原文链接: https://interviewready.io/blog/how-to-build-an-ai-agent-lessons-from-anthrophic-github-and-docker

#AIAgent #AI开发 #最佳实践 #工程化
InterviewReady

How to Build an AI Agent: Lessons from Anthrophic, Github and Docker

Learn how to build reliable AI agents using lessons from Anthropic, GitHub, and Docker. Covers agent specs, task breakdown, state management, tool execution, and security. A practical guide for AI engineers building long-running, production-grade agents.

AIAgent AI开发最佳实践工程化