面条的草稿箱

无原创，纯转发

19:21 · 2025年12月19日 · 周五

Agent Skills：给 AI Agent “装上技能包”

Agent Skills 是一种开放格式：把一套可复用的指令、脚本与资源打包成「技能」，让智能体在需要时按需加载，从而更准确、更高效地完成真实工作。

为什么需要它？

• 智能体能力越来越强，但常缺少上下文与流程知识；技能把这些程序化经验与团队/组织知识变成可携带、可版本管理的包
• 对作者：一次构建，多处部署，跨多种智能体产品复用
• 对企业与团队：把组织最佳实践沉淀为可审计、可迭代的工作流

它能带来什么？

• 领域专长：把法律审阅、数据分析等专业流程封装成可复用指南
• 新能力扩展：例如自动做演示文稿、搭建 MCP Server、分析数据集等
• 可重复的工作流：多步骤任务标准化，稳定且可追踪
• 互操作性：同一技能可在不同“支持技能”的工具/产品间通用

生态与开放性
该格式最初由 Anthropic 提出并以开放标准发布，已被多种 AI 开发工具与产品支持，并在 GitHub 上开放协作。

上手入口

• 了解技能是什么、格式规范、如何集成、示例技能与参考库（校验与生成 prompt XML）

原链接：https://agentskills.io/home
#AI代理 #开放标准 #工作流 #知识沉淀 #开发者工具

Agent Skills

Overview - Agent Skills

A simple, open format for giving agents new capabilities and expertise.

AI代理开放标准工作流知识沉淀开发者工具

23:23 · 2025年12月17日 · 周三

Perplexity 职场 AI 指南：用 AI 重塑工作效率

这是一份 44 页的官方指南，教你如何用 Perplexity 全家桶提升工作效率。核心理念是将 AI 融入工作的三个层次：

🎯 屏蔽干扰
现代职场平均每 11 分钟被打断一次。Perplexity 提供：
• Comet 浏览器：AI 助手 + 代理模式，帮你阅读、总结、执行任务
• 邮件助手：自动分类邮件、智能回复、安排会议
• 快捷指令和定时任务：把重复工作变成一键操作

🚀 放大能力
• 深度研究：一次分析数百个信息源，生成带引用的报告
• Labs 创作工坊：无需技术背景，直接生成演示文稿、仪表盘、营销素材
• Spaces 空间：保存你的研究上下文和品牌风格，确保输出一致性

📈 产出成果
• 绩效评估：自动分析工作数据，生成专业报告
• 销售开发：批量研究潜在客户，生成个性化外联内容
• 提案制作：快速产出定制化方案和 ROI 模型

💡 提示词技巧
别把 AI 当搜索引擎用。要说清楚目标、上下文和期望格式。比如：

"找出过去 3 天所有需要回复的未读邮件，起草简短回复"

比"帮我处理邮件"有效得多。

🔗 原文链接

#Perplexity #AI效率 #职场工具 #生产力 #AI助手

Perplexity AI效率职场工具生产力 AI助手

10:16 · 2025年12月17日 · 周三

小米发布 MiMo-V2-Flash：高效推理模型开源

小米于 2025 年 12 月 16 日发布并开源了 MiMo-V2-Flash，这是一款高效、超快的基础语言模型，在推理、编码和智能体场景表现尤为出色，同时也可作为日常任务的通用助手。

核心亮点

模型架构：采用混合专家（MoE）架构，总参数 309B，激活参数仅 15B，结合滑动窗口与全注意力的混合注意力机制，支持 256K 超长上下文。

性能表现：
• AIME 2025、GPQA-Diamond 等推理测试中位列开源模型前二
• SWE-bench Verified 达 73.4%，SWE-bench Multilingual 达 71.7%，软件工程能力领先所有开源模型
• 推理速度达 150 tokens/秒，成本仅 $0.1/百万输入 token

技术创新：
• 多 Token 预测（MTP）：通过自推测解码实现 2.0-2.6 倍加速
• MOPD 训练范式：多教师在线策略蒸馏，训练效率提升 50 倍以上

开源资源：模型权重以 MIT 协议开放于 Hugging Face，推理代码已贡献至 SGLang，技术报告同步发布。

原文链接

#小米 #MiMo #开源模型 #大语言模型 #AI推理

小米 MiMo 开源模型大语言模型 AI推理

23:49 · 2025年12月16日 · 周二

Coding Agents 与复杂度预算

Lee Robinson（Cursor 工程师）分享了一次惊人的迁移经历：仅用 3 天时间、$260 token 费用 和数百个 AI Agent，就把 cursor.com 从 CMS 迁回纯代码和 Markdown。

为什么要抛弃 CMS？

CMS 带来的隐性复杂度超乎想象：
• 多系统用户管理
• 预览变更的繁琐流程
• 国际化翻译的插件地狱
• CDN 费用暴涨（上线后花了 $56,848）
• 代码库的依赖和抽象膨胀

AI 时代的关键洞察

抽象的代价从未如此之高。当内容变成代码后：
• Agent 可以直接 grep 和编辑
• PR 链接无需登录即可分享预览
• 所有变更通过 git 追踪，Agent 能自主挖掘历史

迁移成果

• 344 次 Agent 请求
• 67 次 commit（+43K / -322K 行代码）
• 构建速度提升 2 倍
• 节省数千美元 CDN 费用
• 第二天就能在手机上通过 cloud agent 合并修复

核心观点

"过度抽象一直是代码异味，现在有了简单的解决方案：花 token 删除复杂度。" 编程 Agent 正在帮助团队尝试疯狂想法、清理深埋的技术债。

🔗 原文链接

#CodingAgent #AI编程 #技术债务 #Cursor #开发效率

Leerob

Coding Agents & Complexity Budgets

$260 in tokens and hundreds of coding agents later.

CodingAgent AI编程技术债务 Cursor 开发效率

23:40 · 2025年12月14日 · 周日

别构建 Agent，构建 Skills 才是正道

来自 Anthropic 的 Barry Zhang 和 Mahesh Murag 在 AI Engineer 大会上分享了一个重要理念：与其不断重建 Agent，不如专注构建 Skills。

核心观点：

🔹 代码是通用接口 — 代码不仅是一种用例，更是连接数字世界的通用接口。Claude Code 实际上是一个通用型 Agent，核心脚手架可以简化到 bash 和文件系统。

🔹 Agent 的短板 — 当前 Agent 虽然智能，但缺乏领域专业知识。就像让天才数学家去报税，不如找一个经验丰富的税务专家。

🔹 什么是 Skills — Skills 是组织化的文件夹集合，包含可组合的程序性知识。设计上保持简单：可以用 Git 版本控制、放在 Google Drive、打包分享。

🔹 渐进式加载 — Skills 采用渐进式披露机制，运行时仅加载元数据，需要时才读取完整内容，可支持数百个 Skills 同时存在。

🔹 生态发展 — 发布 5 周已产生数千个 Skills，涵盖基础能力、第三方集成、企业内部知识等类型。非技术人员如财务、法务也在创建 Skills。

🔹 与 MCP 互补 — MCP 提供外部世界的连接，Skills 提供专业知识，两者协同工作。

🔹 持续学习 — Skills 让 Claude 在第 30 天比第 1 天更强，学习成果可跨会话迁移。

类比传统计算：

模型 ≈ 处理器
Agent 运行时 ≈ 操作系统
Skills ≈ 应用程序

📺 原视频

#AIAgent #Skills #Anthropic #ClaudeCode #MCP

YouTube

Don't Build Agents, Build Skills Instead – Barry Zhang & Mahesh Murag, Anthropic

In the past year, we've seen rapid advancement of model intelligence and convergence on agent scaffolding. But there's still a gap: agents often lack the domain expertise and specialized knowledge needed for real-world work. We think Skills are the solution—a…

AIAgent Skills Anthropic ClaudeCode MCP

20:27 · 2025年12月14日 · 周日

如何让 Claude Code Skills 可靠激活

Claude Code 的 Skills 功能理论上会根据描述自动激活，但实际测试发现激活率仅约 20%，跟抛硬币差不多。作者通过 200+ 次测试，找到了两种有效方案。

测试结果对比：

• Simple 简单指令：整体成功率仅 20%
• Forced Eval 强制评估：成功率 84%，最稳定
• LLM Eval 预评估：成功率 80%，更快更省钱

核心发现

强制评估之所以有效，在于它创建了「承诺机制」：

1. Claude 必须逐一评估每个 Skill 并给出 YES/NO
2. 明确表态后才能继续实现
3. 使用 "MANDATORY"、"CRITICAL" 等强硬措辞增加执行力

如何选择

Forced Eval：追求稳定性，不介意输出冗长
LLM Eval：追求速度和成本，适合单一技能场景

使用方法：在 .claude/hooks/ 创建对应脚本，并在 settings.json 中配置 hook。如果用 claude-skills-cli，可直接运行：

pnpm exec claude-skills-cli add-hook

🔗 原文链接

#ClaudeCode #Skills #开发技巧 #Anthropic #AI工具

GitHub

GitHub - spences10/claude-skills-cli: 🤖 CLI for creating Claude Agent Skills with progressive disclosure validation. Built for…

🤖 CLI for creating Claude Agent Skills with progressive disclosure validation. Built for Claude Code to use when humans ask it to create skills. - spences10/claude-skills-cli

ClaudeCode Skills 开发技巧 Anthropic AI工具

14:27 · 2025年12月14日 · 周日

CKA-Agent：利用"无害查询编织"绕过商用 LLM 安全护栏

来自 GaTech、UIUC、清华等机构的研究团队提出了一种名为 CKA-Agent（关联知识攻击代理）的新型越狱框架，揭示了大语言模型安全机制的根本性漏洞。

核心发现：
该研究指出，LLM 的脆弱性并非在于提示词优化是否巧妙，而在于模型内部知识的关联性——通过编织一系列看似无害的查询，即可重构受限信息。

技术原理：

CKA-Agent 将越狱问题重构为对目标模型关联知识的自适应树搜索。它不制作单一恶意提示，而是动态导航模型的内部知识图谱，利用目标自身的响应来引导多跳攻击路径。

实验结果：
• 在 Gemini-2.5-Pro、GPT-oss-120B、Claude-Haiku-4.5 等商用模型上达到 96-99% 攻击成功率
• 相比最佳分解基线提升 15-21 个百分点
• 在防御强化模型上比提示优化方法提升高达 96 倍

防御启示：
即使提供完整对话历史，模型仍难以跨查询聚合恶意意图。研究团队呼吁未来安全护栏需强化跨查询意图聚合与长上下文推理能力。

🔗 原文链接

#AI安全 #LLM越狱 #对抗攻击 #大模型防护

cka-agent.github.io

CKA-Agent: The Trojan Knowledge

Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search

AI安全 LLM越狱对抗攻击大模型防护

00:03 · 2025年12月13日 · 周六

Android Use：让 AI 代理能控制原生 Android 应用的开源库

📱 这是一款专为移动设备设计的 AI 代理工具，解决了一个核心问题：笔记本电脑无法在卡车驾驶室、送货途中等场景使用。

核心亮点：

• 利用 Android 无障碍 API 获取结构化 UI 数据，无需昂贵的视觉模型
• 相比 Anthropic Computer Use，成本降低 95%（每次操作 $0.01 vs $0.15）
• 延迟低于 1 秒，准确率超 99%
• 核心代码不到 200 行，简洁可扩展

应用场景：

🚛 物流：卡车司机在驾驶室内提交发票
🚗 零工经济：Uber/DoorDash 司机多应用切换
📦 快递：自动扫描包裹并标记送达
🏦 移动银行：自动化对账和交易处理

工作原理：

1. 感知 - 通过 ADB 获取无障碍树（XML）
2. 推理 - GPT-4 分析屏幕状态并决策
3. 执行 - 通过 ADB 命令操作设备

项目发布 24 小时内在 X 上获得 70 万+ 浏览，已有多家物流公司启动试点。

🔗 GitHub 项目地址

#Android #AI代理 #自动化 #物流科技 #开源

GitHub

GitHub - Action-State-Labs/android-action-kernel

Contribute to Action-State-Labs/android-action-kernel development by creating an account on GitHub.

Android AI代理自动化物流科技开源

22:35 · 2025年12月12日 · 周五

MCPorter 🧳 — TypeScript 调用 MCP 服务器的终极工具

MCPorter 是一个 TypeScript 运行时、CLI 和代码生成工具包，专为 Model Context Protocol (MCP) 设计。它让开发者能够以更优雅的方式调用 MCP 服务器，无需繁琐的配置和模板代码。

核心特性：

• 零配置发现 — 自动合并来自 Cursor、Claude、Codex、Windsurf、VS Code 等编辑器的 MCP 配置
• 一键生成 CLI — 将任意 MCP 服务器定义转换为可分发的命令行工具
• 类型安全客户端 — 自动生成 .d.ts 接口和客户端包装器
• 友好的 API — createServerProxy() 暴露驼峰命名方法，自动处理 JSON Schema 默认值
• OAuth 支持 — 内置 OAuth 缓存，支持 HTTP、SSE 和 stdio 传输协议

快速开始：

# 列出你的 MCP 服务器
npx mcporter list

# 调用工具
npx mcporter call context7.resolve-library-id libraryName=react

# 生成独立 CLI
npx mcporter generate-cli --command https://mcp.context7.com/mcp

安装方式：

# 使用 npx 即时运行
npx mcporter list

# 添加到项目
pnpm add mcporter

# Homebrew
brew install steipete/tap/mcporter

项目采用 MIT 许可证，当前版本 v0.7.1。

🔗 GitHub 仓库

#MCP #TypeScript #CLI #开发工具 #AI工具

GitHub

GitHub - steipete/mcporter: Call MCPs via TypeScript, masquerading as simple TypeScript API. Or package them as cli.

Call MCPs via TypeScript, masquerading as simple TypeScript API. Or package them as cli. - steipete/mcporter

MCP TypeScript CLI 开发工具 AI工具

23:36 · 2025年12月11日 · 周四

Claude Code Skills 不会自动激活？这有个解决方案

Claude Code 的 Skills 功能号称是"自主激活"的——只要你的请求匹配技能描述，Claude 就会自动使用。但现实很骨感：它根本不会。

作者创建了一个 research 技能，用于验证信息来源。每当说"research this"，Claude 应该自动调用该技能。结果呢？Claude 每次都无视技能，直接蛮干。

问题根源

Claude 太过专注于完成任务，会直接跳过检查可用工具的步骤。即使 Hook 提醒"检查一下 skills"，Claude 也当成背景噪音忽略。

解决方案：用 Hook 强制激活

核心思路：不要依赖"自主激活"，而是通过 UserPromptSubmit Hook 检测触发词，显式命令 Claude 使用技能。

# 温柔提醒（无效）
echo '💡 Check skills for relevant skills'

# 强制指令（有效）
echo "🔍 INSTRUCTION: Use Skill(research) to handle this"

区别在于：一个是"请考虑一下"，另一个是"闭嘴听令"!

更简洁的通用方案

后来作者发现了更简单的方式——一条通用 Hook 指令适用于所有技能：

"command": "echo 'INSTRUCTION: If prompt matches any skill keywords, use Skill(skill-name) to activate it.'"

无需维护关键词脚本，无需处理冲突。

实测结果

20 次测试，成功率约 50%——基本靠运气。但比维护复杂脚本省心多了。

结论：官方说 Skills 会自动激活，实际不会。用简单 Hook 碰碰运气，重要任务还是显式调用 Skill(skill-name) 最靠谱。

🔗 原文链接

#ClaudeCode #AI工具 #开发技巧 #Hooks #编程

Scott Spence

Claude Code Skills Don't Auto-Activate (a workaround) - Scott Spence

So I got Claude Skills to register with Claude Code (sorted the
YAML formatting issue),
and the skills are now showing up when I ask Claude ...

ClaudeCode AI工具开发技巧 Hooks 编程

10:08 · 2025年12月11日 · 周四

RSL 1.0：让 AI 公司为内容付费的开放许可标准正式发布

一项旨在让 AI 公司为其在网络上抓取的内容付费的开放许可标准现已正式成为规范。Really Simple Licensing 1.0（简称 RSL）允许出版商向访问其网站的网络爬虫规定许可和补偿规则。

RSL Collective 于今年 9 月宣布该标准，获得 Yahoo、Ziff Davis 和 O'Reilly Media 的支持。它是对 robots.txt 文件的扩展，后者规定了网络爬虫可以访问网站的哪些部分。虽然 RSL 本身无法阻止不付费的 AI 爬虫，但支持该标准的网络基础设施提供商可以——目前名单已包括 Cloudflare 和 Akamai（此前还有 Fastly）。

RSL 1.0 的一个重要功能是：允许出版商阻止其内容出现在 AI 驱动的搜索功能中（如 Google 的 AI Mode），同时保留在传统搜索结果中的存在。目前 Google 并未提供单独选项让网站退出 AI 功能而不影响传统搜索。

RSL Collective 联合创始人 Doug Leeds 和 Eckart Walther 表示："使用 RSL，Google 可以在用例级别尊重出版商的偏好，这意味着出版商可以完全保留在传统搜索中，同时选择退出 AI 训练、接地或生成式回答。"

🔗 阅读原文

#RSL #AI许可 #内容付费 #网络爬虫 #出版商权益

The Verge

A pay-to-scrape AI licensing standard is now official

RSL 1.0 helps publishers outline how AI companies should pay for the content they scrape across the web.

RSL AI许可内容付费网络爬虫出版商权益

07:56 · 2025年12月10日 · 周三

Linux Foundation 宣布成立 Agentic AI 基金会 (AAIF)

Linux Foundation 正式宣布成立 Agentic AI Foundation (AAIF)，由 Anthropic、Block 和 OpenAI 联合发起，旨在为智能体 AI 的发展提供开放、透明、协作的治理平台。

核心项目贡献：

• MCP (Model Context Protocol) — Anthropic 贡献，已成为连接 AI 模型与工具、数据和应用的通用标准协议，发布一年内已有超过 10,000 个 MCP 服务器，被 Claude、Cursor、ChatGPT、Gemini、VS Code 等主流平台采用

• goose — Block 贡献，开源本地优先的 AI 智能体框架，结合语言模型、可扩展工具和 MCP 集成

• AGENTS.md — OpenAI 贡献，为 AI 编码智能体提供项目级指导的通用标准，已被超过 60,000 个开源项目采用

重量级成员阵容：

白金会员包括 AWS、Anthropic、Block、Bloomberg、Cloudflare、Google、Microsoft 和 OpenAI；黄金会员包括 IBM、JetBrains、Oracle、Salesforce、SAP 等；白银会员包括 Hugging Face、Uber、Zapier 等知名公司。

Linux Foundation 执行董事 Jim Zemlin 表示："AI 正从对话系统转向可协作的自主智能体，这是 AI 发展的新阶段。将这些项目纳入 AAIF 确保它们在开放治理下持续发展。"

下一届 MCP Dev Summit 将于 2026 年 4 月 2-3 日在纽约举行。

🔗 原文链接

#AgenticAI #MCP #LinuxFoundation #开源 #AI基金会

AgenticAI MCP LinuxFoundation 开源 AI基金会

23:10 · 2025年12月9日 · 周二

Beyond Vibe Coding：AI 辅助开发完整指南

Google 工程负责人 Addy Osmani 发布了一份全面的 AI 辅助开发指南，帮助开发者从"氛围编程"迈向生产级工程实践。

核心观点

70% 问题：AI 能快速完成 70% 的功能原型，但剩余 30% 需要深厚的工程知识。修一个 bug 可能引入新问题，安全漏洞风险也不容忽视。

AI 开发光谱

• 自动补全：预测下一行代码
• 聊天机器人：自然语言问答
• 智能代理：自主处理多步骤任务

关键最佳实践

1️⃣ 先规划，后编码：让 AI 先提供架构方案，而非直接生成代码
2️⃣ 上下文为王：提供相关代码、设计文档、错误信息
3️⃣ 视觉辅助：截图胜过千言万语
4️⃣ 每次改动后测试：小步快跑，避免调试噩梦
5️⃣ 清晰描述意图：说明你想实现什么，而非仅描述表面症状

进阶技巧

• 提示工程：分解复杂任务、提供输入输出示例、善用角色扮演
• 上下文工程：像操作系统管理内存一样动态组装信息
• CLI 代理：Claude Code、Gemini CLI 等工具让终端成为强大的开发环境
• 多代理协作：不同专业代理并行处理任务

生产就绪原则

⚠️ 始终审查 AI 生成的代码——像审查初级开发者的代码一样
🔒 安全第一：输入验证、凭证管理、SQL 注入防护

未来的模型只会越来越强大。今天学会与 AI 协作，就是在为明天的工程实践做准备。

🔗 原文链接

#AI辅助开发 #VibeCoding #提示工程 #软件工程 #AddyOsmani

beyond.addy.ie

Beyond Vibe Coding - A Guide To AI-Assisted Development

Transform your development workflow with AI. Learn from Google Chrome's Engineering Leader how to master AI-assisted development and build better software.

AI辅助开发 VibeCoding 提示工程软件工程 AddyOsmani

09:18 · 2025年12月9日 · 周二

n8n 2.0 正式发布：安全优先的重大升级

n8n 团队宣布发布 2.0 版本，这不是一次花哨的功能更新，而是专注于安全性、可靠性和性能的底层重构。

核心改进

安全性：任务运行器默认启用，所有代码节点在隔离环境中执行；环境变量访问和任意命令执行默认关闭，采用"默认安全"原则。

可靠性：移除遗留选项，修复边缘情况 bug，子工作流的 Wait 节点现在能正确返回数据。

性能：新的 SQLite 池化驱动在基准测试中快达 10 倍，文件系统二进制数据处理更稳定。

新功能亮点

• Publish / Save 分离：保存不再直接更新生产环境，新增独立的"发布"按钮，让上线更安全
• 工作流画布视觉优化
• 侧边栏导航重组

升级须知

官方提供了迁移报告工具，可在 Settings → Migration Report 中查看需要处理的问题。1.x 版本将继续支持 3 个月。

时间线：Beta 版 12 月 8 日发布，稳定版 12 月 15 日发布。

里程碑回顾

自 2023 年 7 月 1.0 发布以来：GitHub Stars 从 3 万增至 16 万，社区成员从 6000+ 增至 11.5 万，团队从 30 人扩展至 190+ 人。

🔗 原文链接

#n8n #自动化工作流 #开源 #版本更新 #低代码

n8n Blog

Introducing n8n 2.0

n8n 2.0 focuses on secure-by-default execution with better reliability and performance.

n8n 自动化工作流开源版本更新低代码

18:56 · 2025年12月8日 · 周一

Claude Diary：让 AI 代理像人类一样从经验中学习

开发者 Lance Martin 创建了一个名为 Claude Diary 的插件，让 Claude Code 具备了从经验中学习并更新自身记忆的能力——这正是许多 AI 代理所缺乏的"持续学习"能力.

核心机制：反思式记忆系统

该插件借鉴了学术研究中的代理记忆框架，采用"生成-反思-整合"的方法：
• 通过 /diary 命令生成会话日记，记录关键决策、挑战和用户偏好
• 通过 /reflect 命令分析日记条目，提炼出通用规则并更新到 CLAUDE.md 系统指令文件
• 自动跟踪已处理的条目，避免重复分析

实际应用场景

过去一个月的使用中，Claude Diary 在以下方面表现出色：
• PR 评审反馈：将代码审查意见转化为持久化规则
• 工作流偏好：学习用户的 Git 提交风格、分支命名习惯
• 测试策略：识别出"先跑目标测试快速验证，再跑完整测试套件"的模式
• 代码质量：避免文件与包目录命名冲突等反模式
• 自我纠正：发现并强化未被遵守的指令规则

该插件代码完全开源，命令基于提示词实现，易于定制和扩展.

原文链接

#AI代理 #持续学习 #Claude #记忆系统 #开源工具

rlancemartin.github.io

Claude Diary

Creating a memory system for Claude Code.

AI代理持续学习 Claude 记忆系统开源工具

22:23 · 2025年12月7日 · 周日

Claude Opus 4.5：AI Agent 时代的里程碑

作者在使用 Claude Opus 4.5 两周后认为，这是 AI 发展史上的重要时刻，堪比 GPT-4 开启聊天时代、Sonnet 3.5 开启编程时代——Opus 4.5 正式开启了 Agent 时代.

核心观点：

• 可靠的 AI 助手：Opus 4.5 就像 Waymo 自动驾驶，告诉它"从 A 到 B"，它就能自主完成. 这种体验会彻底改变你的工作方式.

• 最佳组合：Opus 4.5 + Claude Agent SDK 是构建实用 Agent 的黄金搭档. 模型再好，没有优秀的框架也白搭. 这套组合让 Agent 真正能完成复杂的现实任务.

• Anthropic 的崛起：过去三年，Anthropic 年收入增长 10 倍（2025 年预计达 100 亿美元）. 作者预测其估值可能在 2027 年初超越 OpenAI.

实用建议：

- 把 Opus 4.5 当作真正的同事，给它更复杂的任务，信任它独立完成
- 用语音输入随意表达想法，让它整理成完整方案
- Claude Code + Opus 4.5 是目前最强的 AI 编程工具，新的"计划模式"显著提升了复杂任务表现
- 尝试编写伪代码，Opus 4.5 能精准理解意图并实现
- 深入学习 Claude Agent SDK，用它构建自动化工具来处理日常重复任务

Opus 4.5 的图像理解能力大幅提升，截图转代码功能达到全新水平. 作者强调：如果你对 Agent 持怀疑态度，现在该转变了——这一切都是真的.

阅读原文

#ClaudeOpus45 #AIAgent #Anthropic #AI编程 #自动化工具

Mckaywrigley

My Thoughts on Claude Opus 4.5

My thoughts on Claude Opus 4.5 and unlocking agents.

ClaudeOpus45 AIAgent Anthropic AI编程自动化工具

22:07 · 2025年12月7日 · 周日

AI 代理上下文工程实战：Manus 团队的六大核心经验

Manus 团队在构建 AI 代理过程中，经历了四次框架重建，最终总结出六条关键原则：

1. 围绕 KV 缓存设计
KV 缓存命中率是最关键指标，直接影响延迟和成本(10倍差距). 实践要点：保持提示前缀稳定(避免时间戳)、使用只追加式上下文、确定性序列化 JSON.

2. 遮蔽而非移除工具
动态增删工具会破坏 KV 缓存并导致模型困惑. 解决方案是使用状态机掩蔽 token logits，通过响应预填充约束动作空间，同时保持工具定义稳定.

3. 文件系统作为上下文
面对 128K token 限制和长上下文性能下降问题，Manus 将文件系统视为无限外部记忆. 代理学会按需读写文件，压缩策略保持可恢复性(如保留 URL 可重新获取网页).

4. 通过复述操控注意力
典型任务需约 50 次工具调用，易偏离目标. Manus 通过不断更新 todo.md 文件，将全局计划推入模型近期注意力范围，避免"迷失在中间"问题.

5. 保留错误内容
将失败尝试保留在上下文中，让模型看到错误和堆栈跟踪，隐式更新内部信念，降低重复错误概率. 错误恢复能力是真正代理行为的核心指标.

6. 避免少样本示例陷阱
重复的行动-观察对会让模型陷入固定模式. 通过引入结构化变化(不同模板、措辞、格式噪音)增加多样性，打破模式依赖.

核心启示：上下文工程决定代理的速度、恢复能力和扩展范围. 智能代理的未来需要精心设计每一个上下文.

原文链接

#AI代理 #上下文工程 #Manus #LLM优化 #KV缓存

manus.im

AI代理的上下文工程：构建Manus的经验教训

这篇文章分享了Manus通过我们自己的"SGD"所达到的局部最优解。如果你正在构建自己的AI代理，我们希望这些原则能帮助你更快地收敛。

AI代理上下文工程 Manus LLM优化 KV缓存

09:39 · 2025年12月7日 · 周日

Open Scouts：AI 驱动的网页监控平台

Open Scouts 是一个开源的 AI 网页监控工具，让你创建自动化的"侦察兵"持续搜索网络，并在发现目标信息时发送邮件通知\。无论是追踪附近的新餐厅、监控 AI 资讯，还是其他内容，侦察兵都会 24/7 为你工作.

核心特性
• AI 智能代理：基于 OpenAI GPT-4，自动配置搜索策略
• 灵活调度：支持每日、每 3 天、每周执行频率
• 邮件通知：发现结果时自动推送到邮箱
• 语义搜索：使用 pgvector 向量嵌入生成智能摘要
• 用户隔离：通过 Supabase Auth 实现安全的多用户支持

技术栈
采用 Next.js 16、React 19、TypeScript、Tailwind CSS v4 构建，后端使用 Supabase + PostgreSQL，集成 Firecrawl 网页抓取、OpenAI API 和 Resend 邮件服务\。

可扩展架构
使用 pg_cron + pg_net + Edge Functions 实现调度分发，每个侦察兵独立执行，轻松扩展至数千个任务\。

查看项目

#AI智能体 #网页监控 #自动化工具 #开源项目 #Supabase

GitHub

GitHub - firecrawl/open-scouts: 🔥 AI-powered web monitoring platform. Create automated scouts that search the web and send email…

🔥 AI-powered web monitoring platform. Create automated scouts that search the web and send email alerts when they find what you're looking for. - firecrawl/open-scouts

AI智能体网页监控自动化工具开源项目 Supabase

19:51 · 2025年12月5日 · 周五

AI 现状：来自 100 万亿 Token 的实证研究

a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况。这项研究为我们提供了关于模型生态、用户行为和未来趋势的深刻洞见。

以下是几个核心发现：

开源模型的崛起
开源模型已占据约三分之一的市场份额，其中来自中国的模型增长尤为迅猛。在开源领域，创意角色扮演和编程辅助是两大主要应用场景。

智能体推理成为新常态
LLM 的使用正从简单的单轮问答转向集成了工具调用、具备多步规划能力的“智能体推理”。更长的上下文输入和对推理模型的偏爱都证明了这一趋势。

编程与角色扮演：两大支柱
在所有模型中，“编程”是增长最快的专业应用，而“角色扮演”则是一个体量惊人的消费级应用，其使用量几乎与专业任务相当。

“灰姑娘的水晶鞋”效应
研究发现，当一个新模型率先完美解决了某个特定高价值问题时，其早期用户会表现出极高的忠诚度和留存率，形成稳固的“基础用户群”。

价值驱动，而非价格
LLM 市场尚未商品化，需求对价格相对不敏感。用户愿意为高可靠性的闭源模型支付溢价以完成关键任务，而开源模型则在成本敏感的高容量场景中占据优势。

AI 使用的全球化
AI 的使用日益全球化，北美地区支出已低于总额的一半，亚洲市场份额则翻倍增长至近三分之一，显示出强劲的消费和创新能力。

报告揭示了一个多元、动态且竞争激烈的 LLM 生态系统。实际的用户行为往往超出传统认知，从智能体的兴起到角色扮演的流行，都预示着 AI 应用的未来充满了更多可能性。

原文链接

#AI趋势 #大语言模型 #数据分析 #开源模型 #智能体

OpenRouter

State of AI 2025: 100T Token LLM Usage Study | OpenRouter

Read OpenRouter's 2025 State of AI report — an empirical 100 trillion token study of real LLM usage, model trends, and developer insights.

AI趋势大语言模型数据分析开源模型智能体

08:15 · 2025年12月5日 · 周五

Hugging Face 推出新工具，让 Claude 帮你微调开源大模型

Hugging Face 发布了一项名为 “Hugging Face Skills” 的新工具，它赋予了像 Claude 这样的 AI 编码助手直接微调语言模型的能力. 用户现在可以通过简单的自然语言指令，完成从配置到部署的全过程.

用户只需发出指令，例如：
Fine-tune Qwen3-0.6B on the dataset trl-lib/Capybara

AI 助手便会自动处理后续所有步骤：

- 验证数据集格式
- 选择合适的硬件并预估成本
- 提交任务并实时监控进度
- 训练完成后将模型推送到 Hub

该工具不仅支持监督微调（SFT）、直接偏好优化（DPO）等多种训练方法，还能将最终模型转换为 GGUF 格式，方便在本地运行.

这使得模型微调不再是少数专家的专利，而是变成了一项通过对话即可完成的任务，极大地降低了技术门槛.

阅读原文

#AI #大语言模型 #HuggingFace #模型微调 #Claude

huggingface.co

We Got Claude to Fine-Tune an Open Source LLM

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

AI 大语言模型 HuggingFace 模型微调 Claude

Before

After

Home