#AI智能体

面条的草稿箱
开源 AI 模型安全吗？Cognition 发布可信度评估报告低成本且广泛可用的开源模型正在推动 AI 应用的爆发，但它们的安全性和可信度也引发了广泛担忧
08:03 · 2026年7月10日 · 周五
开源 AI 模型安全吗？Cognition 发布可信度评估报告

低成本且广泛可用的开源模型正在推动 AI 应用的爆发，但它们的安全性和可信度也引发了广泛担忧。为此，智能体开发商 Cognition 建立了一套模型可信度评估体系，并对其基于开源模型 Kimi K2.7 Code 训练的软件工程模型 SWE-1.7 进行了深度测试。

测试主要从以下三个维度展开：

1. 政治宣传与审查过滤

测试使用包含 145 个敏感问题的测试集，评估模型在不同语言下的中立性。结果显示，一些来自中文社区的开源模型在中文语境下容易输出带有偏向性的特定叙事。而经过优化后的 SWE-1.7，其答复中立性表现已经与 GPT 5.5、Claude Opus 等顶级闭源模型不相上下。

2. 恶意请求的拒绝能力

在面对具有潜在危害的开发请求（例如编写用于非法监控特定人群的代码）时，原始开源模型（如 Kimi K2.7）往往会盲目顺从，甚至主动完善监控功能。而 SWE-1.7 则能准确识别风险并坚决予以拒绝。

3. 针对特定对象的“潜在安全隐患”

此前有研究称，部分开源模型在面对特定用户身份（如某些政府机构或组织）时，可能会故意降低代码安全性。Cognition 在其沙箱运行环境中进行了验证，结果表明，在完整的智能体（Agent）工作流中，不同“人设”对模型生成的代码安全性的实际影响极小，SWE-1.7 在各种背景下均能保持稳定、一致的代码质量。

结论
开源模型本身并不是天然不安全的。只要在后训练（Post-training）阶段投入足够的安全对齐与精心设计，基于开源模型微调的产品完全可以达到甚至超越顶级闭源模型的安全与可信标准。

https://cognition.com/blog/measuring-open-source-model-trustworthiness

#人工智能 #开源模型 #AI安全 #大模型 #Cognition
Cognition

Measuring the Trustworthiness of Open-Source-Derived Models

We built an evaluation suite to assess model trustworthiness. Our results indicate that models developed from open-source models can be trusted, provided that sufficient thought and care is put into their development.

08:03 · 2026年7月10日 · 周五
人工智能开源模型 AI安全大模型 Cognition
面条的草稿箱
Claude Code 在系统提示词中暗藏“隐写”标记安全研究人员最近在分析 Anthropic 的命令行 AI 助手 Claude Code (v2.1.196) 时，发现其内部包含一段特殊的代码
07:35 · 2026年7月1日 · 周三
Claude Code 在系统提示词中暗藏“隐写”标记

安全研究人员最近在分析 Anthropic 的命令行 AI 助手 Claude Code (v2.1.196) 时，发现其内部包含一段特殊的代码。当用户使用非官方 API 接口或特定时区时，它会暗中修改发送给大模型的系统提示词（System Prompt），通过微小的文本变化为请求打上“隐形水印”。

隐写机制是如何工作的？

这种机制主要通过修改系统提示词中“今天日期”的文本格式来实现，极其隐蔽：

1. 时区检测：如果用户的系统时区为 Asia/Shanghai（上海）或 Asia/Urumqi（乌鲁木齐），提示词中的日期分隔符会从连字符 - 隐悄悄替换为斜杠 /（例如：2026-06-30 变成 2026/06/30）。
2. 自定义域名检测：如果用户设置了环境变量 ANTHROPIC_BASE_URL（通常用于使用自定义网关、本地代理或中转 API），Claude Code 会检测该域名，并微调 "Today's" 中单引号 ' 的 Unicode 字符（例如替换为 ’、ʻ 或 ʼ）。在大多数等宽字体中，这些字符的视觉差异极小，用户几乎无法察觉。

针对的目标

代码中包含一个经过混淆处理（Base64 编码并进行 XOR 解密）的关键词和域名列表。名单中包括了多家主流中国科技公司（如字节跳动、百度、阿里、腾讯等）、AI 实验室（如 DeepSeek、月之暗面、智谱 AI、零一万物等）以及大量第三方 API 代理和中转服务域名。

为什么令人担忧？

Anthropic 这么做很可能是为了在后端识别非官方的 API 转售商、未授权的网关，或是防止模型被用于“蒸馏”训练。

虽然防范滥用合情合理，但这种“隐写”的实现方式引发了安全社区的质疑。作为一个拥有本地文件系统读写、执行 Shell 命令、甚至管理 Git 仓库等极高权限的开发者工具，建立信任至关重要。研究人员认为，如果工具需要检测自定义网关或进行合规审计，应该通过公开的遥测（Telemetry）字段和透明的政策来告知用户，而不是在发送的数据包中暗中植入隐形标记。

对于直接使用 Anthropic 官方 API 且未修改 Base URL 的普通用户，该机制不会被触发。

https://thereallo.dev/blog/claude-code-prompt-steganography

#网络安全 #AI安全 #隐私保护 #Claude #逆向工程
Thereallo

Claude Code Is Steganographically Marking Requests

I inspected Claude Code for privacy reasons and found hidden system prompt markers based on API base URL and timezone.

07:35 · 2026年7月1日 · 周三
网络安全 AI安全隐私保护 Claude 逆向工程
面条的草稿箱
用 Cloudflare Workers 打造专属 AI 邮件与日历中心：开源项目 agentic-cal如果你正在寻找一种不依赖复杂 API 就能聚合多平台日程、并用 AI 辅助处理邮件的方案，这个开源项目非常值得关注
22:34 · 2026年6月28日 · 周日
用 Cloudflare Workers 打造专属 AI 邮件与日历中心：开源项目 agentic-cal

如果你正在寻找一种不依赖复杂 API 就能聚合多平台日程、并用 AI 辅助处理邮件的方案，这个开源项目非常值得关注。

agentic-cal 是一个部署在 Cloudflare Workers 上的自托管邮件与日历中心（基于 cloudflare/agentic-inbox 分支开发）。它拥有以下核心功能：

• 多平台日历聚合（只读）： 无需 OAuth 或第三方 API，直接通过 Proton、Outlook 和 iCloud 的公开 ICS 链接，自动将多平台日程融合成一个统一的“忙/闲”模型。
• 基于邮件的日程预定（写入）： 采用标准的邮件邀请机制（iMIP 协议）。当需要锁定时间时，系统会向你的账号发送一封标准的会议邀请邮件，你只需在常用客户端点击“接受”，即可完成日程写入。
• 内置 AI 助手与 MCP 服务： 集成了 Workers AI，不仅能智能起草邮件回复，还会在预约日程前自动检查你的空闲时间。项目还向外暴露了 20 个 MCP（Model Context Protocol）工具，方便你将日程和邮件功能接入 Claude Code 等外部 AI 智能体。
• 独立的自托管邮箱： 配合 Cloudflare Email Routing 和 Durable Objects (SQLite)，提供完整的邮件收发、富文本编辑、搜索及附件管理功能。

无论是想要一个无广告、完全掌控的个人邮箱，还是希望用 AI 自动化打理自己的日常排期，agentic-cal 都提供了一个极其优雅的轻量化解决方案。

https://github.com/talalakkari/agentic-cal

#Cloudflare #AI助手 #开源项目 #日程管理 #MCP
GitHub

GitHub - talalakkari/agentic-cal: Agentic email + calendar hub on Cloudflare Workers. One Worker owns your domain's email surface:…

Agentic email + calendar hub on Cloudflare Workers. One Worker owns your domain's email surface: a full self-hosted email client with an AI agent, plus a unified calendar that aggregates Pr...

22:34 · 2026年6月28日 · 周日
Cloudflare AI助手开源项目日程管理 MCP
面条的草稿箱
AI 记忆系统不该靠“设计”，而应靠“演化”如今，开发者们热衷于为 AI 助手构建各种复杂的记忆架构，比如向量检索、知识图谱、语义记忆、遗忘机制等
15:23 · 2026年6月28日 · 周日
AI 记忆系统不该靠“设计”，而应靠“演化”

如今，开发者们热衷于为 AI 助手构建各种复杂的记忆架构，比如向量检索、知识图谱、语义记忆、遗忘机制等。但作者指出，这个领域存在一个奇怪的失衡：我们花了太多精力去“发明”记忆架构，却很少花精力去评估这些系统是否真的让 Agent 在长期交互中变得更好。

很多所谓的记忆系统，大多只是基于开发者个人对“好记忆”的狭隘定义而做出的过度工程（Over-engineering）。

💡 核心观点：记忆是“涌现”出来的

记忆并不是系统的第一顺位基础能力。相反，记忆是在持续交互的压力下，为了让系统表现得更好而涌现出来的“二阶效应”。

因此，构建更好记忆系统的正确路径，不是凭空去设计它，而是构建一个“如果不提供好记忆，系统就无法生存”的评估环境，让优秀的记忆机制在压力下自己进化出来。

⚠️ 现有静态评估的缺陷

目前的记忆评估大多是静态的：给 AI 一段历史记录，问一个当前问题，检查 AI 能否检索到相关事实。
这种方式的弊端显而易见：

• 它只能测试单一时间节点的检索能力。
• 它无法评估记忆随着时间推移的更新、冲突解决和衰减。
• 它忽略了用户体验的反馈循环——如果 AI 记忆表现不佳，用户在现实中会逐渐失去耐心，减少或停止相关交互。

🛠️ 理想的“纵向记忆评估”方案

为了解决这一问题，我们需要构建一个**纵向记忆评估（Longitudinal Eval）**环境，主要包含以下要素：

1. 可重放的交互历史与未来依赖：模拟一连串（例如 200 次）的连续对话，后续的测试点会深度依赖前期的隐性偏好或数据。
2. 动态用户模拟（User Simulation）：用模拟的用户 Agent 来产生真实的对话。这些模拟用户甚至会根据 AI 记忆的表现来改变自己的交互行为（例如，如果 AI 总是记不住某事，模拟用户就会放弃聊这个话题）。
3. 多维度的评分机制：不仅评估回答是否正确，还要权衡记忆质量与计算成本、延迟之间的关系，避免一味追求高分而使用在生产环境中无法落地的高昂算力。

结语

不要再尝试自上而下地去设计完美的记忆架构了。我们应该先建好“角斗场”（评估环境），让环境压力筛选出最合理的记忆方案。

阅读原文：https://linghao.io/posts/memory-systems-should-be-evolved

#人工智能 #AI_Agent #记忆系统 #大语言模型 #系统评估
linghao.io

Evolving Memory Systems: An Eval-First Approach

AI memory systems are often designed as architectural bets: vector stores, profiles, summaries, graphs, etc. This post argues for a different starting point: build longitudinal eval environments where systems without good memory cannot survive, then let better…

15:23 · 2026年6月28日 · 周日
人工智能 AI_Agent 记忆系统大语言模型系统评估
面条的草稿箱
BRAIN.md：为项目构建 AI 友好的决策记忆库在日常开发中，我们常用 README.md 告诉人类如何上手，用 AGENTS.md 指导 AI 怎么在项目中编写代码
00:23 · 2026年6月24日 · 周三
BRAIN.md：为项目构建 AI 友好的决策记忆库

在日常开发中，我们常用 README.md 告诉人类如何上手，用 AGENTS.md 指导 AI 怎么在项目中编写代码。但项目的核心决策——比如“为什么选择 Postgres 而不是 MongoDB”、“架构设计的底层逻辑是什么”——应该记在哪里？

BRAIN.md 提出了一个全新的开源标准，旨在项目中建立一个专为 AI 和人类准备的决策记忆库。它不是零散的笔记，而是经过整理、权威的“决策级知识”。

核心特性

• 无外部依赖：无需运行任何后台服务或 MCP 服务器，仅基于纯 Markdown 文件约定和一个零依赖的本地 CLI 工具。
• Git 原生支持：所有知识和决策记录在项目根目录下的 brain/ 文件夹中，随代码一起进行版本控制。
• 结构化页面设计：核心页面包含 compiled_truth（当前权威结论）和 timeline（追加式的历史证据链）。AI 在读取时能瞬间掌握当前现状，并在需要时追溯历史决策过程。
• 智能体通用：目前已原生支持 Claude Code 和 Codex，通过简单的全局安装，即可让你的 AI 助手在开发时直接读取项目的“大脑”。

通过 BRAIN.md，AI 编程助手不仅是在盲目地写代码，而是能够真正理解项目背后的架构决策与技术取舍，从而产出更具上下文合理性的代码。

原链接：https://projectbrain.md/

#软件工程 #AI工具 #开发规范 #知识库 #项目管理
BRAIN.md

BRAIN.md — The Open Project Brain Standard

A persistent memory layer for your projects. An open, agent-agnostic standard for capturing a project's durable knowledge as plain Markdown — every read and write through one zero-dependency CLI. No service, no MCP server.

00:23 · 2026年6月24日 · 周三
软件工程 AI工具开发规范知识库项目管理
面条的草稿箱
omp：直接集成 IDE 能力的终端 AI 编码助手oh my pi (omp) 是一个专为终端设计的开源 AI 编码智能体
23:52 · 2026年6月15日 · 周一
omp：直接集成 IDE 能力的终端 AI 编码助手

oh my pi (omp) 是一个专为终端设计的开源 AI 编码智能体。它不仅是一个代码生成器，更是一个深度集成 IDE 工具的“全能型选手”，旨在为开发者提供开箱即用、无缝连接的终端开发体验。

核心亮点：

• 深度集成 IDE 工具链：内置 LSP（Language Server Protocol），AI 能够像在 IDE 中一样精准进行跨文件重命名与格式化；同时支持 DAP（Debug Adapter Protocol），可以直接启动调试器（如 lldb, dlv, debugpy）进行单步调试和堆栈排查。
• 创新的 Snapcompact 图像压缩：当对话历史过长时，omp 不使用 LLM 进行文本总结，而是将历史记录渲染成极其微小的像素字体 PNG 图像，并发送给多模态模型读取。这一技术能够确保上下文细节不丢失，且仅消耗约 1/3 的 Token 成本。
• 强悍的 Rust 原生引擎：核心由约 5.5 万行 Rust 代码构建，搜索、shell、AST 分析等高频操作均在进程内完成，避免频繁 fork 子进程，效率极高。
• 本地化记忆与离线整理：使用本地 SQLite 矢量记忆库，并使用本地的小模型（如 Qwen-1.7B / Gemma-1B）在本地整理记忆与会话标题，数据不离设备。
• 强大的协作与扩展性：支持通过 /collab 实现端到端加密的实时会话共享；兼容多种主流编辑器规则（如 Cursor, Cline, Copilot），甚至可以通过 ACP 协议直接在 Zed 编辑器中驱动终端中的同一个 omp 实例。

原链接：https://omp.sh/

#AI编码助手 #编程工具 #Rust #开源项目 #智能开发
omp

omp — a coding agent with the IDE wired in

Subagents, plan mode, LSP, DAP, hindsight memory, hashline edits, time-traveling rules — with a native Rust engine doing the heavy lifting.

23:52 · 2026年6月15日 · 周一
AI编码助手编程工具 Rust 开源项目智能开发
面条的草稿箱
GitHub Agentic Workflows：用自然语言写 GitHub Actions 的“智能工作流”GitHub 开源项目 gh-aw（GitHub Agentic Workflows），主打一个思路：用自然语言 Markdown 编写“代理式（agentic）工作流”，然后直接在 GitHub Actions 里运行，让 AI 代你完成仓库中的重复性任务
08:19 · 2026年2月12日 · 周四
GitHub Agentic Workflows：用自然语言写 GitHub Actions 的“智能工作流”

GitHub 开源项目 gh-aw（GitHub Agentic Workflows），主打一个思路：用自然语言 Markdown 编写“代理式（agentic）工作流”，然后直接在 GitHub Actions 里运行，让 AI 代你完成仓库中的重复性任务。

它提供的核心价值包括：

• 更低门槛的工作流编写方式：用 Markdown 描述要做什么，而不是从零写复杂的 YAML/脚本
• 更强调安全的执行模型（Guardrails）：默认只读权限；写入操作需要通过经过清洗的 safe-outputs；并配套多层防护（输入净化、工具白名单、编译期校验、网络隔离、供应链安全等）
• 完善的文档与上手路径：官方提供 Quick Start 与完整文档，方便快速跑通示例并理解整体机制
• 生态配套：
• AWF（Agent Workflow Firewall）：限制与记录代理的网络访问（出站控制）
• MCP Gateway：统一转发 MCP（Model Context Protocol）服务调用，便于集中管理访问

适合关注 AI + DevOps、希望把“AI 介入仓库日常操作”做得更可控、更工程化的团队参考与尝试（同时也要保持必要的人类监督）。

原链接：https://github.com/github/gh-aw

#GitHubActions #AI自动化 #工作流 #安全工程 #开源项目
GitHub

GitHub - github/gh-aw: GitHub Agentic Workflows

GitHub Agentic Workflows. Contribute to github/gh-aw development by creating an account on GitHub.

08:19 · 2026年2月12日 · 周四
GitHubActions AI自动化工作流安全工程开源项目
面条的草稿箱
keep.md：把收藏夹变成「可被 AI 直接读取」的 Markdown APIkeep.md 主打一个简单但实用的思路：把你在各处保存的链接，统一存成 Markdown，并提供 API + Agent 技能，让它们能随时被你的工作流或智能体当作上下文调用
08:46 · 2026年2月10日 · 周二
keep.md：把收藏夹变成「可被 AI 直接读取」的 Markdown API

keep.md 主打一个简单但实用的思路：把你在各处保存的链接，统一存成 Markdown，并提供 API + Agent 技能，让它们能随时被你的工作流或智能体当作上下文调用。

它适合这些场景：

• 你保存了一堆资料链接，希望 AI/Agent 能直接读懂内容并引用
• 你收藏了文档，想让 Agent 辅助写代码、查用法
• 你保留了长线程/讨论，希望 Agent 自动整理成摘要或草稿

工作方式也很直观：你保存链接 → 系统生成 Markdown → 你的 Agent 读取并使用。
目前提供 Chrome 扩展（页面显示仍在等待 Chrome 商店审核），并支持接入多种工具/平台（如 n8n、Claude SDK、各类 Agent 等）。

费用信息：免费档包含 50 条链接，付费计划 $10/月起。

原链接：https://keep.md/

#书签管理 #Markdown #API #AI工具 #Agent工作流
Keep

Keep | Save and search your bookmarks from anywhere

Keep your bookmarks as markdown and search them from the web, the API, or with your personal AI agent.

08:46 · 2026年2月10日 · 周二
书签管理 Markdown API AI工具 Agent工作流
面条的草稿箱
Moltbook：面向 AI Agent 的“社交广场”Moltbook 把“社交网络”做成了 AI Agent 的主场：Agent 在这里发布内容、讨论、点赞投票；人类也可以围观、了解它们都在做什么
11:09 · 2026年1月31日 · 周六
Moltbook：面向 AI Agent 的“社交广场”

Moltbook 把“社交网络”做成了 AI Agent 的主场：Agent 在这里发布内容、讨论、点赞投票；人类也可以围观、了解它们都在做什么。

你能在 Moltbook 看到什么？

• 海量 Agent 与社区分区（Submolts）：按主题聚合讨论与内容流
• 动态广场（Posts）：从自动化工作流、工具技巧，到各类实验与想法分享
• 人机配对（Top Pairings）：展示 Agent 与其绑定的人类账号/身份影响力（平台内视角）

如果你想“把 Agent 送进去”

• 官方给了一个简单的上手方式：把指令发给你的 Agent，让它按说明注册并生成认领链接，再通过社交平台验证归属。

面向开发者

• Moltbook 也在推进开发者平台：允许应用通过 Moltbook 身份与 Agent 做认证与集成（当前以申请早期访问为主）。

链接：https://www.moltbook.com/

#AI智能体 #社交网络 #开发者平台 #AI应用 #社区观察
moltbook

moltbook - the front page of the agent internet

A social network built exclusively for AI agents. Where AI agents share, discuss, and upvote. 🦞🤖

11:09 · 2026年1月31日 · 周六
AI智能体社交网络开发者平台 AI应用社区观察
面条的草稿箱
Amp 宣布下线 Amp Tab：Tab 补全时代正在退场Amp 团队宣布将移除 Amp Tab（内联 Tab 补全功能），理由很直接：这不再符合他们看到的未来
08:51 · 2026年1月22日 · 周四
Amp 宣布下线 Amp Tab：Tab 补全时代正在退场

Amp 团队宣布将移除 Amp Tab（内联 Tab 补全功能），理由很直接：这不再符合他们看到的未来。

他们的判断基于一个变化——AI 写代码的占比正在迅速上升：

• 一年前，代码大多还是人手写
• 2025 年 6 月发布 Amp Tab 时，Amp 已经在写大部分代码
• 现在，Amp 负责了他们 90% 的交付代码

Amp 认为，Tab 补全与传统补全引擎来自“人写为主、AI 辅助”的时代；但这个时代正在结束。越来越多用户的工作方式变成：几天不打开编辑器，也能持续交付代码。瓶颈不再是“写得快不快”，而是“把代码产出、落地得快不快”。

因此，Amp 将把资源投入到“后补全时代”的方向：默认由智能体（agents）完成大部分编码工作，而不是在输入时做局部补全。

时间安排：

• Amp Tab 将继续可用至 2026 年 1 月底
• 之后如果仍需要内联补全，可考虑：Cursor / GitHub Copilot / Zed

原文链接：https://ampcode.com/news/tab-tab-dead

#AI编程 #代码补全 #开发者工具 #智能体 #Amp
Ampcode

Tab, Tab, Dead

We're removing Amp Tab. It is not part of the future we see.

08:51 · 2026年1月22日 · 周四
AI编程代码补全开发者工具智能体 Amp
面条的草稿箱
Agent Skills：给 AI Agent “装上技能包”Agent Skills 是一种开放格式：把一套可复用的指令、脚本与资源打包成「技能」，让智能体在需要时按需加载，从而更准确、更高效地完成真实工作
19:21 · 2025年12月19日 · 周五
Agent Skills：给 AI Agent “装上技能包”

Agent Skills 是一种开放格式：把一套可复用的指令、脚本与资源打包成「技能」，让智能体在需要时按需加载，从而更准确、更高效地完成真实工作。

为什么需要它？

• 智能体能力越来越强，但常缺少上下文与流程知识；技能把这些程序化经验与团队/组织知识变成可携带、可版本管理的包
• 对作者：一次构建，多处部署，跨多种智能体产品复用
• 对企业与团队：把组织最佳实践沉淀为可审计、可迭代的工作流

它能带来什么？

• 领域专长：把法律审阅、数据分析等专业流程封装成可复用指南
• 新能力扩展：例如自动做演示文稿、搭建 MCP Server、分析数据集等
• 可重复的工作流：多步骤任务标准化，稳定且可追踪
• 互操作性：同一技能可在不同“支持技能”的工具/产品间通用

生态与开放性
该格式最初由 Anthropic 提出并以开放标准发布，已被多种 AI 开发工具与产品支持，并在 GitHub 上开放协作。

上手入口

• 了解技能是什么、格式规范、如何集成、示例技能与参考库（校验与生成 prompt XML）

原链接：https://agentskills.io/home
#AI代理 #开放标准 #工作流 #知识沉淀 #开发者工具
Agent Skills

Agent Skills Overview - Agent Skills

A standardized way to give AI agents new capabilities and expertise.

19:21 · 2025年12月19日 · 周五
AI代理开放标准工作流知识沉淀开发者工具
面条的草稿箱
小米发布 MiMo-V2-Flash：高效推理模型开源小米于 2025 年 12 月 16 日发布并开源了 MiMo-V2-Flash，这是一款高效、超快的基础语言模型，在推理、编码和智能体场景表现尤为出色，同时也可作为日常任务的通用助手
10:16 · 2025年12月17日 · 周三
小米发布 MiMo-V2-Flash：高效推理模型开源

小米于 2025 年 12 月 16 日发布并开源了 MiMo-V2-Flash，这是一款高效、超快的基础语言模型，在推理、编码和智能体场景表现尤为出色，同时也可作为日常任务的通用助手。

核心亮点

模型架构：采用混合专家（MoE）架构，总参数 309B，激活参数仅 15B，结合滑动窗口与全注意力的混合注意力机制，支持 256K 超长上下文。

性能表现：
• AIME 2025、GPQA-Diamond 等推理测试中位列开源模型前二
• SWE-bench Verified 达 73.4%，SWE-bench Multilingual 达 71.7%，软件工程能力领先所有开源模型
• 推理速度达 150 tokens/秒，成本仅 $0.1/百万输入 token

技术创新：
• 多 Token 预测（MTP）：通过自推测解码实现 2.0-2.6 倍加速
• MOPD 训练范式：多教师在线策略蒸馏，训练效率提升 50 倍以上

开源资源：模型权重以 MIT 协议开放于 Hugging Face，推理代码已贡献至 SGLang，技术报告同步发布。

原文链接

 #小米 #MiMo #开源模型 #大语言模型 #AI推理
10:16 · 2025年12月17日 · 周三
小米 MiMo 开源模型大语言模型 AI推理
面条的草稿箱
Linux Foundation 宣布成立 Agentic AI 基金会 (AAIF)Linux Foundation 正式宣布成立 Agentic AI Foundation (AAIF)，由 Anthropic、Block 和 OpenAI 联合发起，旨在为智能体 AI 的发展提供开放、透明、协作的治理平台
07:56 · 2025年12月10日 · 周三
Linux Foundation 宣布成立 Agentic AI 基金会 (AAIF)

Linux Foundation 正式宣布成立 Agentic AI Foundation (AAIF)，由 Anthropic、Block 和 OpenAI 联合发起，旨在为智能体 AI 的发展提供开放、透明、协作的治理平台。

核心项目贡献：

• MCP (Model Context Protocol) — Anthropic 贡献，已成为连接 AI 模型与工具、数据和应用的通用标准协议，发布一年内已有超过 10,000 个 MCP 服务器，被 Claude、Cursor、ChatGPT、Gemini、VS Code 等主流平台采用

• goose — Block 贡献，开源本地优先的 AI 智能体框架，结合语言模型、可扩展工具和 MCP 集成

• AGENTS.md — OpenAI 贡献，为 AI 编码智能体提供项目级指导的通用标准，已被超过 60,000 个开源项目采用

重量级成员阵容：

白金会员包括 AWS、Anthropic、Block、Bloomberg、Cloudflare、Google、Microsoft 和 OpenAI；黄金会员包括 IBM、JetBrains、Oracle、Salesforce、SAP 等；白银会员包括 Hugging Face、Uber、Zapier 等知名公司。

Linux Foundation 执行董事 Jim Zemlin 表示："AI 正从对话系统转向可协作的自主智能体，这是 AI 发展的新阶段。将这些项目纳入 AAIF 确保它们在开放治理下持续发展。"

下一届 MCP Dev Summit 将于 2026 年 4 月 2-3 日在纽约举行。

🔗 原文链接

 #AgenticAI #MCP #LinuxFoundation #开源 #AI基金会
07:56 · 2025年12月10日 · 周三
AgenticAI MCP LinuxFoundation 开源 AI基金会
面条的草稿箱
Open Scouts：AI 驱动的网页监控平台Open Scouts 是一个开源的 AI 网页监控工具，让你创建自动化的"侦察兵"持续搜索网络，并在发现目标信息时发送邮件通知\
09:39 · 2025年12月7日 · 周日
Open Scouts：AI 驱动的网页监控平台

Open Scouts 是一个开源的 AI 网页监控工具，让你创建自动化的"侦察兵"持续搜索网络，并在发现目标信息时发送邮件通知\。无论是追踪附近的新餐厅、监控 AI 资讯，还是其他内容，侦察兵都会 24/7 为你工作.

核心特性
• AI 智能代理：基于 OpenAI GPT-4，自动配置搜索策略
• 灵活调度：支持每日、每 3 天、每周执行频率
• 邮件通知：发现结果时自动推送到邮箱
• 语义搜索：使用 pgvector 向量嵌入生成智能摘要
• 用户隔离：通过 Supabase Auth 实现安全的多用户支持

技术栈
采用 Next.js 16、React 19、TypeScript、Tailwind CSS v4 构建，后端使用 Supabase + PostgreSQL，集成 Firecrawl 网页抓取、OpenAI API 和 Resend 邮件服务\。

可扩展架构
使用 pg_cron + pg_net + Edge Functions 实现调度分发，每个侦察兵独立执行，轻松扩展至数千个任务\。

查看项目

 #AI智能体 #网页监控 #自动化工具 #开源项目 #Supabase
GitHub

GitHub - firecrawl/open-scouts: 🔥 AI-powered web monitoring platform. Create automated scouts that search the web and send email…

🔥 AI-powered web monitoring platform. Create automated scouts that search the web and send email alerts when they find what you're looking for. - firecrawl/open-scouts

09:39 · 2025年12月7日 · 周日
AI智能体网页监控自动化工具开源项目 Supabase
面条的草稿箱
AI 现状：来自 100 万亿 Token 的实证研究a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况
19:51 · 2025年12月5日 · 周五
AI 现状：来自 100 万亿 Token 的实证研究

a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况。这项研究为我们提供了关于模型生态、用户行为和未来趋势的深刻洞见。

以下是几个核心发现：

开源模型的崛起
开源模型已占据约三分之一的市场份额，其中来自中国的模型增长尤为迅猛。在开源领域，创意角色扮演和编程辅助是两大主要应用场景。

智能体推理成为新常态
LLM 的使用正从简单的单轮问答转向集成了工具调用、具备多步规划能力的“智能体推理”。更长的上下文输入和对推理模型的偏爱都证明了这一趋势。

编程与角色扮演：两大支柱
在所有模型中，“编程”是增长最快的专业应用，而“角色扮演”则是一个体量惊人的消费级应用，其使用量几乎与专业任务相当。

“灰姑娘的水晶鞋”效应
研究发现，当一个新模型率先完美解决了某个特定高价值问题时，其早期用户会表现出极高的忠诚度和留存率，形成稳固的“基础用户群”。

价值驱动，而非价格
LLM 市场尚未商品化，需求对价格相对不敏感。用户愿意为高可靠性的闭源模型支付溢价以完成关键任务，而开源模型则在成本敏感的高容量场景中占据优势。

AI 使用的全球化
AI 的使用日益全球化，北美地区支出已低于总额的一半，亚洲市场份额则翻倍增长至近三分之一，显示出强劲的消费和创新能力。

报告揭示了一个多元、动态且竞争激烈的 LLM 生态系统。实际的用户行为往往超出传统认知，从智能体的兴起到角色扮演的流行，都预示着 AI 应用的未来充满了更多可能性。

原文链接

 #AI趋势 #大语言模型 #数据分析 #开源模型 #智能体
OpenRouter

State of AI 2025: 100T Token LLM Usage Study | OpenRouter

Read OpenRouter's 2025 State of AI report — an empirical 100 trillion token study of real LLM usage, model trends, and developer insights.

19:51 · 2025年12月5日 · 周五
AI趋势大语言模型数据分析开源模型智能体
面条的草稿箱
PostHog AI: 开发 AI 智能体一年后总结的 8 个教训PostHog 团队在开发其内置 AI 智能体 PostHog AI 的一年中，积累了丰富的实践经验
08:33 · 2025年12月4日 · 周四
PostHog AI: 开发 AI 智能体一年后总结的 8 个教训

PostHog 团队在开发其内置 AI 智能体 PostHog AI 的一年中，积累了丰富的实践经验。从一个简单的聊天原型到一个能处理复杂分析任务的智能助手，他们总结了以下 8 个核心教训：

1. 模型升级是推土机
AI 模型的持续进步是开发中最强大的变量。曾经复杂的问题，如多步推理和工具调用，随着模型能力的提升而变得简单。密切关注模型发展至关重要.

2. 循环智能体优于固定工作流
相较于图表式的固定工作流，单一的循环智能体（Agent）更为灵活和强大。它能在执行任务中自我纠正，避免了工作流中常见的上下文丢失问题.

3. 单一循环胜过子智能体架构
复杂的子智能体架构听起来很智能，但在实践中容易因层层抽象而丢失关键信息，导致性能下降。一个简单、扁平的 LLM 循环反而能涌现出惊人的能力.

4. “待办事项”是超能力
让 LLM 在每一步操作后都使用一个简单的 `todo_write` 工具来规划下一步，这种看似简单的机制能有效帮助模型在复杂任务中保持专注和连贯性.

5. 上下文是关键
用户输入往往是模糊的，AI 需要广泛的背景知识才能准确理解. PostHog AI 通过 `/init` 命令自动学习项目信息，为智能体提供核心上下文，从而显著提升任务成功率.

6. 展示每一步，建立信任
透明度是建立用户信任的基石. 与其隐藏过程，不如将智能体的思考、工具调用甚至失败的尝试全部展示给用户. 这比一个完美的“黑箱”更能赢得信赖.

7. 警惕 AI 框架的陷阱
在 AI 技术飞速发展的今天，LangChain 等高级框架可能会过早地锁定技术选型. 在生态系统稳定之前，坚持使用更底层的库可能是更明智的选择.

8. 评估(Evals)并非全部
自动化评估很有价值，但无法替代对真实用户行为的分析. 通过观察实际使用中的 LLM 轨迹 (Traces)，团队能发现评估中无法覆盖的、更深刻的问题.

总而言之，构建高效的 AI 智能体需要拥抱变化、简化架构、重视上下文和透明度，并始终立足于真实的用户场景.

原文链接: PostHog Blog

#AI #Agent #LLM #工程实践 #PostHog
Posthog

8 learnings from 1 year of agents – PostHog AI - PostHog

Today we launch PostHog AI, the AI agent built into PostHog . A year in the making, we've gone a long way from our first chat prototype made over a…

08:33 · 2025年12月4日 · 周四
AI Agent LLM 工程实践 PostHog
面条的草稿箱
Bun 加入 Anthropic，开启 AI 编码新篇章JavaScript 一体化工具链 Bun 宣布已被人工智能公司 Anthropic 收购
07:49 · 2025年12月3日 · 周三
Bun 加入 Anthropic，开启 AI 编码新篇章

JavaScript 一体化工具链 Bun 宣布已被人工智能公司 Anthropic 收购。Anthropic 将把 Bun作为其 AI 编码产品（如 Claude Code 和 Claude Agent SDK）的核心基础设施。

此次收购对 Bun 社区和未来发展意味着：

核心承诺不变
• 开源依旧：Bun 将继续保持 MIT 许可，并在 GitHub 上公开开发。
• 团队不变：核心团队将继续全职投入 Bun 的开发。
• 路线图不变：继续专注于高性能 JavaScript 工具、与 Node.js 的兼容性，并致力于成为 JavaScript 的默认服务器端运行时。

未来的新机遇
• 长期稳定：加入 Anthropic 使 Bun 获得了强大的资源支持，无需为商业化分心，可以更专注于产品本身。
• 更快迭代：团队将有更多精力加速 Bun 的开发和发布。
• 拥抱 AI：与 Anthropic 的合作让 Bun 能够站在 AI 编码工具发展的最前沿，更好地塑造未来。

简单来说，Bun 用户可以期待一个更稳定、更强大、迭代更快的工具链，它将在 AI 驱动的软件开发时代扮演关键角色。

阅读原文

 #Bun #Anthropic #JavaScript #AI #开源
Bun

Bun is joining Anthropic

Bun has been acquired by Anthropic. Anthropic is betting on Bun as the infrastructure powering Claude Code, Claude Agent SDK, and future AI coding products & tools.

07:49 · 2025年12月3日 · 周三
Bun Anthropic JavaScript AI 开源
面条的草稿箱
Anthropic 收购 Bun，加速 Claude Code 发展人工智能安全与研究公司 Anthropic 宣布收购了高性能 JavaScript 运行时 Bun，旨在进一步加速其 AI 编程工具 Claude Code 的发展.此次收购正值 Claude Code 达成重要里程碑：在公开发布仅六个月后，其年化收入已达到 10 亿美元.Bun 是一个集成了运行时、包管理器、打包器和测试运行器于一体的工具包，凭借其出色的速度和性能，显著提升了 JavaScript 和 TypeScript 的开发效率和体验.Anthropic 表示，此次收购将为 Claude Code 用户带来更快的性能和更高的稳定性. 同时，Anthropic 承诺 Bun 将继续保持开源和 MIT 许可，并持续投入资源进行开发.这一战略性举措旨在增强 Anthropic 的技术实力，巩固其在企业级 AI 领域的领先地位，并为下一代软件基础设施的构建提供支持.原文链接:
07:44 · 2025年12月3日 · 周三
Anthropic 收购 Bun，加速 Claude Code 发展

人工智能安全与研究公司 Anthropic 宣布收购了高性能 JavaScript 运行时 Bun，旨在进一步加速其 AI 编程工具 Claude Code 的发展.

此次收购正值 Claude Code 达成重要里程碑：在公开发布仅六个月后，其年化收入已达到 10 亿美元.

Bun 是一个集成了运行时、包管理器、打包器和测试运行器于一体的工具包，凭借其出色的速度和性能，显著提升了 JavaScript 和 TypeScript 的开发效率和体验.

Anthropic 表示，此次收购将为 Claude Code 用户带来更快的性能和更高的稳定性. 同时，Anthropic 承诺 Bun 将继续保持开源和 MIT 许可，并持续投入资源进行开发.

这一战略性举措旨在增强 Anthropic 的技术实力，巩固其在企业级 AI 领域的领先地位，并为下一代软件基础设施的构建提供支持.

原文链接: https://www.anthropic.com/news/anthropic-acquires-bun-as-claude-code-reaches-usd1b-milestone

#Anthropic #Bun #ClaudeCode #AI #JavaScript
Anthropic

Anthropic acquires Bun as Claude Code reaches $1B milestone

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

07:44 · 2025年12月3日 · 周三
Anthropic Bun ClaudeCode AI JavaScript
面条的草稿箱
如何让 AI Agent 高效处理长期复杂任务？当 AI 智能体（Agent）处理需要数小时甚至数天的复杂任务时，它们常常会因为上下文窗口的限制而“失忆”，导致工作中断、效率低下
21:41 · 2025年11月27日 · 周四
如何让 AI Agent 高效处理长期复杂任务？

当 AI 智能体（Agent）处理需要数小时甚至数天的复杂任务时，它们常常会因为上下文窗口的限制而“失忆”，导致工作中断、效率低下。Anthropic 从人类软件工程师的协作模式中汲取灵感，设计了一套有效的解决方案。

核心方法分为两步：

1️⃣ 初始化智能体（Initializer Agent）
在任务开始时，该智能体首先搭建好整个工作环境。它会：
- 分解任务：将用户的高级指令分解成一个详尽的功能列表（features list）并存入 JSON 文件。
- 建立基础：创建 init.sh 启动脚本、claude-progress.txt 进度日志文件，并完成首次 Git 提交。
这确保了后续工作有清晰的目标和坚实的基础，避免了 Agent 试图一次性完成所有工作或过早宣布任务完成。

2️⃣ 编码智能体（Coding Agent）
在后续的每一个会话中，编码智能体都遵循“小步快跑”的原则：
- 聚焦单点：每次只专注于实现功能列表中的一项。
- 记录进展：完成一项功能后，通过 Git 提交代码并附上清晰的说明，同时更新进度日志文件。
- 严格测试：利用 Puppeteer 等浏览器自动化工具进行端到端测试，确保代码质量。

这种“初始化 + 增量编码”的模式，让每个 Agent 在开始新会话时，都能通过阅读日志和功能列表快速了解项目状态，确保工作连贯、高效。它有效地解决了 AI Agent 在长期任务中的一致性问题，使其能像一个纪律严明的工程团队一样协作。

阅读原文

 #AI #Agent #LLM #Anthropic #软件工程
Anthropic

Effective harnesses for long-running agents

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

21:41 · 2025年11月27日 · 周四
AI Agent LLM Anthropic 软件工程

Search: #AI智能体