Skip to main content

Search: #AI效率

无原创,纯转发
  1. 慢即是快:如何利用 AI 写出更高质量的代码

    很多人认为,AI 编程的意义在于“快”——以最快的速度堆砌出勉强能运行的代码,然后匆忙合并发布。但这种“快”往往伴随着低质量和技术债。

    实际上,大语言模型(LLM)非常灵活,我们完全可以反其道而行之:利用 AI,用更慢的速度写出质量更高的代码。

    以下是这种“慢速 AI 编程”的核心思路:

    让 AI 成为挑剔的 Review 助手:LLM 极其擅长寻找 Bug。你可以通过设置特定的“技能(Skills)”,让多个不同的模型(如 Claude 和 GPT)同时对你的 PR 进行审查并给 Bug 分级,通过交叉验证有效降低误报率。
    主导修复与取舍:根据 AI 反馈的 Bug 列表,优先引导 AI 修复高危和中度漏洞。如果发现架构设计有根本性问题,甚至可以果断放弃现有的 PR 重新构思。
    把“修 Bug”当成探索之旅:这种工作流虽然不会提升你的“开发速度”,但常常会帮你揪出代码库中早已存在的历史遗留 Bug。在解决这些问题的过程中,你会编写更多单测,深入理解系统的边缘情况。

    这并不是那种吹嘘“10倍效率”的浮躁开发方式,而是一种更健康的编程状态:借力 AI,更严谨、更方法论地对待每一行代码,让代码库保持健康。

    下次使用 AI 时,不妨慢下来,试着问问它:“我的这段代码可能会在哪里崩溃?”

    https://nolanlawson.com/2026/05/25/using-ai-to-write-better-code-more-slowly/

    #AI编程 #代码质量 #软件工程 #程序员
  2. Yansu:无需指令,为你主动构建工具的“预知” AI

    你是否厌倦了反复在不同应用间手动同步数据?或者因为繁琐的流程而被迫成为“效率工具专家”?

    Yansu 是一款全新的主动式 AI 应用。它不像 ChatGPT 那样等待你的指令,而是通过观察你的工作习惯,为你自动构建专属工具。

    核心亮点:

    观察即学习:它静默观察你的桌面操作、沟通记录和决策模式,将零散的行为提炼为结构化的知识。
    主动式交付:不需要你写 Prompt。当它发现重复的流程或潜在的需求时,会先于你想到之前就把应用建好。
    虚拟交互:它拥有独立的虚拟指针,可以在不干扰你操作的情况下,自动填写表单、同步状态或整理信息。
    隐私本地化:所有工作记忆和生成的应用都存储在本地,只有在得到你明确许可时才会与外部交互。
    无感化办公:它不会抢夺窗口焦点,也不会打断你的思路,像是一个默默工作的资深助理。

    告别繁琐的手动工作,让 AI 在你还没意识到需求时就完成交付。

    https://yansu.app/

    #AI效率 #自动化 #生产力工具 #人工智能 #Yansu Yansu — The proactive AI that turns how you work into knowledge, handoffs, and automations
  3. Entire:把 AI 编程对话“写进”每一次 Git 提交

    用 AI 写代码时,最容易丢的不是代码,而是“为什么这么写”的上下文。Entire 提供一个思路:在你正常的 git 工作流里,把每次 AI agent 会话自动记录下来,并与对应的 commit 绑定,形成可搜索的历史记录。

    它能做什么?

    自动捕获会话:在每次 push 时记录 AI agent 的会话内容,并和提交一起关联。
    不改变你的工作方式:通过 CLI 接入现有工具链,尽量减少上下文切换。
    支持多种 agent:目前支持 Claude CodeGoogle Gemini;OpenAI Codex 等集成在路上。
    把“意图”留在仓库里:官方强调记录会直接存进 git 历史,不依赖额外托管服务或外部数据库。

    安装方式(官网给出的命令)

    curl -fsSL https://entire.io/install.sh | bash

    适合希望团队更容易复盘决策、追踪 AI 产出过程、减少重复踩坑的工程项目。

    原链接:http://entire.io/

    #Git #AI编程 #开发工具 #工程效率 #CLI Entire · A new developer platform is coming
  4. Stripe「Minions」:一键生成、端到端交付的无人值守编码代理

    Stripe 在内部打造了一套名为 Minions 的编码代理:从接到任务到产出可评审的 PR,全程几乎无需人类介入。现在,Stripe 每周有超过 1000 个合并的 PR 是由 Minions 从头到尾生成的(人类负责 Review,但不写代码)。

    为什么要自研?

    在 Stripe 这种超大规模、强约束的工程环境里,“从零写个原型”和“在成熟巨型代码库里安全改动”完全不是一回事:

    • 代码库规模巨大(数亿行),栈也相对小众:大量后端是 Ruby + Sorbet,还有大量 Stripe 自研库,LLM 天然不熟
    • 业务风险极高:Stripe 的代码承载着 每年超过 1 万亿美元 的支付规模,并受金融合规与监管约束
    • 既要让代理“会写”,也要让它“按规矩写、能跑通、能过 CI”,并与既有研发流程深度结合

    工程师怎么用?

    最常见的入口是 Slack

    • 在讨论线程里 @Slack App 就能发起 Minion,它会读取整个线程与相关链接作为上下文
    • 也集成到内部系统里:文档平台、Feature Flag、工单系统等
    例如 CI 发现 flaky tests,会生成工单,直接提供按钮让 Minion 去修

    完成后,Minion 会:

    • 创建分支 → 推送 → 跑 CI → 按模板生成 PR

    如果效果不理想,人类可以补充指令让它再改;即使不完美,也常常是很好的“可用起点”。

    Minions 背后怎么运作(要点版)

    Stripe 的思路是:把“创意生成”交给 LLM,把“必须可靠执行的步骤”交给确定性工具链

    • 运行环境:在隔离的 devbox 中执行(10 秒内可启动,预热并预载代码与服务),与生产与公网隔离,便于并行
    • Agent 框架:基于 Block 的开源编码代理 goose 的 fork,并做了强定制
    • 规则与上下文:读取各类 agent rule 文件,但多为“按目录条件生效”,避免全局死规则拖累
    • 工具调用:接入 MCP(函数调用通用协议),并建设内部 MCP 服务 Toolshed,提供 400+ 工具(文档、工单、构建状态、Sourcegraph 搜索等)
    • 反馈与质量闸门:
    • 首先跑本地启发式 lint/检查(通常 <5 秒)
    • 再跑选择性的 CI(Stripe 有 300 万+ 测试),部分失败可自动修复
    • 为控制成本与等待时间:最多两轮 CI,强调“能本地提前发现就不要拖到 CI”

    接下来

    这篇是系列 Part 1,主要讲“怎么用、能做什么”;Part 2 会深入实现细节。整体信号很明确:当“开发者注意力”成为稀缺资源时,无人值守、可并行的编码代理正在改变工程协作方式。

    原文链接:https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents

    #AI工程化 #编码代理 #开发者效率 #CI实践 #Stripe Minions: Stripe’s one-shot, end-to-end coding agents
  5. Clawdbot:运行在你自己电脑上的个人 AI 助手

    Clawdbot 主打“AI 真的能做事”:它不是一个被托管在平台里的聊天机器人,而是运行在你的 Mac/Windows/Linux 上,能连接常用通讯工具与各类服务,把对话变成可执行的任务流。

    它能做什么

    本地运行、隐私优先:在你的设备上工作,数据默认留在你手里;可接入 Anthropic / OpenAI,也支持本地模型。
    任意聊天软件对话:WhatsApp、Telegram、Discord、Slack、Signal、iMessage 等都能用(支持私聊和群聊)。
    持久记忆:能记住你的偏好与上下文,越用越“懂你”。
    浏览器自动化:可浏览网页、填表、抓取信息。
    系统级能力:读写文件、运行命令、执行脚本(可全权限或沙箱化)。
    技能/插件机制:用社区技能扩展,也可以让它帮你写自己的技能。
    集成丰富:官方列出 50+ 集成(如 Gmail、GitHub、Obsidian、Spotify、Hue 等)。

    快速上手(官方提供的一键方式)

    • 一键安装:curl -fsSL https://clawd.bot/install.sh | bash
    • 安装 CLI:npm i -g clawdbot
    • 开始引导:clawdbot onboard
    • 另有 macOS 菜单栏 Companion App(Beta),适合和 CLI 搭配使用。

    https://clawd.bot/

    #AI助手 #开源工具 #自动化 #个人效率 #智能体 OpenClaw — Personal AI Assistant
  6. Agent-native 应用:把“功能”变成“结果”

    这篇文章提出一种新范式:与其把产品能力写成一堆固定功能,不如构建一个能反复调用工具、直到达成目标的“软件代理(agent)”。核心在于:让代理拥有与用户同等的操作能力(UI 能做的,代理也能通过工具做到),并把工具设计成足够原子化的“积木”。这样,新功能往往不再是写代码,而是写一段描述结果的提示词;同时,用户提出的意外需求会推动系统“涌现”出新用法,并反过来指导你补齐工具与能力缺口。

    五个核心原则

    对等(Parity):任何 UI 动作,代理都应能通过工具实现同样的结果;否则代理会卡死。
    粒度(Granularity):工具是原子能力;“功能”是代理在循环中用工具达成的结果。改行为优先改提示词,而不是重构代码。
    可组合(Composability):有了原子工具 + 对等能力,就能通过新提示词快速拼出新“功能”(开发者/用户都能做)。
    涌现能力(Emergent capability):用户会提你没设计过的需求;代理若能组合工具完成,就是新机会;若失败,则暴露工具缺口。
    持续变好(Improvement over time):通过沉淀上下文(context 文件)与迭代提示词,应用可在不发版的情况下持续变强。

    落地方法(把原则变成工程实践)

    先做“能力地图”:列出用户能做的事,逐项确认代理具备创建/读取/更新/删除(CRUD)能力,避免“能新建不能修改/删除”的断腿体验。
    先原语、后领域工具:先用文件、bash、读写等基础工具跑通;再为高频模式加领域工具,用于效率、校验、术语锚定,但不要把“判断”写进工具里。
    文件作为通用接口:文件天然可读、可审计、可迁移,代理也最擅长操作;内容放文件、结构化高频数据放数据库(或混合:文件作可读真相,DB 做索引与性能)。
    明确完成信号:不要靠“看起来差不多了”判断结束;让工具/编排层返回明确的 complete 信号,避免无限循环或半成品。
    透明的代理行为:工具调用、进度、状态变化要让 UI 可见;“沉默的代理”会让用户觉得坏了。
    把“授权”做成产品能力:根据风险与可逆性决定自动执行还是强确认;尤其是发送邮件、发布内容等高风险动作。

    对移动端的启示

    • 移动应用容易被后台杀死,代理任务却可能很长:需要checkpoint/恢复机制,尽可能在每次工具结果后存档。
    • iCloud 之类的文件同步能让多设备共享“同一工作区”,但要处理冲突与未下载文件等边界。

    原链接:https://every.to/guides/agent-native

    #AgentNative #软件代理 #AI产品 #工具调用 #产品架构 Agent-native Architectures
  7. dotagents:用一个 .agents 目录统一管理各类 AI 工具配置

    dotagents 是一个 CLI/TUI 工具,把项目或全局的 .agents 目录作为“唯一真相源”,自动为不同 AI 工具创建软链接,并支持安装技能(skills)和插件(plugins),方便在多环境之间保持一致配置、可重复执行、易维护。

    你能用它做什么

    • 以 .agents 为中心统一管理:hooks、commands、skills,以及 AGENTS/CLAUDE.md 等说明文件
    • 一键创建软链接,适配多工具(Claude / Codex / Factory)
    • 从本地路径、Git URL、HTTPS URL 安装 skills;并支持从 marketplace 安装 plugins
    • 可随时重复运行,用于补装、修复链接或更新能力集

    快速开始(要求:Bun 1.3+)

    npx @iannuttall/dotagents
    • 或 bunx @iannuttall/dotagents

    链接关系示例

    .agents/AGENTS.md~/.claude/CLAUDE.md
    .agents/commands~/.claude/commands / ~/.factory/commands / ~/.codex/prompts
    .agents/hooks.agents/skills 同步到对应工具目录

    https://github.com/iannuttall/dotagents

    #AI工具 #开发效率 #CLI #Claude #Codex GitHub - iannuttall/dotagents: One location for all of your hooks, commands, skills, and AGENT/CLAUDE.md files.
  8. 用好编码代理:Claude Code 2.0 的关键功能与“上下文工程”心法

    这篇长文把 Claude Code 2.0 当成一个“能动手的工作台”来拆解:不仅讲新功能,更强调如何用更好的流程与上下文管理,让代理稳定产出。

    1) 先换个视角:你不是“追上更新”,而是“借力变强”

    作者给了一个更实用的框架:

    跟进工具:定期用、定期看更新(不必天天追)。
    深耕领域:懂业务/系统设计/工程习惯,才能把“未知”变成“可提问、可验证”。
    多玩多试:用不同模型做同一件事,快速建立直觉与边界。

    2) Claude Code 2.0 值得关注的体验升级

    一些偏“日常效率”的改动,叠加起来很实用:

    语法高亮 + 更舒服的评审体验(作者因此更愿意在 CLI 里完成 review)
    /context 看上下文占用(建议复杂任务到 60% 左右就交接或压缩)
    Checkpointing(Esc+Esc / /rewind:能回到某个检查点,回滚代码与对话
    Prompt suggestions / 历史搜索(Ctrl + R:减少重复输入
    更快的模糊文件搜索、队列导航、LSP 插件

    3) Sub-agents(子代理)怎么用才不浪费

    作者重点讲了“子代理不是魔法,是上下文与工具调用策略”:

    Explore:偏“只读搜索专家”,适合快速扫代码库、定位文件与线索。
    general-purpose / plan:更像“全能协作者”,通常会继承更多上下文。
    • 关键提醒:不要只依赖 Explore 的摘要。摘要是“有损压缩”,重要文件最好让主代理再读一遍,让信息彼此“交叉注意力”,推理更稳。

    4) 核心概念:Context Engineering(上下文工程)

    代理之所以“烧 tokens”,不是它话多,而是:

    工具调用本身 + 工具返回结果都会进入上下文;
    • 上下文越长,检索与注意力越容易退化(作者称为 context rot / degradation)。

    因此,上下文工程的目标是:

    • 把最相关的信息放进来
    • 控制“噪音”和重复指令
    • 用清晰结构(计划、scratchpad、handoff)对抗跑偏

    5) Hooks / Skills / MCP:把“提示词”产品化

    作者把这三者放在一起看:

    Hooks:在对话生命周期某个节点自动触发脚本(比如 Stop 后自动提醒/继续下一步)。
    Skills:把领域指令与脚本做成“按需加载”的技能包,避免常驻系统提示导致上下文膨胀。
    MCP:连接外部工具/服务,但要注意“工具定义与中间结果”同样会吃上下文与成本;文中也提到用代码执行环境来降低这种膨胀的思路。

    6) 一个很实战的工作流建议

    作者的默认搭配大意是:

    Claude(Opus 4.5)偏执行与沟通:更像结对编程伙伴、反馈快。
    Codex 偏 review/找 bug:更克制、误报少,适合做“第二视角审查”。
    • 面对难功能:先跑一个“可丢弃的草稿版本”,用它暴露模型的偏差,再用更精准的提示第二轮迭代。

    原文链接:https://sankalp.bearblog.dev/my-experience-with-claude-code-20-and-how-to-get-better-at-using-coding-agents/

    #ClaudeCode #编码代理 #上下文工程 #AI工具 #软件工程
  9. 2025 年 AI 编程现状:效率在涨,工具与模型在分化

    Greptile 发布的《The State of AI Coding 2025》梳理了 AI 编程在 2025 年的关键趋势:工程产出显著提升,开发工具生态快速扩张,而不同大模型在“响应速度、吞吐、成本”上的取舍越来越清晰。

    1) 工程效率:PR 更大,个人产出更高

    PR 规模变大:2025 年 3 月到 11 月,PR 的中位改动行数从 57 增至 76,约 +33%
    开发者产出上升:人均代码产出从 4,450 增至 7,839 行,约 +76%,AI 工具被视为“产能放大器”。
    中型团队提升更明显:6–15 人团队的人均产出从 7,005 增至 13,227 行,约 +89%
    单文件改动更密:每个文件的改动行数中位数从 18 增至 22,约 +20%,说明 PR 不只变大,也更“集中”。

    2) 工具采用:从“能用”到“形成标准层”

    记忆/Memory 基建mem059% 份额领跑(按 PyPI + npm 月下载量口径)。
    向量数据库:没有绝对赢家;Weaviate 约 25%,其余多家在 10–25% 之间拉锯。
    AI 规则文件CLAUDE.md 使用率 67%;不少团队多格式并存,且 17% 的仓库三种格式都用
    AI SDK 增长:Anthropic SDK 以 43M 下载领先(约 8 倍增长);Pydantic AI 增长 3.7×6M
    LLMOps:LiteLLM 月下载量增长 41M(LangSmith 与 LangChain 安装存在绑定关系)。

    3) 模型格局:生态差距在收敛

    SDK 下载量:OpenAI 约 130M 领先;Anthropic 自 2023 年 4 月起增长 1,547×;Google 约 13.6M
    差距缩小:OpenAI 与 Anthropic 的下载量比从 2024 年 1 月的 47:1,降至 2025 年 11 月的 4.2:1

    4) 作为“编程 Agent 后端”,模型各有侧重

    报告用统一参数对多模型做了延迟、吞吐、成本等基准:

    首 token 响应(TTFT):Claude Sonnet/Opus(p50 < 2.5s)明显更快,更利于交互式编程保持“心流”。
    生成吞吐:GPT-5 Codex / GPT-5.1 吞吐更高,长输出更快结束,利于并行跑更多 Agent/CI。
    成本倍率(以 GPT-5 Codex = 1× 归一):GPT-5 Codex ≈ GPT-5.1(1×);Gemini 3 Pro(1.4×);Sonnet 4.5(2×);Opus 4.5(3.3×)。

    结论很直接:选型不再是“谁最强”,而是你更在意 响应速度、吞吐效率,还是预算

    5) 研究方向:规模、上下文与 Agent 的“系统工程”

    报告还汇总了 2025 年影响工具与应用的一批研究线索,包括:

    MoE 的效率设计(如 DeepSeek-V3:关注 KV cache、路由与训练信号密度)。
    长上下文 vs RAG 的边界(不同数据结构下各有优势;以及 KV 级检索等新思路)。
    Agent 训练与检索策略(用 RL 学会“何时搜索”、如何管理长程记忆、如何降低噪声上下文干扰等)。

    原文链接:https://www.greptile.com/state-of-ai-coding-2025

    #AI编程 #开发效率 #LLM工具链 #模型评测 #软件工程趋势 AI Code Review | Greptile | Merge 4X Faster, Catch 3X More Bugs
  10. Perplexity 职场 AI 指南:用 AI 重塑工作效率

    这是一份 44 页的官方指南,教你如何用 Perplexity 全家桶提升工作效率。核心理念是将 AI 融入工作的三个层次:

    🎯 屏蔽干扰
    现代职场平均每 11 分钟被打断一次。Perplexity 提供:
    Comet 浏览器:AI 助手 + 代理模式,帮你阅读、总结、执行任务
    邮件助手:自动分类邮件、智能回复、安排会议
    快捷指令和定时任务:把重复工作变成一键操作

    🚀 放大能力
    深度研究:一次分析数百个信息源,生成带引用的报告
    Labs 创作工坊:无需技术背景,直接生成演示文稿、仪表盘、营销素材
    Spaces 空间:保存你的研究上下文和品牌风格,确保输出一致性

    📈 产出成果
    • 绩效评估:自动分析工作数据,生成专业报告
    • 销售开发:批量研究潜在客户,生成个性化外联内容
    • 提案制作:快速产出定制化方案和 ROI 模型

    💡 提示词技巧
    别把 AI 当搜索引擎用。要说清楚目标、上下文和期望格式。比如:
    "找出过去 3 天所有需要回复的未读邮件,起草简短回复"

    比"帮我处理邮件"有效得多。

    🔗 原文链接

    #Perplexity #AI效率 #职场工具 #生产力 #AI助手
  11. 小米发布 MiMo-V2-Flash:高效推理模型开源

    小米于 2025 年 12 月 16 日发布并开源了 MiMo-V2-Flash,这是一款高效、超快的基础语言模型,在推理、编码和智能体场景表现尤为出色,同时也可作为日常任务的通用助手。

    核心亮点

    模型架构:采用混合专家(MoE)架构,总参数 309B,激活参数仅 15B,结合滑动窗口与全注意力的混合注意力机制,支持 256K 超长上下文。

    性能表现
    • AIME 2025、GPQA-Diamond 等推理测试中位列开源模型前二
    • SWE-bench Verified 达 73.4%,SWE-bench Multilingual 达 71.7%,软件工程能力领先所有开源模型
    • 推理速度达 150 tokens/秒,成本仅 $0.1/百万输入 token

    技术创新
    • 多 Token 预测(MTP):通过自推测解码实现 2.0-2.6 倍加速
    • MOPD 训练范式:多教师在线策略蒸馏,训练效率提升 50 倍以上

    开源资源:模型权重以 MIT 协议开放于 Hugging Face,推理代码已贡献至 SGLang,技术报告同步发布。

    原文链接

    #小米 #MiMo #开源模型 #大语言模型 #AI推理
  12. Coding Agents 与复杂度预算

    Lee Robinson(Cursor 工程师)分享了一次惊人的迁移经历:仅用 3 天时间$260 token 费用 和数百个 AI Agent,就把 cursor.com 从 CMS 迁回纯代码和 Markdown。

    为什么要抛弃 CMS?

    CMS 带来的隐性复杂度超乎想象:
    • 多系统用户管理
    • 预览变更的繁琐流程
    • 国际化翻译的插件地狱
    • CDN 费用暴涨(上线后花了 $56,848)
    • 代码库的依赖和抽象膨胀

    AI 时代的关键洞察

    抽象的代价从未如此之高。当内容变成代码后:
    • Agent 可以直接 grep 和编辑
    • PR 链接无需登录即可分享预览
    • 所有变更通过 git 追踪,Agent 能自主挖掘历史

    迁移成果

    • 344 次 Agent 请求
    • 67 次 commit(+43K / -322K 行代码)
    • 构建速度提升 2 倍
    • 节省数千美元 CDN 费用
    • 第二天就能在手机上通过 cloud agent 合并修复

    核心观点

    "过度抽象一直是代码异味,现在有了简单的解决方案:花 token 删除复杂度。" 编程 Agent 正在帮助团队尝试疯狂想法、清理深埋的技术债。

    🔗 原文链接

    #CodingAgent #AI编程 #技术债务 #Cursor #开发效率
  13. 如何让 Claude Code Skills 可靠激活

    Claude Code 的 Skills 功能理论上会根据描述自动激活,但实际测试发现激活率仅约 20%,跟抛硬币差不多。作者通过 200+ 次测试,找到了两种有效方案。

    测试结果对比:

    Simple 简单指令:整体成功率仅 20%
    Forced Eval 强制评估:成功率 84%,最稳定
    LLM Eval 预评估:成功率 80%,更快更省钱

    核心发现

    强制评估之所以有效,在于它创建了「承诺机制」:

    1. Claude 必须逐一评估每个 Skill 并给出 YES/NO
    2. 明确表态后才能继续实现
    3. 使用 "MANDATORY"、"CRITICAL" 等强硬措辞增加执行力

    如何选择

    Forced Eval:追求稳定性,不介意输出冗长
    LLM Eval:追求速度和成本,适合单一技能场景

    使用方法:在 .claude/hooks/ 创建对应脚本,并在 settings.json 中配置 hook。如果用 claude-skills-cli,可直接运行:

    pnpm exec claude-skills-cli add-hook
    


    🔗 原文链接

    #ClaudeCode #Skills #开发技巧 #Anthropic #AI工具
  14. Claude Code Skills 不会自动激活?这有个解决方案

    Claude Code 的 Skills 功能号称是"自主激活"的——只要你的请求匹配技能描述,Claude 就会自动使用。但现实很骨感:它根本不会

    作者创建了一个 research 技能,用于验证信息来源。每当说"research this",Claude 应该自动调用该技能。结果呢?Claude 每次都无视技能,直接蛮干。

    问题根源

    Claude 太过专注于完成任务,会直接跳过检查可用工具的步骤。即使 Hook 提醒"检查一下 skills",Claude 也当成背景噪音忽略。

    解决方案:用 Hook 强制激活

    核心思路:不要依赖"自主激活",而是通过 UserPromptSubmit Hook 检测触发词,显式命令 Claude 使用技能。

    # 温柔提醒(无效)
    echo '💡 Check skills for relevant skills'
    
    # 强制指令(有效)
    echo "🔍 INSTRUCTION: Use Skill(research) to handle this"
    


    区别在于:一个是"请考虑一下",另一个是"闭嘴听令"!

    更简洁的通用方案

    后来作者发现了更简单的方式——一条通用 Hook 指令适用于所有技能:

    "command": "echo 'INSTRUCTION: If prompt matches any skill keywords, use Skill(skill-name) to activate it.'"
    


    无需维护关键词脚本,无需处理冲突。

    实测结果

    20 次测试,成功率约 50%——基本靠运气。但比维护复杂脚本省心多了。

    结论:官方说 Skills 会自动激活,实际不会。用简单 Hook 碰碰运气,重要任务还是显式调用 Skill(skill-name) 最靠谱。

    🔗 原文链接

    #ClaudeCode #AI工具 #开发技巧 #Hooks #编程 Claude Code Skills Don't Auto-Activate (a workaround) - Scott Spence
  15. AI 现状:来自 100 万亿 Token 的实证研究

    a16z 与 OpenRouter 合作,通过分析超过 100 万亿 Token 的真实世界交互数据,揭示了大型语言模型(LLM)的实际使用情况。这项研究为我们提供了关于模型生态、用户行为和未来趋势的深刻洞见。

    以下是几个核心发现:

    开源模型的崛起
    开源模型已占据约三分之一的市场份额,其中来自中国的模型增长尤为迅猛。在开源领域,创意角色扮演编程辅助是两大主要应用场景。

    智能体推理成为新常态
    LLM 的使用正从简单的单轮问答转向集成了工具调用、具备多步规划能力的“智能体推理”。更长的上下文输入和对推理模型的偏爱都证明了这一趋势。

    编程与角色扮演:两大支柱
    在所有模型中,“编程”是增长最快的专业应用,而“角色扮演”则是一个体量惊人的消费级应用,其使用量几乎与专业任务相当。

    “灰姑娘的水晶鞋”效应
    研究发现,当一个新模型率先完美解决了某个特定高价值问题时,其早期用户会表现出极高的忠诚度和留存率,形成稳固的“基础用户群”。

    价值驱动,而非价格
    LLM 市场尚未商品化,需求对价格相对不敏感。用户愿意为高可靠性的闭源模型支付溢价以完成关键任务,而开源模型则在成本敏感的高容量场景中占据优势。

    AI 使用的全球化
    AI 的使用日益全球化,北美地区支出已低于总额的一半,亚洲市场份额则翻倍增长至近三分之一,显示出强劲的消费和创新能力。

    报告揭示了一个多元、动态且竞争激烈的 LLM 生态系统。实际的用户行为往往超出传统认知,从智能体的兴起到角色扮演的流行,都预示着 AI 应用的未来充满了更多可能性。

    原文链接

    #AI趋势 #大语言模型 #数据分析 #开源模型 #智能体 State of AI 2025: 100T Token LLM Usage Study | OpenRouter
  16. PostHog AI: 开发 AI 智能体一年后总结的 8 个教训

    PostHog 团队在开发其内置 AI 智能体 PostHog AI 的一年中,积累了丰富的实践经验。从一个简单的聊天原型到一个能处理复杂分析任务的智能助手,他们总结了以下 8 个核心教训:

    1. 模型升级是推土机
    AI 模型的持续进步是开发中最强大的变量。曾经复杂的问题,如多步推理和工具调用,随着模型能力的提升而变得简单。密切关注模型发展至关重要.

    2. 循环智能体优于固定工作流
    相较于图表式的固定工作流,单一的循环智能体(Agent)更为灵活和强大。它能在执行任务中自我纠正,避免了工作流中常见的上下文丢失问题.

    3. 单一循环胜过子智能体架构
    复杂的子智能体架构听起来很智能,但在实践中容易因层层抽象而丢失关键信息,导致性能下降。一个简单、扁平的 LLM 循环反而能涌现出惊人的能力.

    4. “待办事项”是超能力
    让 LLM 在每一步操作后都使用一个简单的 `todo_write` 工具来规划下一步,这种看似简单的机制能有效帮助模型在复杂任务中保持专注和连贯性.

    5. 上下文是关键
    用户输入往往是模糊的,AI 需要广泛的背景知识才能准确理解. PostHog AI 通过 `/init` 命令自动学习项目信息,为智能体提供核心上下文,从而显著提升任务成功率.

    6. 展示每一步,建立信任
    透明度是建立用户信任的基石. 与其隐藏过程,不如将智能体的思考、工具调用甚至失败的尝试全部展示给用户. 这比一个完美的“黑箱”更能赢得信赖.

    7. 警惕 AI 框架的陷阱
    在 AI 技术飞速发展的今天,LangChain 等高级框架可能会过早地锁定技术选型. 在生态系统稳定之前,坚持使用更底层的库可能是更明智的选择.

    8. 评估(Evals)并非全部
    自动化评估很有价值,但无法替代对真实用户行为的分析. 通过观察实际使用中的 LLM 轨迹 (Traces),团队能发现评估中无法覆盖的、更深刻的问题.

    总而言之,构建高效的 AI 智能体需要拥抱变化、简化架构、重视上下文和透明度,并始终立足于真实的用户场景.

    原文链接: PostHog Blog

    #AI #Agent #LLM #工程实践 #PostHog 8 learnings from 1 year of agents – PostHog AI - PostHog
  17. Mistral AI 发布新一代开源模型 Mistral 3

    Mistral AI 今日发布了其下一代 AI 模型系列 —— Mistral 3,包含一个前沿的大模型和一系列为边缘计算优化的小模型,全部在 Apache 2.0 许可下开源。

    Mistral Large 3
    一款顶级的稀疏混合专家(MoE)模型,拥有 41B 激活参数和 675B 总参数,性能可与最强的闭源模型相媲美。它在多语言对话和图像理解方面表现出色。

    Ministral 3 系列
    专为边缘和本地应用设计,提供 3B、8B 和 14B 三种尺寸,实现了卓越的性价比和效率。同样具备多模态和多语言能力。

    核心亮点
    完全开源:所有模型均采用 Apache 2.0 许可,开发者可自由使用和定制。
    多模态与多语言:原生支持文本、图像理解以及超过 40 种语言。
    强大生态合作:与 NVIDIA、vLLM 及 Red Hat 紧密合作,提供高效的推理和部署支持。
    广泛可用:已登陆 Hugging Face、Amazon Bedrock、Azure 等多个平台。

    Mistral 3 的发布进一步推动了开放、透明和可访问的 AI 发展,为开发者和企业提供了更强大的工具。

    原文链接:https://mistral.ai/news/mistral-3

    #MistralAI #AI #LLM #开源模型 #Mistral3 Introducing Mistral 3 | Mistral AI
  18. Anthropic 收购 Bun,加速 Claude Code 发展

    人工智能安全与研究公司 Anthropic 宣布收购了高性能 JavaScript 运行时 Bun,旨在进一步加速其 AI 编程工具 Claude Code 的发展.

    此次收购正值 Claude Code 达成重要里程碑:在公开发布仅六个月后,其年化收入已达到 10 亿美元.

    Bun 是一个集成了运行时、包管理器、打包器和测试运行器于一体的工具包,凭借其出色的速度和性能,显著提升了 JavaScript 和 TypeScript 的开发效率和体验.

    Anthropic 表示,此次收购将为 Claude Code 用户带来更快的性能和更高的稳定性. 同时,Anthropic 承诺 Bun 将继续保持开源和 MIT 许可,并持续投入资源进行开发.

    这一战略性举措旨在增强 Anthropic 的技术实力,巩固其在企业级 AI 领域的领先地位,并为下一代软件基础设施的构建提供支持.

    原文链接: https://www.anthropic.com/news/anthropic-acquires-bun-as-claude-code-reaches-usd1b-milestone

    #Anthropic #Bun #ClaudeCode #AI #JavaScript Anthropic acquires Bun as Claude Code reaches $1B milestone
  19. 如何构建一个可靠的 AI Agent?

    随着 AI 的发展,构建能长期稳定运行且行为可靠的 Agent 已成为 AI 工程师的核心竞争力之一。借鉴 Anthropic、GitHub 和 Docker 的最新实践,我们可以遵循以下五个关键步骤来打造强大的 AI Agent。

    1. 从明确的规范开始
    当前多数 Agent 因指令模糊、状态和工作流管理不善而表现不佳。一份好的规范应明确其角色技术栈预期输出示例行为边界(如数据访问权限、API 速率限制等)。不要只依赖“你是一个有用的助手”,而是给 Agent 一份定义清晰的合同。

    2. 将工作分解为可验证的小任务
    与其给出一个模糊的大任务(例如“为我构建一个 X 的克隆”),不如将其分解为具体、可验证的步骤,如“计划 → 编码 → 测试 → 部署 → 监控”。为 Agent 提供清晰的任务列表和严格的工作流程,能有效避免因模糊性导致的失败。

    3. 在模型外部持久化状态
    为了让 Agent 能够处理长时间运行的任务并在会话中断后恢复,需要将其状态(如进度日志、任务清单、文件差异等)存储在外部文件或数据库中。这确保了 Agent 能够随时检索到完成任务所需的相关上下文。

    4. 避免过度填充上下文窗口
    将所有信息塞进系统提示会导致响应缓慢和高昂的 Token 成本。更高效的策略是让 Agent 生成代码来调用外部工具或 API,然后仅将结果返回给模型。这种方法能显著节省 Token,使 Agent 响应更快、成本更低。

    5. 在沙箱中运行高风险操作
    如果 Agent 需要执行代码,必须将其置于沙箱环境中,并严格限制其可用的工具文件系统访问权限。为 Agent 设置明确的“护栏”,可以有效降低应用和服务器面临的风险。

    总而言之,一个成功的 Agent 由三部分组成:行为(清晰的规范)、状态(外部持久化)和护栏(安全限制)。

    原文链接: https://interviewready.io/blog/how-to-build-an-ai-agent-lessons-from-anthrophic-github-and-docker

    #AIAgent #AI开发 #最佳实践 #工程化 How to Build an AI Agent: Lessons from Anthrophic, Github and Docker
  20. 如何让 AI Agent 高效处理长期复杂任务?

    当 AI 智能体(Agent)处理需要数小时甚至数天的复杂任务时,它们常常会因为上下文窗口的限制而“失忆”,导致工作中断、效率低下。Anthropic 从人类软件工程师的协作模式中汲取灵感,设计了一套有效的解决方案。

    核心方法分为两步:

    1️⃣ 初始化智能体(Initializer Agent)
    在任务开始时,该智能体首先搭建好整个工作环境。它会:
    - 分解任务:将用户的高级指令分解成一个详尽的功能列表(features list)并存入 JSON 文件。
    - 建立基础:创建 init.sh 启动脚本、claude-progress.txt 进度日志文件,并完成首次 Git 提交。
    这确保了后续工作有清晰的目标和坚实的基础,避免了 Agent 试图一次性完成所有工作或过早宣布任务完成。

    2️⃣ 编码智能体(Coding Agent)
    在后续的每一个会话中,编码智能体都遵循“小步快跑”的原则:
    - 聚焦单点:每次只专注于实现功能列表中的一项。
    - 记录进展:完成一项功能后,通过 Git 提交代码并附上清晰的说明,同时更新进度日志文件。
    - 严格测试:利用 Puppeteer 等浏览器自动化工具进行端到端测试,确保代码质量。

    这种“初始化 + 增量编码”的模式,让每个 Agent 在开始新会话时,都能通过阅读日志和功能列表快速了解项目状态,确保工作连贯、高效。它有效地解决了 AI Agent 在长期任务中的一致性问题,使其能像一个纪律严明的工程团队一样协作。

    阅读原文

    #AI #Agent #LLM #Anthropic #软件工程 Effective harnesses for long-running agents
1px