Skip to main content

Search: #开源工具

无原创,纯转发
  1. Flue:构建下一代 AI Agent 的 TypeScript 架构框架

    Flue 提出了一个核心公式:Agent = Model + Harness。它不仅仅是一个简单的 SDK,而是一个专为构建自主 Agent 设计的“可编程治理框架”(Harness),旨在让开发者能够轻松打造像 Claude Code 或 Codex 这样具备规划、环境感知和执行能力的强力工具。

    核心特性:

    高度可编程: 使用 TypeScript 编写 Agent 逻辑,支持定义复杂的技能(Skills)、工作流和多 Session 管理。
    自带沙箱环境: 提供内置的虚拟沙箱或连接远程沙箱(如 Daytona),让 Agent 安全地执行 Bash 命令、读写文件或运行代码。
    安全与隐私: 采用精细的权限控制,确保敏感的 API Token 不会被模型或沙箱环境直接接触。
    跨平台部署: 编写一次逻辑,即可部署为 HTTP 服务,或在 CLI、GitHub Actions、Cloudflare Workers 等多种环境运行。

    与其使用通用的成品 AI 工具,Flue 鼓励开发者根据特定的产品需求、数据和工作流,构建完全属于自己的定制化 Agent。

    https://flueframework.com/

    #AI #Agent #TypeScript #开发工具 #开源项目 Flue — The Agent Harness Framework
  2. Obscura:专为 AI Agent 和大规模爬虫打造的 Rust 无头浏览器

    如果你觉得传统的 Headless Chrome 过于臃肿且容易被反爬虫识别,那么 Obscura 绝对值得一试。这是一个基于 Rust 编写的开源无头浏览器引擎,旨在为 AI Agent 和网页抓取提供极速、轻量且隐形的自动化体验。

    核心优势

    轻量化:内存占用仅需约 30MB(相比 Chrome 的 200MB+),二进制文件仅 70MB。
    极致速度:启动几乎是瞬间完成,页面加载速度比 Headless Chrome 快约 6 倍。
    内置隐身模式:默认支持反指纹识别、随机化 GPU/Canvas/Audio 等硬件信息,并自动拦截 3500+ 个追踪器。
    兼容性强:支持 Chrome DevTools Protocol (CDP),可以作为 Puppeteer 和 Playwright 的无缝替代品。
    Rust 驱动:利用 V8 引擎运行真实 JavaScript,确保执行环境的高性能与安全性。

    快速上手

    Obscura 提供单二进制文件,无需安装 Node.js 或 Chrome 即可运行。你可以通过简单的命令行直接抓取动态内容,或者启动一个 CDP 服务器供自动化脚本调用:

    # 获取网页标题
    ./obscura fetch https://example.com --eval "document.title"
    
    # 启动 CDP 服务
    ./obscura serve --port 9222 --stealth
    


    对于追求性能和隐匿性的开发者来说,Obscura 是构建下一代 AI 自动化工具的理想底层引擎。

    https://github.com/h4ckf0r0day/obscura

    #开源项目 #无头浏览器 #Rust #AI工具 #爬虫技术 GitHub - h4ckf0r0day/obscura: The headless browser for AI agents and web scraping
  3. Paseo:随时随地指挥你的 AI 编程助手

    想要在离开工位时也能继续推进代码进度?Paseo 是一款开源、自托管的 AI 编程 Agent 调度平台,让你能够从手机、桌面或终端轻松管理和运行 AI 助手。

    主要功能亮点:

    全平台覆盖:支持 iOS、Android、桌面端及 Web,甚至可以直接通过 CLI 脚本化运行,实现多端无缝衔接。
    集成主流 Agent:完美支持 Claude Code、Codex 和 OpenCode 等主流 AI 编程助手,保留原有的技能和配置。
    隐私与安全:代码始终保留在你的本地机器上,支持端到端加密中继,确保远程连接时的代码安全。
    本地语音交互:内置完全本地化的语音识别与合成技术,无需将语音数据上传云端即可实现指令下达。
    开发者友好:支持键盘快捷键优先操作、Git 工作流隔离(Worktrees)以及全方位的命令行支持。

    Paseo 是一款纯粹的开源工具,不直接调用推理 API,而是作为官方 CLI 的透明调度层,既自由又强大。

    https://paseo.sh/

    #AI编程 #开源项目 #Paseo #开发者工具 #人工智能 Paseo – Run Claude Code, Codex, Copilot, OpenCode from anywhere
  4. GitAgent:用 Git 仓库定义 AI Agent 的开放标准

    AI Agent 框架百花齐放,但每个框架都有自己的结构,Agent 定义无法跨平台复用。GitAgent 提出了一种框架无关、基于 Git 的 Agent 定义标准——克隆一个仓库,就能获得一个 Agent。

    核心理念

    Git 原生:版本控制、分支管理、Diff 比较、协作能力开箱即用
    框架无关:通过适配器导出到 Claude Code、OpenAI、CrewAI、Cursor 等任意框架
    合规就绪:内置 FINRA、美联储、SEC 等金融监管合规支持
    可组合:Agent 之间可以继承、依赖和委托

    怎么用?

    一个仓库只需两个文件即可成为 Agent:

    agent.yaml:清单文件,定义名称、版本、模型、技能、工具等
    SOUL.md:身份文件,定义人格、沟通风格和价值观

    可选添加 RULES.md(硬约束)、DUTIES.md(职责分离)、skills/(技能模块)、workflows/(工作流)等目录,按需扩展。

    亮点设计

    12 种架构模式:包括人类审批(Human-in-the-Loop)、Agent 版本管理、分支部署、Agent Fork 与混用、CI/CD 集成、生命周期钩子等
    职责分离(SOD):定义角色权限和冲突矩阵,确保关键流程不被单一 Agent 端到端控制
    SkillsFlow:用 YAML 定义确定性多步工作流,支持步骤依赖和模板数据流
    11 个导出适配器:覆盖 system-prompt、Claude Code、OpenAI、CrewAI、Cursor、Lyzr 等主流平台

    快速开始

    npm install -g gitagent
    gitagent init --template standard
    gitagent validate
    gitagent export --format system-prompt
    


    项目目前已获 1.1k Star,MIT 开源协议。

    🔗 https://github.com/open-gitagent/gitagent

    #AIAgent #GitAgent #开源 #Agent标准化 #框架无关 GitHub - open-gitagent/gitagent: A universal git-native AI agent framework. Your agent lives inside a git repo — identity, rules…
  5. GitHub Agentic Workflows:用自然语言写 GitHub Actions 的“智能工作流”

    GitHub 开源项目 gh-aw(GitHub Agentic Workflows),主打一个思路:用自然语言 Markdown 编写“代理式(agentic)工作流”,然后直接在 GitHub Actions 里运行,让 AI 代你完成仓库中的重复性任务。

    它提供的核心价值包括:

    更低门槛的工作流编写方式:用 Markdown 描述要做什么,而不是从零写复杂的 YAML/脚本
    更强调安全的执行模型(Guardrails):默认只读权限;写入操作需要通过经过清洗的 safe-outputs;并配套多层防护(输入净化、工具白名单、编译期校验、网络隔离、供应链安全等)
    完善的文档与上手路径:官方提供 Quick Start 与完整文档,方便快速跑通示例并理解整体机制
    生态配套
    AWF(Agent Workflow Firewall):限制与记录代理的网络访问(出站控制)
    MCP Gateway:统一转发 MCP(Model Context Protocol)服务调用,便于集中管理访问

    适合关注 AI + DevOps、希望把“AI 介入仓库日常操作”做得更可控、更工程化的团队参考与尝试(同时也要保持必要的人类监督)。

    原链接:https://github.com/github/gh-aw

    #GitHubActions #AI自动化 #工作流 #安全工程 #开源项目 GitHub - github/gh-aw: GitHub Agentic Workflows
  6. Stripe「Minions」:一键生成、端到端交付的无人值守编码代理

    Stripe 在内部打造了一套名为 Minions 的编码代理:从接到任务到产出可评审的 PR,全程几乎无需人类介入。现在,Stripe 每周有超过 1000 个合并的 PR 是由 Minions 从头到尾生成的(人类负责 Review,但不写代码)。

    为什么要自研?

    在 Stripe 这种超大规模、强约束的工程环境里,“从零写个原型”和“在成熟巨型代码库里安全改动”完全不是一回事:

    • 代码库规模巨大(数亿行),栈也相对小众:大量后端是 Ruby + Sorbet,还有大量 Stripe 自研库,LLM 天然不熟
    • 业务风险极高:Stripe 的代码承载着 每年超过 1 万亿美元 的支付规模,并受金融合规与监管约束
    • 既要让代理“会写”,也要让它“按规矩写、能跑通、能过 CI”,并与既有研发流程深度结合

    工程师怎么用?

    最常见的入口是 Slack

    • 在讨论线程里 @Slack App 就能发起 Minion,它会读取整个线程与相关链接作为上下文
    • 也集成到内部系统里:文档平台、Feature Flag、工单系统等
    例如 CI 发现 flaky tests,会生成工单,直接提供按钮让 Minion 去修

    完成后,Minion 会:

    • 创建分支 → 推送 → 跑 CI → 按模板生成 PR

    如果效果不理想,人类可以补充指令让它再改;即使不完美,也常常是很好的“可用起点”。

    Minions 背后怎么运作(要点版)

    Stripe 的思路是:把“创意生成”交给 LLM,把“必须可靠执行的步骤”交给确定性工具链

    • 运行环境:在隔离的 devbox 中执行(10 秒内可启动,预热并预载代码与服务),与生产与公网隔离,便于并行
    • Agent 框架:基于 Block 的开源编码代理 goose 的 fork,并做了强定制
    • 规则与上下文:读取各类 agent rule 文件,但多为“按目录条件生效”,避免全局死规则拖累
    • 工具调用:接入 MCP(函数调用通用协议),并建设内部 MCP 服务 Toolshed,提供 400+ 工具(文档、工单、构建状态、Sourcegraph 搜索等)
    • 反馈与质量闸门:
    • 首先跑本地启发式 lint/检查(通常 <5 秒)
    • 再跑选择性的 CI(Stripe 有 300 万+ 测试),部分失败可自动修复
    • 为控制成本与等待时间:最多两轮 CI,强调“能本地提前发现就不要拖到 CI”

    接下来

    这篇是系列 Part 1,主要讲“怎么用、能做什么”;Part 2 会深入实现细节。整体信号很明确:当“开发者注意力”成为稀缺资源时,无人值守、可并行的编码代理正在改变工程协作方式。

    原文链接:https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents

    #AI工程化 #编码代理 #开发者效率 #CI实践 #Stripe Minions: Stripe’s one-shot, end-to-end coding agents
  7. VM0:用自然语言搭建 AI Agent,并在云端 24/7 运行

    VM0 主打的是「面向 AI Agent 的基础设施」,让你用自然语言定义工作流、在云端沙盒环境里持续运行,并且能完整观测每次执行过程。

    它能做什么

    一键运行 Agent:支持按需执行或定时调度,适合做日报、监控、内容汇总等自动化任务。
    自然语言构建工作流:在 Claude Code 里描述目标,协作编辑 AGENTS.md,快速拼出可执行的 Agent 指令与流程。
    云端隔离沙盒:本地开发、云端运行,环境隔离,适合让 Agent 长时间稳定跑任务。
    全链路可观测:实时日志、产物输出、执行回放(checkpoint),便于排查与迭代。

    示例场景(官网展示)

    HackerNews 摘要 Agent:自动读 Top 文章,筛选 AI 相关内容并生成可发布的总结。
    TikTok 达人筛选 Agent:搜索与筛选创作者,输出分析报告。
    日报 Agent:聚合多源数据与 API,总结后写入 Notion。
    博客生成 Agent:结合多个 API 自动产出内容。

    快速开始(官网命令)

    npm install -g @vm0/cli && vm0 onboard

    原链接:https://www.vm0.ai/

    #AI代理 #自动化工作流 #云端沙盒 #可观测性 #开发者工具 VM0 - Your Trustworthy AI Teammate
  8. Agent Trace:为 AI 写的代码建立“可追溯”标准

    Agent Trace 是一个开放规范,用来记录代码中哪些部分来自 AI、哪些来自人类,并把相关的模型信息、对话链接等“出处”一并纳入版本控制工作流中。它强调厂商中立,让不同工具都能读写同一套归因数据。

    核心想解决什么

    • 随着 Agent/代码助手产出越来越多代码,团队需要更清楚地知道:哪些改动是 AI 生成、用的是什么模型、对应哪次对话/会话。
    • 这不是法律意义的“所有权”或“版权”判定,而是工程层面的来源记录可审计性

    主要目标

    互操作性:任何兼容工具都能写入/读取归因记录
    细粒度:支持到**文件级、行号范围(line range)**的归因
    可扩展:允许各家在不破坏兼容的情况下增加自定义元数据
    人和 Agent 都能读懂:尽量不依赖特定 UI 才能理解

    不做什么(边界很明确)

    • 不处理代码法律归属、版权问题
    • 不追踪训练数据来源
    • 不做质量评估(不判断 AI 代码“好或坏”)
    • 不绑定任何界面或产品形态

    规范长什么样(概念速览)

    Agent Trace 的基本单位是 Trace Record(JSON 记录),典型字段包括:

    version / id / timestamp:规范版本、记录 ID、时间戳
    vcs:版本控制信息(如 git commit SHA;也支持 jj/hg/svn)
    tool:生成该记录的工具及版本
    files:文件列表;每个文件下按 conversation 分组
    conversations.url:指向产生这段代码的对话链接
    ranges:该对话贡献的行号范围(可选 content_hash 用于跨移动追踪)
    metadata:自定义扩展字段(建议用反向域名避免冲突,如 dev.cursor

    实现与落地

    • 规范本身不规定 traces 存哪:可以是本地文件、git notes、数据库等。
    • 提供了一个参考实现(含存储层、hook 集成),示范如何在文件变更时自动捕获归因信息。

    链接:https://agent-trace.dev/
    #AI编程 #代码归因 #工程规范 #可追溯性 #开发工具 Agent Trace
  9. Clawdbot:运行在你自己电脑上的个人 AI 助手

    Clawdbot 主打“AI 真的能做事”:它不是一个被托管在平台里的聊天机器人,而是运行在你的 Mac/Windows/Linux 上,能连接常用通讯工具与各类服务,把对话变成可执行的任务流。

    它能做什么

    本地运行、隐私优先:在你的设备上工作,数据默认留在你手里;可接入 Anthropic / OpenAI,也支持本地模型。
    任意聊天软件对话:WhatsApp、Telegram、Discord、Slack、Signal、iMessage 等都能用(支持私聊和群聊)。
    持久记忆:能记住你的偏好与上下文,越用越“懂你”。
    浏览器自动化:可浏览网页、填表、抓取信息。
    系统级能力:读写文件、运行命令、执行脚本(可全权限或沙箱化)。
    技能/插件机制:用社区技能扩展,也可以让它帮你写自己的技能。
    集成丰富:官方列出 50+ 集成(如 Gmail、GitHub、Obsidian、Spotify、Hue 等)。

    快速上手(官方提供的一键方式)

    • 一键安装:curl -fsSL https://clawd.bot/install.sh | bash
    • 安装 CLI:npm i -g clawdbot
    • 开始引导:clawdbot onboard
    • 另有 macOS 菜单栏 Companion App(Beta),适合和 CLI 搭配使用。

    https://clawd.bot/

    #AI助手 #开源工具 #自动化 #个人效率 #智能体 OpenClaw — Personal AI Assistant
  10. AgentFS:为 AI Agent 设计的“可审计”文件系统

    AgentFS 是 Turso 团队开源的 面向 AI Agent 的文件系统:不仅能像传统文件系统一样读写文件/目录,还把 Agent 的状态与行为记录成可查询、可快照的结构化数据,便于调试与复盘。

    它解决什么问题?

    可审计:每一次文件操作、工具调用、状态变更都会写入同一个 SQLite 数据库,可直接用 SQL 追踪“发生了什么”。
    可复现:一个 .db 文件就是完整运行态,支持复制/快照/回滚,用来复现某次执行或做 what-if 实验。
    可迁移:所有内容都封装在单个 SQLite 文件里,易于移动、备份,甚至纳入版本管理。

    包含哪些组件?

    SDK:TypeScript / Python / Rust(程序化访问文件系统、KV、工具调用记录)。
    CLI:初始化与管理 AgentFS;在 Linux 用 FUSE、macOS 用 NFS 挂载到本机目录;也可在沙箱里把它挂载到 /agent
    规范:提供基于 SQLite 的 Agent 文件系统规格(SPEC)。

    使用提醒

    • 官方标注为 ALPHA 阶段:更适合开发、测试与实验环境,关键数据请谨慎上生产。

    原链接:https://github.com/tursodatabase/agentfs
    #AI代理 #文件系统 #SQLite #可审计 #开发工具
  11. CoreSpeed:为 AI Agent 打造的容器运行时基础设施

    CoreSpeed 主打把「Agent 运行」这件事做成开箱即用的基础设施:你可以像部署普通容器一样部署 AI Agent,并获得更快启动、更强隔离和更易扩展的体验。

    它解决的核心问题:把 Agent 从 Demo 变成可上线的系统。

    关键能力一览

    127ms 级别快速启动:通过内置 Warm Pool,让容器接近“秒开/毫秒开”,减少冷启动等待。
    按用户隔离的安全沙箱:一人一容器,降低数据串扰与安全风险。
    无限水平扩展 + 可缩到 0:按需分配资源,空闲可降到零成本运行。
    AI & MCP Gateway:统一接入 AI 模型与 MCP Server,提供可观测性与安全防护(例如减少 API Key 泄露风险),并支持按调用计费。

    配套:Zypher(TypeScript Agent Runtime)

    同时他们提供 Zypher SDK,强调:

    • 不是固定工作流,而是「真 Agent」的反应式循环
    • 模型/供应商无关(Claude、GPT 等)
    • 多 Agent 协作架构
    • 丰富工具与 MCP 协议支持
    • 更节省 Token 的上下文加载与执行策略

    原文链接:https://www.corespeed.io/

    #AI代理 #容器基础设施 #MCP #AgentRuntime #开发者工具
  12. Amp 宣布下线 Amp Tab:Tab 补全时代正在退场

    Amp 团队宣布将移除 Amp Tab(内联 Tab 补全功能),理由很直接:这不再符合他们看到的未来。

    他们的判断基于一个变化——AI 写代码的占比正在迅速上升:

    • 一年前,代码大多还是人手写
    • 2025 年 6 月发布 Amp Tab 时,Amp 已经在写大部分代码
    • 现在,Amp 负责了他们 90% 的交付代码

    Amp 认为,Tab 补全与传统补全引擎来自“人写为主、AI 辅助”的时代;但这个时代正在结束。越来越多用户的工作方式变成:几天不打开编辑器,也能持续交付代码。瓶颈不再是“写得快不快”,而是“把代码产出、落地得快不快”。

    因此,Amp 将把资源投入到“后补全时代”的方向:默认由智能体(agents)完成大部分编码工作,而不是在输入时做局部补全。

    时间安排:

    • Amp Tab 将继续可用至 2026 年 1 月底
    • 之后如果仍需要内联补全,可考虑:Cursor / GitHub Copilot / Zed

    原文链接:https://ampcode.com/news/tab-tab-dead

    #AI编程 #代码补全 #开发者工具 #智能体 #Amp Tab, Tab, Dead
  13. Open Responses:让 LLM 接口真正“可互通”的开放规范

    Open Responses 是一个开源规范与生态,目标是基于 OpenAI Responses API 的理念,建立多模型提供方可互操作的统一接口层。它通过共享 Schema 和配套工具,让开发者能用同一种请求/输出结构,跨不同提供方调用模型、处理流式返回,并组合更复杂的 Agent 工作流。

    为什么需要它?
    现在各家 LLM API 的核心组件越来越相似(消息、工具调用、流式、多模态等),但细节编码方式不同,迁移与兼容成本高。Open Responses 希望把“共同部分”沉淀成稳定规范,减少重复适配。

    它强调的设计方向:

    默认多提供方:一套 Schema 映射多家模型/平台
    更贴近真实 Agent 工作流:统一的流式事件、工具调用模式,以及以“items”作为输出与工具使用的原子单元
    可扩展但不碎片化:核心稳定,同时允许在必要时容纳提供方特性

    如何开始:

    • 阅读规范,理解 items、流式事件、工具使用等核心概念
    • 查看 OpenAPI 参考,掌握完整类型与接口面
    • 用官方的验收测试验证你的 API 实现一致性

    原链接:https://www.openresponses.org/

    #LLM #开放规范 #多模型 #互操作 #API设计
  14. Claude Opus 4.5:让“能做”突然变得很容易

    作者分享了一个明显的转折:三个月前他还不相信“AI 代理能替代开发者”,但在体验 Claude Opus 4.5 后,他开始认为这件事正在发生——至少在相当一部分软件开发场景里。

    他用几个真实项目说明差异不在“会写代码”,而在于一次成功率、能自我迭代、能把复杂系统拼起来

    Windows 右键图片格式转换工具:从文件资源管理器菜单到打包、安装/卸载脚本、发布网站、GitHub Actions 自动发布,整体接近“一次成型”。遇到报错会自己用 dotnet 构建、读错误、再修复。
    录屏与简单剪辑工具:从类似 LICEcap 的录制开始,持续加到视频/图片编辑、裁剪、模糊、标注等功能,作者感叹“几小时就推进到很远”。
    AI 发帖工具(给小生意用):iOS 端批量上传照片→AI 生成文案→定时发到 Facebook。后端涉及认证、存储、云函数、日志排错等一堆“胶水活”,但模型能通过 CLI 自己创建资源、查日志并修问题,还顺手做了管理后台。
    订单与路线追踪:解析 Gmail 订单、规划路线、统计行驶时间(用于税务),作者强调:这种“手写很痛苦”的 Google/Firebase 集成,Opus 4.5 反而很顺。

    文章也没有回避争议点:
    作者承认自己并不完全理解这些应用“内部怎么搭起来的”(比如 Swift 不熟),但他的焦虑在减轻——因为当问题出现时,模型往往能定位并修复自己的 bug。于是他提出一个更激进的想法:代码也许不必主要面向人类可读,而是面向 LLM 可推理、可重写、可调试

    他甚至分享了一份自用的“AI-first 编码”提示词要点(概念层面):

    • 追求可预测、可调试、低耦合、入口清晰、控制流线性
    • 少炫技抽象,减少层级与间接性
    • 该删就删;重构也要分高/中/低优先级
    • 安全需要更谨慎:API key、登录流程、敏感数据存储等不能盲信

    结尾的态度是复杂的:既兴奋于“几小时能做出过去要几周/月的东西”,也沮丧于技能壁垒被压平。但他给出的建议很朴素:别等“都懂了”再开始,继续做东西,只是更快了;同时一定盯紧安全与密钥。

    原文链接:https://burkeholland.github.io/posts/opus-4-5-change-everything/

    #AI编程 #开发者工具 #Claude #软件工程 #生产力 Opus 4.5 is going to change everything
  15. dotagents:用一个 .agents 目录统一管理各类 AI 工具配置

    dotagents 是一个 CLI/TUI 工具,把项目或全局的 .agents 目录作为“唯一真相源”,自动为不同 AI 工具创建软链接,并支持安装技能(skills)和插件(plugins),方便在多环境之间保持一致配置、可重复执行、易维护。

    你能用它做什么

    • 以 .agents 为中心统一管理:hooks、commands、skills,以及 AGENTS/CLAUDE.md 等说明文件
    • 一键创建软链接,适配多工具(Claude / Codex / Factory)
    • 从本地路径、Git URL、HTTPS URL 安装 skills;并支持从 marketplace 安装 plugins
    • 可随时重复运行,用于补装、修复链接或更新能力集

    快速开始(要求:Bun 1.3+)

    npx @iannuttall/dotagents
    • 或 bunx @iannuttall/dotagents

    链接关系示例

    .agents/AGENTS.md~/.claude/CLAUDE.md
    .agents/commands~/.claude/commands / ~/.factory/commands / ~/.codex/prompts
    .agents/hooks.agents/skills 同步到对应工具目录

    https://github.com/iannuttall/dotagents

    #AI工具 #开发效率 #CLI #Claude #Codex GitHub - iannuttall/dotagents: One location for all of your hooks, commands, skills, and AGENT/CLAUDE.md files.
  16. Steel:为 AI Agent 打造的开源云端浏览器基础设施

    Steel 是一个开源的浏览器 API,用来在云端按需启动并控制“浏览器集群”,让 AI Agent、自动化脚本把能力真正带到网页上运行。

    它适合做什么?

    • 大规模网页抓取与数据采集(也支持更稳定的反爬配置)
    • 自主 Web Agent(下单、订票、填写表单等真实操作流程)
    • 模型训练数据采集、AI 购物助手、RPA/销售自动化、QA 测试、客服自动化

    核心能力概览

    • Sessions API:一行调用启动浏览器会话
    • 自动 CAPTCHA 处理:减少流程中断
    • 代理与指纹控制:降低被识别为机器人的概率
    • 快速启动:平均会话启动时间低于 1 秒(同区域更快)
    • 长会话:单个会话最长可跑 24 小时
    • 上下文复用:保存/注入 Cookies 与本地存储,续跑更顺畅
    • 低改动迁移:Puppeteer/Playwright/Selenium 通过少量改动即可上云
    • 可观测性:提供会话查看器,支持实时/录制回放调试
    • 安全登录:帮助自动化访问需要登录的站点

    价格与开源

    • 提供免费档起步(按浏览器小时/代理带宽/CAPTCHA 计量),也有从个人到企业的多档套餐
    • 项目开源,可本地运行或用 Docker 自托管(官方 GitHub 仓库提供)

    原链接:https://steel.dev/
    #浏览器自动化 #AI代理 #Web抓取 #开源工具 #云基础设施 Steel | Open-source Headless Browser API
  17. MiniMax M2.1 发布:面向真实复杂任务的多语言编程升级

    MiniMax 发布新一代文本模型 MiniMax M2.1,目标从“可用、低成本”进一步走向“能解决真实世界的复杂任务”,重点补齐多语言工程协作与办公场景执行力。

    这次重点提升了什么?

    多语言编程能力系统增强:覆盖 Rust / Java / Go / C++ / Kotlin / Objective‑C / TypeScript / JavaScript 等,更贴近真实项目的多语言栈协作。
    Web & App 开发更强、更好看:强化原生 Android / iOS 开发,同时提升设计理解与审美表达,支持复杂交互、3D 场景模拟与高质量可视化。
    更适合办公场景的“复合指令”执行:在多约束条件下做端到端任务推进,更强调“按要求完成”而不是只写对代码。
    更简洁、更高效的输出:相较 M2,响应更精炼、速度更快、token 消耗更低,适配持续式 AI Coding / Agent 工作流。
    更强的 Agent / 工具泛化:官方称在多种编码工具与 Agent 框架中表现稳定,并兼容常见的上下文管理约定。
    对话与写作质量同步提升:不仅是“更会写代码”,也更擅长技术文档与日常写作的结构化表达。

    基准与展示

    • 在多项软件工程评测上相对 M2 有明显提升,并强调多语言场景竞争力;同时引入 VIBE(含 Web/Simulation/Android/iOS/Backend)评测体系,用更接近真实运行环境的方式验证“能跑、能交付”。

    如何使用

    API:已上线 MiniMax Open Platform
    产品:基于 M2.1 的 MiniMax Agent 已开放
    开源:模型权重提供本地部署,推荐 SGLang / vLLM 等推理框架

    原文链接:https://www.minimax.io/news/minimax-m21

    #MiniMax #开源大模型 #AI编程 #多语言开发 #Agent工作流
  18. Bloom:自动化生成“行为评估”的开源框架

    前沿模型的对齐研究离不开高质量的行为评估,但传统评估往往开发周期长、容易“过时”(被训练数据污染或被能力提升绕过)。Anthropic 发布了 Bloom:一个开源的“代理式”评估生成框架,用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。

    Bloom 的核心思路是:研究者只需定义要测的行为(并可提供少量示例与配置),Bloom 就能自动生成大量情境并运行对话,最后给出该行为在不同模型上的出现频率与严重程度。官方结果显示,Bloom 的评分与人工标注有较强一致性,也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。

    Bloom 怎么做评估(四阶段流水线)

    理解(Understanding):分析研究者的行为描述与示例,明确“要测什么、为什么测”。
    构思(Ideation):自动生成一批用于诱发目标行为的评估场景(含系统提示、用户设定、环境等)。
    执行(Rollout):并行跑场景,对话中还会模拟用户与工具响应,以更真实地触发目标行为。
    判定(Judgment):评审模型为每段对话打分,并输出套件级总结指标(如诱发率、平均行为强度)。

    与固定题库不同,Bloom 每次运行可生成不同场景,但通过“seed 配置”保持可复现;研究者还能调节模型选择、对话长度、是否使用工具、场景多样性,以及增加如“真实感”“诱发难度”等副指标。

    已发布的基准与一个案例

    Anthropic 同时发布了对 16 个模型的基准结果,覆盖四类对齐相关行为:

    • 迎合性妄想(delusional sycophancy)
    • 受指令驱动的长程破坏(instructed long-horizon sabotage)
    • 自我保存(self-preservation)
    • 自我偏好偏差(self-preferential bias)

    在“自我偏好偏差”案例中,Bloom 复现了系统卡里的模型排序,并进一步发现:在某些模型上,提高推理强度会降低偏差(更多体现为识别利益冲突后拒绝自评)。

    开源地址与技术细节见原文与报告:
    https://www.anthropic.com/research/bloom

    #AI安全 #对齐研究 #模型评估 #开源工具 #大模型 Introducing Bloom: an open source tool for automated behavioral evaluations
  19. 用 OpenRouter 接入 Claude Code:更稳、更可控的开发体验

    在 Claude Code 里把请求走 OpenRouter,本质上是给 Anthropic API 加一层“可靠性与管理”中间层。需要注意:官方只保证与 Anthropic 第一方(1P)提供商完全兼容;为了最佳兼容性,建议将 Anthropic 1P 设为最高优先级

    为什么要这样接入?

    自动故障切换(高可用):遇到 Anthropic API 宕机或限流时,OpenRouter 可在多个 Anthropic 提供商间自动切换,减少编码被打断的概率。
    团队预算管理:集中设置额度、分配成员用量、避免成本失控。
    用量可视化:在 OpenRouter 的 Activity Dashboard 里实时查看消耗、项目/成员用量等。

    快速上手(核心步骤)

    1)安装 Claude Code

    • macOS / Linux / WSL:
    curl -fsSL https://claude.ai/install.sh | bash
    • Windows PowerShell:
    irm https://claude.ai/install.ps1 | iex

    2)把 Claude Code 指到 OpenRouter

    关键点只有三个:

    1. Base URL 用:https://openrouter.ai/api
    2. Auth token 用你的 OpenRouter API Key
    3. 必须把 ANTHROPIC_API_KEY 显式设为空字符串(避免与默认 Anthropic 登录冲突)

    把下面环境变量写进你的 shell 配置(例如 ~/.zshrc / ~/.bashrc):

    export OPENROUTER_API_KEY="<your-openrouter-api-key>"
    export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
    export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
    export ANTHROPIC_API_KEY=""

    补充提醒:

    • 不要放在项目级 .env 里:Claude Code 原生安装器不会读常见 .env
    • 若之前用 Anthropic 账号登录过 Claude Code,先在会话里执行 /logout 清掉缓存凭据。

    3)启动并验证

    • 进入项目目录运行:claude
    • 在 Claude Code 内用 /status 查看是否生效,应该能看到:
    Auth token: ANTHROPIC_AUTH_TOKEN
    Anthropic base URL: https://openrouter.ai/api
    • 也可去 OpenRouter Activity Dashboard 看请求是否实时出现。

    进阶:Agent SDK 与 GitHub Action

    Anthropic Agent SDK(Python / TypeScript):由于它以 Claude Code 为运行时,同样使用上述环境变量即可接入 OpenRouter。
    Claude Code GitHub Action:在 action step 里
    anthropic_api_key 传入 secrets.OPENROUTER_API_KEY
    • 环境变量加 ANTHROPIC_BASE_URL: https://openrouter.ai/api

    成本跟踪 Statusline(可选)

    可以给 Claude Code 加自定义 statusline,实时显示 provider、模型、累计成本、缓存折扣等信息;脚本来自 openrouter-examples 仓库,并通过 ~/.claude/settings.json 配置 statusLine.command 启用。

    常见排错

    认证报错:确认 ANTHROPIC_API_KEY""(空字符串),而不是未设置;否则 Claude Code 可能回退到默认 Anthropic 认证流程。
    上下文长度错误:拆分任务或新开会话。
    隐私:OpenRouter 默认不记录你的源码 prompts,除非你在账号设置里明确选择开启日志。

    原链接:https://openrouter.ai/docs/guides/guides/claude-code-integration

    #ClaudeCode #OpenRouter #Anthropic #开发工具 #成本管理
  20. Agent Skills:给 AI Agent “装上技能包”

    Agent Skills 是一种开放格式:把一套可复用的指令、脚本与资源打包成「技能」,让智能体在需要时按需加载,从而更准确、更高效地完成真实工作。

    为什么需要它?

    • 智能体能力越来越强,但常缺少上下文与流程知识;技能把这些程序化经验与团队/组织知识变成可携带、可版本管理的包
    • 对作者:一次构建,多处部署,跨多种智能体产品复用
    • 对企业与团队:把组织最佳实践沉淀为可审计、可迭代的工作流

    它能带来什么?

    领域专长:把法律审阅、数据分析等专业流程封装成可复用指南
    新能力扩展:例如自动做演示文稿、搭建 MCP Server、分析数据集等
    可重复的工作流:多步骤任务标准化,稳定且可追踪
    互操作性:同一技能可在不同“支持技能”的工具/产品间通用

    生态与开放性
    该格式最初由 Anthropic 提出并以开放标准发布,已被多种 AI 开发工具与产品支持,并在 GitHub 上开放协作。

    上手入口

    • 了解技能是什么、格式规范、如何集成、示例技能与参考库(校验与生成 prompt XML)

    原链接:https://agentskills.io/home
    #AI代理 #开放标准 #工作流 #知识沉淀 #开发者工具 Agent Skills Overview - Agent Skills
1px