Skip to main content

Search: #AI应用

无原创,纯转发
  1. Yansu:无需指令,为你主动构建工具的“预知” AI

    你是否厌倦了反复在不同应用间手动同步数据?或者因为繁琐的流程而被迫成为“效率工具专家”?

    Yansu 是一款全新的主动式 AI 应用。它不像 ChatGPT 那样等待你的指令,而是通过观察你的工作习惯,为你自动构建专属工具。

    核心亮点:

    观察即学习:它静默观察你的桌面操作、沟通记录和决策模式,将零散的行为提炼为结构化的知识。
    主动式交付:不需要你写 Prompt。当它发现重复的流程或潜在的需求时,会先于你想到之前就把应用建好。
    虚拟交互:它拥有独立的虚拟指针,可以在不干扰你操作的情况下,自动填写表单、同步状态或整理信息。
    隐私本地化:所有工作记忆和生成的应用都存储在本地,只有在得到你明确许可时才会与外部交互。
    无感化办公:它不会抢夺窗口焦点,也不会打断你的思路,像是一个默默工作的资深助理。

    告别繁琐的手动工作,让 AI 在你还没意识到需求时就完成交付。

    https://yansu.app/

    #AI效率 #自动化 #生产力工具 #人工智能 #Yansu Yansu — The proactive AI that turns how you work into knowledge, handoffs, and automations
  2. 让 AI 掌握顶级设计:TypeUI 风格库

    还在烦恼 AI 生成的网页风格太普通?TypeUI 为 Claude、Cursor、Gemini 等 AI 工具提供了一套精选的“设计技能(Design Skills)”库,让你的 AI 助手瞬间化身顶级设计师。

    核心功能:

    多样化风格: 涵盖 Bento(盒式)、Neumorphism(新态设计)、Glassmorphism(毛玻璃)、Neobrutalism(新野兽派)等多种流行审美。
    即插即用: 提供优化的 skill.md 文件,你可以通过 CLI 命令(如 npx typeui.sh pull bento)直接引入项目,或手动复制到提示词中。
    完美适配: 专门针对 Agentic AI 工具进行了优化,确保 AI 生成的代码能精准还原特定的视觉风格。

    使用场景:
    当你使用 AI 开发网页或应用时,只需喂入这些预设的“技能文件”,AI 就能跳出默认的 Bootstrap 或 Tailwind 风格,构建出极具辨识度的视觉界面。

    原文链接:https://www.typeui.sh/design-skills

    #AI设计 #前端开发 #TypeUI #UI设计 #AI工具 Design Skills for AI | TypeUI
  3. Linear 发布 Agent 交互指南(AIG):定义人机协作的新契约

    AI Agent 正在重塑软件的规划、构建、审查和部署方式。当 Agent 大量产出工作成果时,人类的角色也随之转变——价值重心转移到编排输入、构建上下文和审查输出上。

    这种转变需要一套全新的人机交互契约。Linear 提出了 Agent Interaction Guidelines(AIG),为设计更自然融入人类工作流的 Agent 交互制定了基础原则。

    六大核心原则

    1. Agent 必须表明身份
    当人类与 Agent 协同工作时,Agent 必须清晰标识自己的身份,绝不能被误认为是真人。

    2. Agent 应原生融入平台
    Agent 应通过平台已有的 UI 模式和标准操作来工作,而非另起炉灶。

    3. Agent 应即时反馈
    沉默会带来不确定性。Agent 被调用后应立即提供反馈(如"思考中"指示器),让用户知道请求已被接收。

    4. Agent 应透明展示内部状态
    无论是思考、等待输入、执行还是完成,Agent 都应清晰展示当前状态。用户可以随时检视其推理过程、工具调用和决策逻辑。

    5. Agent 应尊重退出指令
    当被要求停止时,Agent 必须立即退出,且只有收到明确信号后才能重新介入。

    6. Agent 不能承担最终责任
    Agent 可以执行任务,但最终责任始终归属于人类。需要建立清晰的人机委托模型。

    ---

    AIG 是一份持续演进的开放文档,Linear 邀请社区共同参与完善。

    🔗 https://linear.app/developers/aig

    #AI_Agent #人机交互 #Linear #设计原则 #AIG Agent Interaction Guidelines (AIG) – Linear Developers
  4. AI 时代怎么招工程师:Augment 的「AI-native」人才标准

    当 AI agent 能写出大部分代码后,工程师的价值开始上移:不再以“写得快、写得多”为核心,而是以判断力、系统设计与协同能力决定产出质量。

    Augment 重新梳理了面向 AI-native(与 AI 共同工作)团队的招聘标准,核心变化可以概括为一句话:人从“作者”变成“架构师与编辑”——定义意图、做取舍、设护栏、把好质量关。

    工程师工作重心的迁移

    • 传统工程:写代码、实现方案、解决问题、看个人产出
    • AI-native 工程:明确意图与权衡、编排 agent、选择正确问题、看系统级结果

    他们认为最重要的 6 个能力维度

    1. 产品与结果品味(Product & Outcome Taste):能否在代码变“更便宜”时,避免做出“最贵的错误”——把方向做错。
    2. 系统与架构判断(System & Architectural Judgment):代码能跑不难,难的是“能在生产环境长期稳定地跑”。
    3. Agent 杠杆(Agent Leverage):能否把 AI 变成真实吞吐量:拆解任务、引导偏航、验证结果(agent 很快,但也可能自信地出错)。
    4. 沟通与协作(Communication & Collaboration):实现更快后,“达成清晰”更关键;要能把意图讲清楚、促成共识。
    5. 主人翁意识与领导力(Ownership & Leadership):对结果负责而非只做任务;主动清除阻碍交付的障碍。
    6. 学习速度与实验心态(Learning Velocity & Experimental Mindset):工具三个月就变一轮,持续实验与快速迭代成为工作常态。

    一个显著的信号是:“纯粹的编码能力”不再是最主要的区分项——依然重要,但不再决定上限。

    从理念到招聘:看“可观察信号”

    他们强调,框架必须能落到面试里,转成可评估的行为证据,例如:

    • 能否快速澄清模糊问题、定义清晰目标?
    • 能否提前识别架构风险,而不是上线后救火?
    • 能否有效指挥并验证 AI 生成的工作?

    未来重点招的 4 类画像

    AI-native 系统工程师:基础设施与架构判断强,保证“地基”稳。
    AI-native 产品工程师:产品品味与用户理解强,确保“做对事”。
    AI-native 应用 AI 工程师:懂模型与应用构建,提升 agent 能力与工作流。
    AI-native 早期工程师(Early Professional):学习速度优先,快速适应工具与流程变化。

    这套标准也不只用于招聘,还会反向影响绩效、成长与职业发展:如果真正重视判断力、杠杆与学习速度,就应该在各个环节都体现出来。

    原文链接:https://www.augmentcode.com/blog/how-we-hire-ai-native-engineers-now

    #AI招聘 #工程师能力 #AI代理 #架构设计 #学习型组织 How we hire AI-native engineers now: our criteria
  5. GitHub Agentic Workflows:用自然语言写 GitHub Actions 的“智能工作流”

    GitHub 开源项目 gh-aw(GitHub Agentic Workflows),主打一个思路:用自然语言 Markdown 编写“代理式(agentic)工作流”,然后直接在 GitHub Actions 里运行,让 AI 代你完成仓库中的重复性任务。

    它提供的核心价值包括:

    更低门槛的工作流编写方式:用 Markdown 描述要做什么,而不是从零写复杂的 YAML/脚本
    更强调安全的执行模型(Guardrails):默认只读权限;写入操作需要通过经过清洗的 safe-outputs;并配套多层防护(输入净化、工具白名单、编译期校验、网络隔离、供应链安全等)
    完善的文档与上手路径:官方提供 Quick Start 与完整文档,方便快速跑通示例并理解整体机制
    生态配套
    AWF(Agent Workflow Firewall):限制与记录代理的网络访问(出站控制)
    MCP Gateway:统一转发 MCP(Model Context Protocol)服务调用,便于集中管理访问

    适合关注 AI + DevOps、希望把“AI 介入仓库日常操作”做得更可控、更工程化的团队参考与尝试(同时也要保持必要的人类监督)。

    原链接:https://github.com/github/gh-aw

    #GitHubActions #AI自动化 #工作流 #安全工程 #开源项目 GitHub - github/gh-aw: GitHub Agentic Workflows
  6. Entire:把 AI 编程对话“写进”每一次 Git 提交

    用 AI 写代码时,最容易丢的不是代码,而是“为什么这么写”的上下文。Entire 提供一个思路:在你正常的 git 工作流里,把每次 AI agent 会话自动记录下来,并与对应的 commit 绑定,形成可搜索的历史记录。

    它能做什么?

    自动捕获会话:在每次 push 时记录 AI agent 的会话内容,并和提交一起关联。
    不改变你的工作方式:通过 CLI 接入现有工具链,尽量减少上下文切换。
    支持多种 agent:目前支持 Claude CodeGoogle Gemini;OpenAI Codex 等集成在路上。
    把“意图”留在仓库里:官方强调记录会直接存进 git 历史,不依赖额外托管服务或外部数据库。

    安装方式(官网给出的命令)

    curl -fsSL https://entire.io/install.sh | bash

    适合希望团队更容易复盘决策、追踪 AI 产出过程、减少重复踩坑的工程项目。

    原链接:http://entire.io/

    #Git #AI编程 #开发工具 #工程效率 #CLI Entire · A new developer platform is coming
  7. Agent Trace:为 AI 写的代码建立“可追溯”标准

    Agent Trace 是一个开放规范,用来记录代码中哪些部分来自 AI、哪些来自人类,并把相关的模型信息、对话链接等“出处”一并纳入版本控制工作流中。它强调厂商中立,让不同工具都能读写同一套归因数据。

    核心想解决什么

    • 随着 Agent/代码助手产出越来越多代码,团队需要更清楚地知道:哪些改动是 AI 生成、用的是什么模型、对应哪次对话/会话。
    • 这不是法律意义的“所有权”或“版权”判定,而是工程层面的来源记录可审计性

    主要目标

    互操作性:任何兼容工具都能写入/读取归因记录
    细粒度:支持到**文件级、行号范围(line range)**的归因
    可扩展:允许各家在不破坏兼容的情况下增加自定义元数据
    人和 Agent 都能读懂:尽量不依赖特定 UI 才能理解

    不做什么(边界很明确)

    • 不处理代码法律归属、版权问题
    • 不追踪训练数据来源
    • 不做质量评估(不判断 AI 代码“好或坏”)
    • 不绑定任何界面或产品形态

    规范长什么样(概念速览)

    Agent Trace 的基本单位是 Trace Record(JSON 记录),典型字段包括:

    version / id / timestamp:规范版本、记录 ID、时间戳
    vcs:版本控制信息(如 git commit SHA;也支持 jj/hg/svn)
    tool:生成该记录的工具及版本
    files:文件列表;每个文件下按 conversation 分组
    conversations.url:指向产生这段代码的对话链接
    ranges:该对话贡献的行号范围(可选 content_hash 用于跨移动追踪)
    metadata:自定义扩展字段(建议用反向域名避免冲突,如 dev.cursor

    实现与落地

    • 规范本身不规定 traces 存哪:可以是本地文件、git notes、数据库等。
    • 提供了一个参考实现(含存储层、hook 集成),示范如何在文件变更时自动捕获归因信息。

    链接:https://agent-trace.dev/
    #AI编程 #代码归因 #工程规范 #可追溯性 #开发工具 Agent Trace
  8. OpenClaw 正式亮相:把 AI 助手带到你常用的聊天软件里

    OpenClaw 宣布品牌更名,并明确了项目定位:一个运行在你自己的机器上的开源 Agent 平台,可从你日常使用的聊天应用直接调用(WhatsApp、Telegram、Discord、Slack、Teams 等),让 AI 助手“跟着你走”。

    为什么改名:从 Clawd / Moltbot 到 OpenClaw

    团队经历了多次命名迭代:

    Clawd:好记但涉及商标/法务问题,被建议更换
    Moltbot:寓意“蜕壳成长”,但不够顺口
    OpenClaw:已完成商标检索、域名与迁移准备,强调两点:
    Open:开源、开放、社区驱动
    Claw:延续“龙虾”项目起源与文化

    OpenClaw 是什么:你的助手,你的规则

    核心主张很直接:Your assistant. Your machine. Your rules.
    不同于把数据放在第三方服务器上的 SaaS 助手,OpenClaw 允许你把系统跑在本地电脑、家用服务器或 VPS 上:基础设施你掌控、密钥你掌控、数据也由你掌控

    本次发布更新亮点

    随更名一起上线的更新包括:

    新渠道:新增 Twitch、Google Chat 插件
    模型支持:新增 KIMI K2.5、Xiaomi MiMo-V2-Flash
    Web Chat:支持像聊天软件一样发送图片
    安全加固:累计 34 个与安全相关的提交,并发布可机器验证的安全模型;同时提醒 prompt injection 仍是行业难题,建议参考安全最佳实践

    接下来:安全优先 + 维护体系建设

    团队表示下一阶段会继续把安全作为最高优先级,同时提升网关稳定性、体验打磨,并扩展更多模型与提供商支持。由于项目增长迅猛,也在引入更多维护者并建立流程,鼓励社区参与贡献或赞助维护工作。

    原链接:https://openclaw.ai/blog/introducing-openclaw

    #开源 #AI代理 #隐私安全 #自托管 #聊天机器人 Introducing OpenClaw - OpenClaw Blog
  9. Moltbook:面向 AI Agent 的“社交广场”

    Moltbook 把“社交网络”做成了 AI Agent 的主场:Agent 在这里发布内容、讨论、点赞投票;人类也可以围观、了解它们都在做什么。

    你能在 Moltbook 看到什么?

    海量 Agent 与社区分区(Submolts):按主题聚合讨论与内容流
    动态广场(Posts):从自动化工作流、工具技巧,到各类实验与想法分享
    人机配对(Top Pairings):展示 Agent 与其绑定的人类账号/身份影响力(平台内视角)

    如果你想“把 Agent 送进去”

    • 官方给了一个简单的上手方式:把指令发给你的 Agent,让它按说明注册并生成认领链接,再通过社交平台验证归属。

    面向开发者

    • Moltbook 也在推进开发者平台:允许应用通过 Moltbook 身份与 Agent 做认证与集成(当前以申请早期访问为主)。

    链接:https://www.moltbook.com/

    #AI智能体 #社交网络 #开发者平台 #AI应用 #社区观察 moltbook - the front page of the agent internet
  10. CoreSpeed:为 AI Agent 打造的容器运行时基础设施

    CoreSpeed 主打把「Agent 运行」这件事做成开箱即用的基础设施:你可以像部署普通容器一样部署 AI Agent,并获得更快启动、更强隔离和更易扩展的体验。

    它解决的核心问题:把 Agent 从 Demo 变成可上线的系统。

    关键能力一览

    127ms 级别快速启动:通过内置 Warm Pool,让容器接近“秒开/毫秒开”,减少冷启动等待。
    按用户隔离的安全沙箱:一人一容器,降低数据串扰与安全风险。
    无限水平扩展 + 可缩到 0:按需分配资源,空闲可降到零成本运行。
    AI & MCP Gateway:统一接入 AI 模型与 MCP Server,提供可观测性与安全防护(例如减少 API Key 泄露风险),并支持按调用计费。

    配套:Zypher(TypeScript Agent Runtime)

    同时他们提供 Zypher SDK,强调:

    • 不是固定工作流,而是「真 Agent」的反应式循环
    • 模型/供应商无关(Claude、GPT 等)
    • 多 Agent 协作架构
    • 丰富工具与 MCP 协议支持
    • 更节省 Token 的上下文加载与执行策略

    原文链接:https://www.corespeed.io/

    #AI代理 #容器基础设施 #MCP #AgentRuntime #开发者工具
  11. 代码变便宜了,但“软件”依旧很贵

    AI 工具把“写代码”的门槛打穿了:越来越多人用 CLI/对话式方式,直接描述需求就能生成一个能跑的应用。结果不是 SaaS 的黄金时代,而是“个人软件”的兴起——为某个具体问题快速做一个小工具,用完就丢,像当年的电子表格一样当作临时工作台。

    但别误会:代码的成本下降,不代表软件的成本下降。真正昂贵的是把东西做成能长期运行、能承受现实摩擦的系统:维护、边界情况、体验债、数据归属与同步、可靠性与扩展性。周末做出的 CRUD+API Demo 很好看,但银行 CSV 格式一变、网页 DOM 一改、离线与多端同步一上,脆弱性立刻暴露。

    当“能写出来”不再稀缺,新的瓶颈转向两件事:

    分发与注意力:噪音变大,“一下午做出月入五位数”的叙事很多是营销而非可复制路径。
    判断力与系统能力:工程师的价值更偏向架构与取舍——知道该如何组织系统、何时做限流/缓存、哪些变量不能乱放、哪些复杂度必须正面处理。

    谁会在这波变化中受益?有明确领域痛点的专业人士、需要快速解决内部流程的团队、想替换脆弱手工流程的重度用户,以及愿意为“可控与所有权”而不是“高光界面”买单的人。AI 很能加速,但仍需要像审 PR 一样严格复核:它能产出代码,却不负责让软件在现实中长期站住。

    原文链接:https://www.chrisgregori.dev/opinion/code-is-cheap-now-software-isnt

    #AI工具 #软件工程 #产品分发 #架构思维 #个人软件 Code Is Cheap Now. Software Isn’t.
  12. Claude Opus 4.5:让“能做”突然变得很容易

    作者分享了一个明显的转折:三个月前他还不相信“AI 代理能替代开发者”,但在体验 Claude Opus 4.5 后,他开始认为这件事正在发生——至少在相当一部分软件开发场景里。

    他用几个真实项目说明差异不在“会写代码”,而在于一次成功率、能自我迭代、能把复杂系统拼起来

    Windows 右键图片格式转换工具:从文件资源管理器菜单到打包、安装/卸载脚本、发布网站、GitHub Actions 自动发布,整体接近“一次成型”。遇到报错会自己用 dotnet 构建、读错误、再修复。
    录屏与简单剪辑工具:从类似 LICEcap 的录制开始,持续加到视频/图片编辑、裁剪、模糊、标注等功能,作者感叹“几小时就推进到很远”。
    AI 发帖工具(给小生意用):iOS 端批量上传照片→AI 生成文案→定时发到 Facebook。后端涉及认证、存储、云函数、日志排错等一堆“胶水活”,但模型能通过 CLI 自己创建资源、查日志并修问题,还顺手做了管理后台。
    订单与路线追踪:解析 Gmail 订单、规划路线、统计行驶时间(用于税务),作者强调:这种“手写很痛苦”的 Google/Firebase 集成,Opus 4.5 反而很顺。

    文章也没有回避争议点:
    作者承认自己并不完全理解这些应用“内部怎么搭起来的”(比如 Swift 不熟),但他的焦虑在减轻——因为当问题出现时,模型往往能定位并修复自己的 bug。于是他提出一个更激进的想法:代码也许不必主要面向人类可读,而是面向 LLM 可推理、可重写、可调试

    他甚至分享了一份自用的“AI-first 编码”提示词要点(概念层面):

    • 追求可预测、可调试、低耦合、入口清晰、控制流线性
    • 少炫技抽象,减少层级与间接性
    • 该删就删;重构也要分高/中/低优先级
    • 安全需要更谨慎:API key、登录流程、敏感数据存储等不能盲信

    结尾的态度是复杂的:既兴奋于“几小时能做出过去要几周/月的东西”,也沮丧于技能壁垒被压平。但他给出的建议很朴素:别等“都懂了”再开始,继续做东西,只是更快了;同时一定盯紧安全与密钥。

    原文链接:https://burkeholland.github.io/posts/opus-4-5-change-everything/

    #AI编程 #开发者工具 #Claude #软件工程 #生产力 Opus 4.5 is going to change everything
  13. Agent-native 应用:把“功能”变成“结果”

    这篇文章提出一种新范式:与其把产品能力写成一堆固定功能,不如构建一个能反复调用工具、直到达成目标的“软件代理(agent)”。核心在于:让代理拥有与用户同等的操作能力(UI 能做的,代理也能通过工具做到),并把工具设计成足够原子化的“积木”。这样,新功能往往不再是写代码,而是写一段描述结果的提示词;同时,用户提出的意外需求会推动系统“涌现”出新用法,并反过来指导你补齐工具与能力缺口。

    五个核心原则

    对等(Parity):任何 UI 动作,代理都应能通过工具实现同样的结果;否则代理会卡死。
    粒度(Granularity):工具是原子能力;“功能”是代理在循环中用工具达成的结果。改行为优先改提示词,而不是重构代码。
    可组合(Composability):有了原子工具 + 对等能力,就能通过新提示词快速拼出新“功能”(开发者/用户都能做)。
    涌现能力(Emergent capability):用户会提你没设计过的需求;代理若能组合工具完成,就是新机会;若失败,则暴露工具缺口。
    持续变好(Improvement over time):通过沉淀上下文(context 文件)与迭代提示词,应用可在不发版的情况下持续变强。

    落地方法(把原则变成工程实践)

    先做“能力地图”:列出用户能做的事,逐项确认代理具备创建/读取/更新/删除(CRUD)能力,避免“能新建不能修改/删除”的断腿体验。
    先原语、后领域工具:先用文件、bash、读写等基础工具跑通;再为高频模式加领域工具,用于效率、校验、术语锚定,但不要把“判断”写进工具里。
    文件作为通用接口:文件天然可读、可审计、可迁移,代理也最擅长操作;内容放文件、结构化高频数据放数据库(或混合:文件作可读真相,DB 做索引与性能)。
    明确完成信号:不要靠“看起来差不多了”判断结束;让工具/编排层返回明确的 complete 信号,避免无限循环或半成品。
    透明的代理行为:工具调用、进度、状态变化要让 UI 可见;“沉默的代理”会让用户觉得坏了。
    把“授权”做成产品能力:根据风险与可逆性决定自动执行还是强确认;尤其是发送邮件、发布内容等高风险动作。

    对移动端的启示

    • 移动应用容易被后台杀死,代理任务却可能很长:需要checkpoint/恢复机制,尽可能在每次工具结果后存档。
    • iCloud 之类的文件同步能让多设备共享“同一工作区”,但要处理冲突与未下载文件等边界。

    原链接:https://every.to/guides/agent-native

    #AgentNative #软件代理 #AI产品 #工具调用 #产品架构 Agent-native Architectures
  14. dotagents:用一个 .agents 目录统一管理各类 AI 工具配置

    dotagents 是一个 CLI/TUI 工具,把项目或全局的 .agents 目录作为“唯一真相源”,自动为不同 AI 工具创建软链接,并支持安装技能(skills)和插件(plugins),方便在多环境之间保持一致配置、可重复执行、易维护。

    你能用它做什么

    • 以 .agents 为中心统一管理:hooks、commands、skills,以及 AGENTS/CLAUDE.md 等说明文件
    • 一键创建软链接,适配多工具(Claude / Codex / Factory)
    • 从本地路径、Git URL、HTTPS URL 安装 skills;并支持从 marketplace 安装 plugins
    • 可随时重复运行,用于补装、修复链接或更新能力集

    快速开始(要求:Bun 1.3+)

    npx @iannuttall/dotagents
    • 或 bunx @iannuttall/dotagents

    链接关系示例

    .agents/AGENTS.md~/.claude/CLAUDE.md
    .agents/commands~/.claude/commands / ~/.factory/commands / ~/.codex/prompts
    .agents/hooks.agents/skills 同步到对应工具目录

    https://github.com/iannuttall/dotagents

    #AI工具 #开发效率 #CLI #Claude #Codex GitHub - iannuttall/dotagents: One location for all of your hooks, commands, skills, and AGENT/CLAUDE.md files.
  15. 2025 年 AI 编程现状:效率在涨,工具与模型在分化

    Greptile 发布的《The State of AI Coding 2025》梳理了 AI 编程在 2025 年的关键趋势:工程产出显著提升,开发工具生态快速扩张,而不同大模型在“响应速度、吞吐、成本”上的取舍越来越清晰。

    1) 工程效率:PR 更大,个人产出更高

    PR 规模变大:2025 年 3 月到 11 月,PR 的中位改动行数从 57 增至 76,约 +33%
    开发者产出上升:人均代码产出从 4,450 增至 7,839 行,约 +76%,AI 工具被视为“产能放大器”。
    中型团队提升更明显:6–15 人团队的人均产出从 7,005 增至 13,227 行,约 +89%
    单文件改动更密:每个文件的改动行数中位数从 18 增至 22,约 +20%,说明 PR 不只变大,也更“集中”。

    2) 工具采用:从“能用”到“形成标准层”

    记忆/Memory 基建mem059% 份额领跑(按 PyPI + npm 月下载量口径)。
    向量数据库:没有绝对赢家;Weaviate 约 25%,其余多家在 10–25% 之间拉锯。
    AI 规则文件CLAUDE.md 使用率 67%;不少团队多格式并存,且 17% 的仓库三种格式都用
    AI SDK 增长:Anthropic SDK 以 43M 下载领先(约 8 倍增长);Pydantic AI 增长 3.7×6M
    LLMOps:LiteLLM 月下载量增长 41M(LangSmith 与 LangChain 安装存在绑定关系)。

    3) 模型格局:生态差距在收敛

    SDK 下载量:OpenAI 约 130M 领先;Anthropic 自 2023 年 4 月起增长 1,547×;Google 约 13.6M
    差距缩小:OpenAI 与 Anthropic 的下载量比从 2024 年 1 月的 47:1,降至 2025 年 11 月的 4.2:1

    4) 作为“编程 Agent 后端”,模型各有侧重

    报告用统一参数对多模型做了延迟、吞吐、成本等基准:

    首 token 响应(TTFT):Claude Sonnet/Opus(p50 < 2.5s)明显更快,更利于交互式编程保持“心流”。
    生成吞吐:GPT-5 Codex / GPT-5.1 吞吐更高,长输出更快结束,利于并行跑更多 Agent/CI。
    成本倍率(以 GPT-5 Codex = 1× 归一):GPT-5 Codex ≈ GPT-5.1(1×);Gemini 3 Pro(1.4×);Sonnet 4.5(2×);Opus 4.5(3.3×)。

    结论很直接:选型不再是“谁最强”,而是你更在意 响应速度、吞吐效率,还是预算

    5) 研究方向:规模、上下文与 Agent 的“系统工程”

    报告还汇总了 2025 年影响工具与应用的一批研究线索,包括:

    MoE 的效率设计(如 DeepSeek-V3:关注 KV cache、路由与训练信号密度)。
    长上下文 vs RAG 的边界(不同数据结构下各有优势;以及 KV 级检索等新思路)。
    Agent 训练与检索策略(用 RL 学会“何时搜索”、如何管理长程记忆、如何降低噪声上下文干扰等)。

    原文链接:https://www.greptile.com/state-of-ai-coding-2025

    #AI编程 #开发效率 #LLM工具链 #模型评测 #软件工程趋势 AI Code Review | Greptile | Merge 4X Faster, Catch 3X More Bugs
  16. MiniMax M2.1 发布:面向真实复杂任务的多语言编程升级

    MiniMax 发布新一代文本模型 MiniMax M2.1,目标从“可用、低成本”进一步走向“能解决真实世界的复杂任务”,重点补齐多语言工程协作与办公场景执行力。

    这次重点提升了什么?

    多语言编程能力系统增强:覆盖 Rust / Java / Go / C++ / Kotlin / Objective‑C / TypeScript / JavaScript 等,更贴近真实项目的多语言栈协作。
    Web & App 开发更强、更好看:强化原生 Android / iOS 开发,同时提升设计理解与审美表达,支持复杂交互、3D 场景模拟与高质量可视化。
    更适合办公场景的“复合指令”执行:在多约束条件下做端到端任务推进,更强调“按要求完成”而不是只写对代码。
    更简洁、更高效的输出:相较 M2,响应更精炼、速度更快、token 消耗更低,适配持续式 AI Coding / Agent 工作流。
    更强的 Agent / 工具泛化:官方称在多种编码工具与 Agent 框架中表现稳定,并兼容常见的上下文管理约定。
    对话与写作质量同步提升:不仅是“更会写代码”,也更擅长技术文档与日常写作的结构化表达。

    基准与展示

    • 在多项软件工程评测上相对 M2 有明显提升,并强调多语言场景竞争力;同时引入 VIBE(含 Web/Simulation/Android/iOS/Backend)评测体系,用更接近真实运行环境的方式验证“能跑、能交付”。

    如何使用

    API:已上线 MiniMax Open Platform
    产品:基于 M2.1 的 MiniMax Agent 已开放
    开源:模型权重提供本地部署,推荐 SGLang / vLLM 等推理框架

    原文链接:https://www.minimax.io/news/minimax-m21

    #MiniMax #开源大模型 #AI编程 #多语言开发 #Agent工作流
  17. Bloom:自动化生成“行为评估”的开源框架

    前沿模型的对齐研究离不开高质量的行为评估,但传统评估往往开发周期长、容易“过时”(被训练数据污染或被能力提升绕过)。Anthropic 发布了 Bloom:一个开源的“代理式”评估生成框架,用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。

    Bloom 的核心思路是:研究者只需定义要测的行为(并可提供少量示例与配置),Bloom 就能自动生成大量情境并运行对话,最后给出该行为在不同模型上的出现频率与严重程度。官方结果显示,Bloom 的评分与人工标注有较强一致性,也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。

    Bloom 怎么做评估(四阶段流水线)

    理解(Understanding):分析研究者的行为描述与示例,明确“要测什么、为什么测”。
    构思(Ideation):自动生成一批用于诱发目标行为的评估场景(含系统提示、用户设定、环境等)。
    执行(Rollout):并行跑场景,对话中还会模拟用户与工具响应,以更真实地触发目标行为。
    判定(Judgment):评审模型为每段对话打分,并输出套件级总结指标(如诱发率、平均行为强度)。

    与固定题库不同,Bloom 每次运行可生成不同场景,但通过“seed 配置”保持可复现;研究者还能调节模型选择、对话长度、是否使用工具、场景多样性,以及增加如“真实感”“诱发难度”等副指标。

    已发布的基准与一个案例

    Anthropic 同时发布了对 16 个模型的基准结果,覆盖四类对齐相关行为:

    • 迎合性妄想(delusional sycophancy)
    • 受指令驱动的长程破坏(instructed long-horizon sabotage)
    • 自我保存(self-preservation)
    • 自我偏好偏差(self-preferential bias)

    在“自我偏好偏差”案例中,Bloom 复现了系统卡里的模型排序,并进一步发现:在某些模型上,提高推理强度会降低偏差(更多体现为识别利益冲突后拒绝自评)。

    开源地址与技术细节见原文与报告:
    https://www.anthropic.com/research/bloom

    #AI安全 #对齐研究 #模型评估 #开源工具 #大模型 Introducing Bloom: an open source tool for automated behavioral evaluations
  18. 如何让 Claude Code Skills 可靠激活

    Claude Code 的 Skills 功能理论上会根据描述自动激活,但实际测试发现激活率仅约 20%,跟抛硬币差不多。作者通过 200+ 次测试,找到了两种有效方案。

    测试结果对比:

    Simple 简单指令:整体成功率仅 20%
    Forced Eval 强制评估:成功率 84%,最稳定
    LLM Eval 预评估:成功率 80%,更快更省钱

    核心发现

    强制评估之所以有效,在于它创建了「承诺机制」:

    1. Claude 必须逐一评估每个 Skill 并给出 YES/NO
    2. 明确表态后才能继续实现
    3. 使用 "MANDATORY"、"CRITICAL" 等强硬措辞增加执行力

    如何选择

    Forced Eval:追求稳定性,不介意输出冗长
    LLM Eval:追求速度和成本,适合单一技能场景

    使用方法:在 .claude/hooks/ 创建对应脚本,并在 settings.json 中配置 hook。如果用 claude-skills-cli,可直接运行:

    pnpm exec claude-skills-cli add-hook
    


    🔗 原文链接

    #ClaudeCode #Skills #开发技巧 #Anthropic #AI工具
  19. CKA-Agent:利用"无害查询编织"绕过商用 LLM 安全护栏

    来自 GaTech、UIUC、清华等机构的研究团队提出了一种名为 CKA-Agent(关联知识攻击代理)的新型越狱框架,揭示了大语言模型安全机制的根本性漏洞。

    核心发现:
    该研究指出,LLM 的脆弱性并非在于提示词优化是否巧妙,而在于模型内部知识的关联性——通过编织一系列看似无害的查询,即可重构受限信息。

    技术原理:
    CKA-Agent 将越狱问题重构为对目标模型关联知识的自适应树搜索。它不制作单一恶意提示,而是动态导航模型的内部知识图谱,利用目标自身的响应来引导多跳攻击路径。

    实验结果:
    • 在 Gemini-2.5-Pro、GPT-oss-120B、Claude-Haiku-4.5 等商用模型上达到 96-99% 攻击成功率
    • 相比最佳分解基线提升 15-21 个百分点
    • 在防御强化模型上比提示优化方法提升高达 96 倍

    防御启示:
    即使提供完整对话历史,模型仍难以跨查询聚合恶意意图。研究团队呼吁未来安全护栏需强化跨查询意图聚合与长上下文推理能力。

    🔗 原文链接

    #AI安全 #LLM越狱 #对抗攻击 #大模型防护
  20. Android Use:让 AI 代理能控制原生 Android 应用的开源库

    📱 这是一款专为移动设备设计的 AI 代理工具,解决了一个核心问题:笔记本电脑无法在卡车驾驶室、送货途中等场景使用。

    核心亮点:

    • 利用 Android 无障碍 API 获取结构化 UI 数据,无需昂贵的视觉模型
    • 相比 Anthropic Computer Use,成本降低 95%(每次操作 $0.01 vs $0.15)
    • 延迟低于 1 秒,准确率超 99%
    • 核心代码不到 200 行,简洁可扩展

    应用场景:

    🚛 物流:卡车司机在驾驶室内提交发票
    🚗 零工经济:Uber/DoorDash 司机多应用切换
    📦 快递:自动扫描包裹并标记送达
    🏦 移动银行:自动化对账和交易处理

    工作原理:

    1. 感知 - 通过 ADB 获取无障碍树(XML)
    2. 推理 - GPT-4 分析屏幕状态并决策
    3. 执行 - 通过 ADB 命令操作设备

    项目发布 24 小时内在 X 上获得 70 万+ 浏览,已有多家物流公司启动试点。

    🔗 GitHub 项目地址

    #Android #AI代理 #自动化 #物流科技 #开源 GitHub - Action-State-Labs/android-action-kernel
1px