Skip to main content

Search: #AI助手

无原创,纯转发
  1. 慢即是快:如何利用 AI 写出更高质量的代码

    很多人认为,AI 编程的意义在于“快”——以最快的速度堆砌出勉强能运行的代码,然后匆忙合并发布。但这种“快”往往伴随着低质量和技术债。

    实际上,大语言模型(LLM)非常灵活,我们完全可以反其道而行之:利用 AI,用更慢的速度写出质量更高的代码。

    以下是这种“慢速 AI 编程”的核心思路:

    让 AI 成为挑剔的 Review 助手:LLM 极其擅长寻找 Bug。你可以通过设置特定的“技能(Skills)”,让多个不同的模型(如 Claude 和 GPT)同时对你的 PR 进行审查并给 Bug 分级,通过交叉验证有效降低误报率。
    主导修复与取舍:根据 AI 反馈的 Bug 列表,优先引导 AI 修复高危和中度漏洞。如果发现架构设计有根本性问题,甚至可以果断放弃现有的 PR 重新构思。
    把“修 Bug”当成探索之旅:这种工作流虽然不会提升你的“开发速度”,但常常会帮你揪出代码库中早已存在的历史遗留 Bug。在解决这些问题的过程中,你会编写更多单测,深入理解系统的边缘情况。

    这并不是那种吹嘘“10倍效率”的浮躁开发方式,而是一种更健康的编程状态:借力 AI,更严谨、更方法论地对待每一行代码,让代码库保持健康。

    下次使用 AI 时,不妨慢下来,试着问问它:“我的这段代码可能会在哪里崩溃?”

    https://nolanlawson.com/2026/05/25/using-ai-to-write-better-code-more-slowly/

    #AI编程 #代码质量 #软件工程 #程序员
  2. Yansu:无需指令,为你主动构建工具的“预知” AI

    你是否厌倦了反复在不同应用间手动同步数据?或者因为繁琐的流程而被迫成为“效率工具专家”?

    Yansu 是一款全新的主动式 AI 应用。它不像 ChatGPT 那样等待你的指令,而是通过观察你的工作习惯,为你自动构建专属工具。

    核心亮点:

    观察即学习:它静默观察你的桌面操作、沟通记录和决策模式,将零散的行为提炼为结构化的知识。
    主动式交付:不需要你写 Prompt。当它发现重复的流程或潜在的需求时,会先于你想到之前就把应用建好。
    虚拟交互:它拥有独立的虚拟指针,可以在不干扰你操作的情况下,自动填写表单、同步状态或整理信息。
    隐私本地化:所有工作记忆和生成的应用都存储在本地,只有在得到你明确许可时才会与外部交互。
    无感化办公:它不会抢夺窗口焦点,也不会打断你的思路,像是一个默默工作的资深助理。

    告别繁琐的手动工作,让 AI 在你还没意识到需求时就完成交付。

    https://yansu.app/

    #AI效率 #自动化 #生产力工具 #人工智能 #Yansu Yansu — The proactive AI that turns how you work into knowledge, handoffs, and automations
  3. 让 AI 掌握顶级设计:TypeUI 风格库

    还在烦恼 AI 生成的网页风格太普通?TypeUI 为 Claude、Cursor、Gemini 等 AI 工具提供了一套精选的“设计技能(Design Skills)”库,让你的 AI 助手瞬间化身顶级设计师。

    核心功能:

    多样化风格: 涵盖 Bento(盒式)、Neumorphism(新态设计)、Glassmorphism(毛玻璃)、Neobrutalism(新野兽派)等多种流行审美。
    即插即用: 提供优化的 skill.md 文件,你可以通过 CLI 命令(如 npx typeui.sh pull bento)直接引入项目,或手动复制到提示词中。
    完美适配: 专门针对 Agentic AI 工具进行了优化,确保 AI 生成的代码能精准还原特定的视觉风格。

    使用场景:
    当你使用 AI 开发网页或应用时,只需喂入这些预设的“技能文件”,AI 就能跳出默认的 Bootstrap 或 Tailwind 风格,构建出极具辨识度的视觉界面。

    原文链接:https://www.typeui.sh/design-skills

    #AI设计 #前端开发 #TypeUI #UI设计 #AI工具 Design Skills for AI | TypeUI
  4. Paseo:随时随地指挥你的 AI 编程助手

    想要在离开工位时也能继续推进代码进度?Paseo 是一款开源、自托管的 AI 编程 Agent 调度平台,让你能够从手机、桌面或终端轻松管理和运行 AI 助手。

    主要功能亮点:

    全平台覆盖:支持 iOS、Android、桌面端及 Web,甚至可以直接通过 CLI 脚本化运行,实现多端无缝衔接。
    集成主流 Agent:完美支持 Claude Code、Codex 和 OpenCode 等主流 AI 编程助手,保留原有的技能和配置。
    隐私与安全:代码始终保留在你的本地机器上,支持端到端加密中继,确保远程连接时的代码安全。
    本地语音交互:内置完全本地化的语音识别与合成技术,无需将语音数据上传云端即可实现指令下达。
    开发者友好:支持键盘快捷键优先操作、Git 工作流隔离(Worktrees)以及全方位的命令行支持。

    Paseo 是一款纯粹的开源工具,不直接调用推理 API,而是作为官方 CLI 的透明调度层,既自由又强大。

    https://paseo.sh/

    #AI编程 #开源项目 #Paseo #开发者工具 #人工智能 Paseo – Run Claude Code, Codex, Copilot, OpenCode from anywhere
  5. 让 AI 像顶级设计师一样编程:GetDesign.md 设计规范库

    如果你正在使用 AI 助手(如 Cursor、Claude 或 Bolt)进行前端开发,那么这个网站值得加入收藏夹。GetDesign.md 汇集了包括 Apple、Stripe、Linear、Notion 以及 SpaceX 在内的 60 多种知名品牌的设计系统灵感。

    它的核心价值在于“AI 友好”:你可以直接将这些精炼的 DESIGN.md 文件丢给 AI 编程助手,AI 就能迅速理解其设计语言、配色方案和排版逻辑,从而帮你构建出风格统一、质感高级的 UI 界面。

    无论你是想要打造极简的工具软件,还是具有视觉冲击力的官网,这里都是一个绝佳的 UI 风格武器库。

    https://getdesign.md/

    #设计系统 #AI工具 #前端开发 #UI设计 #生产力工具 getdesign.md — DESIGN.md collection for AI coding agents
  6. Agent Trace:为 AI 写的代码建立“可追溯”标准

    Agent Trace 是一个开放规范,用来记录代码中哪些部分来自 AI、哪些来自人类,并把相关的模型信息、对话链接等“出处”一并纳入版本控制工作流中。它强调厂商中立,让不同工具都能读写同一套归因数据。

    核心想解决什么

    • 随着 Agent/代码助手产出越来越多代码,团队需要更清楚地知道:哪些改动是 AI 生成、用的是什么模型、对应哪次对话/会话。
    • 这不是法律意义的“所有权”或“版权”判定,而是工程层面的来源记录可审计性

    主要目标

    互操作性:任何兼容工具都能写入/读取归因记录
    细粒度:支持到**文件级、行号范围(line range)**的归因
    可扩展:允许各家在不破坏兼容的情况下增加自定义元数据
    人和 Agent 都能读懂:尽量不依赖特定 UI 才能理解

    不做什么(边界很明确)

    • 不处理代码法律归属、版权问题
    • 不追踪训练数据来源
    • 不做质量评估(不判断 AI 代码“好或坏”)
    • 不绑定任何界面或产品形态

    规范长什么样(概念速览)

    Agent Trace 的基本单位是 Trace Record(JSON 记录),典型字段包括:

    version / id / timestamp:规范版本、记录 ID、时间戳
    vcs:版本控制信息(如 git commit SHA;也支持 jj/hg/svn)
    tool:生成该记录的工具及版本
    files:文件列表;每个文件下按 conversation 分组
    conversations.url:指向产生这段代码的对话链接
    ranges:该对话贡献的行号范围(可选 content_hash 用于跨移动追踪)
    metadata:自定义扩展字段(建议用反向域名避免冲突,如 dev.cursor

    实现与落地

    • 规范本身不规定 traces 存哪:可以是本地文件、git notes、数据库等。
    • 提供了一个参考实现(含存储层、hook 集成),示范如何在文件变更时自动捕获归因信息。

    链接:https://agent-trace.dev/
    #AI编程 #代码归因 #工程规范 #可追溯性 #开发工具 Agent Trace
  7. OpenClaw 正式亮相:把 AI 助手带到你常用的聊天软件里

    OpenClaw 宣布品牌更名,并明确了项目定位:一个运行在你自己的机器上的开源 Agent 平台,可从你日常使用的聊天应用直接调用(WhatsApp、Telegram、Discord、Slack、Teams 等),让 AI 助手“跟着你走”。

    为什么改名:从 Clawd / Moltbot 到 OpenClaw

    团队经历了多次命名迭代:

    Clawd:好记但涉及商标/法务问题,被建议更换
    Moltbot:寓意“蜕壳成长”,但不够顺口
    OpenClaw:已完成商标检索、域名与迁移准备,强调两点:
    Open:开源、开放、社区驱动
    Claw:延续“龙虾”项目起源与文化

    OpenClaw 是什么:你的助手,你的规则

    核心主张很直接:Your assistant. Your machine. Your rules.
    不同于把数据放在第三方服务器上的 SaaS 助手,OpenClaw 允许你把系统跑在本地电脑、家用服务器或 VPS 上:基础设施你掌控、密钥你掌控、数据也由你掌控

    本次发布更新亮点

    随更名一起上线的更新包括:

    新渠道:新增 Twitch、Google Chat 插件
    模型支持:新增 KIMI K2.5、Xiaomi MiMo-V2-Flash
    Web Chat:支持像聊天软件一样发送图片
    安全加固:累计 34 个与安全相关的提交,并发布可机器验证的安全模型;同时提醒 prompt injection 仍是行业难题,建议参考安全最佳实践

    接下来:安全优先 + 维护体系建设

    团队表示下一阶段会继续把安全作为最高优先级,同时提升网关稳定性、体验打磨,并扩展更多模型与提供商支持。由于项目增长迅猛,也在引入更多维护者并建立流程,鼓励社区参与贡献或赞助维护工作。

    原链接:https://openclaw.ai/blog/introducing-openclaw

    #开源 #AI代理 #隐私安全 #自托管 #聊天机器人 Introducing OpenClaw - OpenClaw Blog
  8. Clawdbot:运行在你自己电脑上的个人 AI 助手

    Clawdbot 主打“AI 真的能做事”:它不是一个被托管在平台里的聊天机器人,而是运行在你的 Mac/Windows/Linux 上,能连接常用通讯工具与各类服务,把对话变成可执行的任务流。

    它能做什么

    本地运行、隐私优先:在你的设备上工作,数据默认留在你手里;可接入 Anthropic / OpenAI,也支持本地模型。
    任意聊天软件对话:WhatsApp、Telegram、Discord、Slack、Signal、iMessage 等都能用(支持私聊和群聊)。
    持久记忆:能记住你的偏好与上下文,越用越“懂你”。
    浏览器自动化:可浏览网页、填表、抓取信息。
    系统级能力:读写文件、运行命令、执行脚本(可全权限或沙箱化)。
    技能/插件机制:用社区技能扩展,也可以让它帮你写自己的技能。
    集成丰富:官方列出 50+ 集成(如 Gmail、GitHub、Obsidian、Spotify、Hue 等)。

    快速上手(官方提供的一键方式)

    • 一键安装:curl -fsSL https://clawd.bot/install.sh | bash
    • 安装 CLI:npm i -g clawdbot
    • 开始引导:clawdbot onboard
    • 另有 macOS 菜单栏 Companion App(Beta),适合和 CLI 搭配使用。

    https://clawd.bot/

    #AI助手 #开源工具 #自动化 #个人效率 #智能体 OpenClaw — Personal AI Assistant
  9. Amp 宣布下线 Amp Tab:Tab 补全时代正在退场

    Amp 团队宣布将移除 Amp Tab(内联 Tab 补全功能),理由很直接:这不再符合他们看到的未来。

    他们的判断基于一个变化——AI 写代码的占比正在迅速上升:

    • 一年前,代码大多还是人手写
    • 2025 年 6 月发布 Amp Tab 时,Amp 已经在写大部分代码
    • 现在,Amp 负责了他们 90% 的交付代码

    Amp 认为,Tab 补全与传统补全引擎来自“人写为主、AI 辅助”的时代;但这个时代正在结束。越来越多用户的工作方式变成:几天不打开编辑器,也能持续交付代码。瓶颈不再是“写得快不快”,而是“把代码产出、落地得快不快”。

    因此,Amp 将把资源投入到“后补全时代”的方向:默认由智能体(agents)完成大部分编码工作,而不是在输入时做局部补全。

    时间安排:

    • Amp Tab 将继续可用至 2026 年 1 月底
    • 之后如果仍需要内联补全,可考虑:Cursor / GitHub Copilot / Zed

    原文链接:https://ampcode.com/news/tab-tab-dead

    #AI编程 #代码补全 #开发者工具 #智能体 #Amp Tab, Tab, Dead
  10. Repogrep:更快地在 GitHub 代码库里找答案

    Repogrep 是一款主打“超快速代码库搜索”的 AI 工具,可在任意公开的 GitHub 仓库中进行检索。你可以直接粘贴仓库链接,或通过关键词搜索,快速定位代码、项目与相关信息。

    适合的使用场景包括:

    • 初次接手项目时,快速摸清结构与关键模块
    • 排查问题时,跨仓库定位相同实现或调用链
    • 做技术调研时,对比不同项目的实现方式

    原链接:https://app.ami.dev/repogrep

    #代码搜索 #GitHub #开发工具 #AI助手
  11. Steel:为 AI Agent 打造的开源云端浏览器基础设施

    Steel 是一个开源的浏览器 API,用来在云端按需启动并控制“浏览器集群”,让 AI Agent、自动化脚本把能力真正带到网页上运行。

    它适合做什么?

    • 大规模网页抓取与数据采集(也支持更稳定的反爬配置)
    • 自主 Web Agent(下单、订票、填写表单等真实操作流程)
    • 模型训练数据采集、AI 购物助手、RPA/销售自动化、QA 测试、客服自动化

    核心能力概览

    • Sessions API:一行调用启动浏览器会话
    • 自动 CAPTCHA 处理:减少流程中断
    • 代理与指纹控制:降低被识别为机器人的概率
    • 快速启动:平均会话启动时间低于 1 秒(同区域更快)
    • 长会话:单个会话最长可跑 24 小时
    • 上下文复用:保存/注入 Cookies 与本地存储,续跑更顺畅
    • 低改动迁移:Puppeteer/Playwright/Selenium 通过少量改动即可上云
    • 可观测性:提供会话查看器,支持实时/录制回放调试
    • 安全登录:帮助自动化访问需要登录的站点

    价格与开源

    • 提供免费档起步(按浏览器小时/代理带宽/CAPTCHA 计量),也有从个人到企业的多档套餐
    • 项目开源,可本地运行或用 Docker 自托管(官方 GitHub 仓库提供)

    原链接:https://steel.dev/
    #浏览器自动化 #AI代理 #Web抓取 #开源工具 #云基础设施 Steel | Open-source Headless Browser API
  12. Ref:给你的 AI Agent 一份“刚刚好”的文档上下文

    做 AI 编程助手最怕两件事:胡编上下文膨胀。Ref 主打的就是把问题变简单——让你的 Agent 能随用随查公共/私有技术文档,只拿“够用且准确”的信息。

    它怎么做?
    Ref 通过 MCP(Model Context Protocol)把文档上下文接到你的 AI 工具里:既有持续更新的公共文档索引,也支持把你的私有资料(如 GitHub 仓库、PDF)纳入检索。

    给 Agent 的两个核心能力:

    search_documentation:面向技术文档的精确搜索,能定位到具体章节,支持公有与私有文档集。
    read_url:读取任意网页或 GitHub 文件内容(可含私有内容),适合顺藤摸瓜跟进链接。

    为什么不是“东拼西凑工具链”?
    你当然可以分别用:代码片段、搜索、爬取、私有代码检索、PDF 检索等工具组合;Ref 的定位是把这些需求尽量合并成一个更统一的入口,减少集成成本与上下文噪音。

    安全与企业能力(官方强调点):

    • SOC2 合规(并提供 Trust Center 与隐私安全说明)
    • 支持 SSO 与 MCP OAuth
    • 提供“主动提示注入防护”(对返回的上下文做注入扫描,仍在开发中)

    定价概览:

    • Free:200 credits(不刷新、不失效,官方估算约 10 周常规使用)
    • Basic:$9/月,1000 credits
    • Team:$9/月/席位,1000 credits/席位(团队共享私有文档索引与统一账单)
    • Enterprise:SSO、SOC2、优先支持、定制化等

    如果你在用 Claude/Cursor/Zed 等工具做工程开发,且经常需要“查最新文档 + 查公司内部资料”,这种“面向文档的上下文层”会比泛用搜索/爬虫更省 token,也更贴近代码场景。

    原链接:https://ref.tools/

    #MCP #开发者工具 #技术文档 #AI编程助手 #RAG Ref - Review every important decision
  13. Perplexity 职场 AI 指南:用 AI 重塑工作效率

    这是一份 44 页的官方指南,教你如何用 Perplexity 全家桶提升工作效率。核心理念是将 AI 融入工作的三个层次:

    🎯 屏蔽干扰
    现代职场平均每 11 分钟被打断一次。Perplexity 提供:
    Comet 浏览器:AI 助手 + 代理模式,帮你阅读、总结、执行任务
    邮件助手:自动分类邮件、智能回复、安排会议
    快捷指令和定时任务:把重复工作变成一键操作

    🚀 放大能力
    深度研究:一次分析数百个信息源,生成带引用的报告
    Labs 创作工坊:无需技术背景,直接生成演示文稿、仪表盘、营销素材
    Spaces 空间:保存你的研究上下文和品牌风格,确保输出一致性

    📈 产出成果
    • 绩效评估:自动分析工作数据,生成专业报告
    • 销售开发:批量研究潜在客户,生成个性化外联内容
    • 提案制作:快速产出定制化方案和 ROI 模型

    💡 提示词技巧
    别把 AI 当搜索引擎用。要说清楚目标、上下文和期望格式。比如:
    "找出过去 3 天所有需要回复的未读邮件,起草简短回复"

    比"帮我处理邮件"有效得多。

    🔗 原文链接

    #Perplexity #AI效率 #职场工具 #生产力 #AI助手
  14. 小米发布 MiMo-V2-Flash:高效推理模型开源

    小米于 2025 年 12 月 16 日发布并开源了 MiMo-V2-Flash,这是一款高效、超快的基础语言模型,在推理、编码和智能体场景表现尤为出色,同时也可作为日常任务的通用助手。

    核心亮点

    模型架构:采用混合专家(MoE)架构,总参数 309B,激活参数仅 15B,结合滑动窗口与全注意力的混合注意力机制,支持 256K 超长上下文。

    性能表现
    • AIME 2025、GPQA-Diamond 等推理测试中位列开源模型前二
    • SWE-bench Verified 达 73.4%,SWE-bench Multilingual 达 71.7%,软件工程能力领先所有开源模型
    • 推理速度达 150 tokens/秒,成本仅 $0.1/百万输入 token

    技术创新
    • 多 Token 预测(MTP):通过自推测解码实现 2.0-2.6 倍加速
    • MOPD 训练范式:多教师在线策略蒸馏,训练效率提升 50 倍以上

    开源资源:模型权重以 MIT 协议开放于 Hugging Face,推理代码已贡献至 SGLang,技术报告同步发布。

    原文链接

    #小米 #MiMo #开源模型 #大语言模型 #AI推理
  15. Coding Agents 与复杂度预算

    Lee Robinson(Cursor 工程师)分享了一次惊人的迁移经历:仅用 3 天时间$260 token 费用 和数百个 AI Agent,就把 cursor.com 从 CMS 迁回纯代码和 Markdown。

    为什么要抛弃 CMS?

    CMS 带来的隐性复杂度超乎想象:
    • 多系统用户管理
    • 预览变更的繁琐流程
    • 国际化翻译的插件地狱
    • CDN 费用暴涨(上线后花了 $56,848)
    • 代码库的依赖和抽象膨胀

    AI 时代的关键洞察

    抽象的代价从未如此之高。当内容变成代码后:
    • Agent 可以直接 grep 和编辑
    • PR 链接无需登录即可分享预览
    • 所有变更通过 git 追踪,Agent 能自主挖掘历史

    迁移成果

    • 344 次 Agent 请求
    • 67 次 commit(+43K / -322K 行代码)
    • 构建速度提升 2 倍
    • 节省数千美元 CDN 费用
    • 第二天就能在手机上通过 cloud agent 合并修复

    核心观点

    "过度抽象一直是代码异味,现在有了简单的解决方案:花 token 删除复杂度。" 编程 Agent 正在帮助团队尝试疯狂想法、清理深埋的技术债。

    🔗 原文链接

    #CodingAgent #AI编程 #技术债务 #Cursor #开发效率
  16. Claude Opus 4.5:AI Agent 时代的里程碑

    作者在使用 Claude Opus 4.5 两周后认为,这是 AI 发展史上的重要时刻,堪比 GPT-4 开启聊天时代、Sonnet 3.5 开启编程时代——Opus 4.5 正式开启了 Agent 时代.

    核心观点:

    可靠的 AI 助手:Opus 4.5 就像 Waymo 自动驾驶,告诉它"从 A 到 B",它就能自主完成. 这种体验会彻底改变你的工作方式.

    最佳组合:Opus 4.5 + Claude Agent SDK 是构建实用 Agent 的黄金搭档. 模型再好,没有优秀的框架也白搭. 这套组合让 Agent 真正能完成复杂的现实任务.

    Anthropic 的崛起:过去三年,Anthropic 年收入增长 10 倍(2025 年预计达 100 亿美元). 作者预测其估值可能在 2027 年初超越 OpenAI.

    实用建议:

    - 把 Opus 4.5 当作真正的同事,给它更复杂的任务,信任它独立完成
    - 用语音输入随意表达想法,让它整理成完整方案
    - Claude Code + Opus 4.5 是目前最强的 AI 编程工具,新的"计划模式"显著提升了复杂任务表现
    - 尝试编写伪代码,Opus 4.5 能精准理解意图并实现
    - 深入学习 Claude Agent SDK,用它构建自动化工具来处理日常重复任务

    Opus 4.5 的图像理解能力大幅提升,截图转代码功能达到全新水平. 作者强调:如果你对 Agent 持怀疑态度,现在该转变了——这一切都是真的.

    阅读原文

    #ClaudeOpus45 #AIAgent #Anthropic #AI编程 #自动化工具
  17. Hugging Face 推出新工具,让 Claude 帮你微调开源大模型

    Hugging Face 发布了一项名为 “Hugging Face Skills” 的新工具,它赋予了像 Claude 这样的 AI 编码助手直接微调语言模型的能力. 用户现在可以通过简单的自然语言指令,完成从配置到部署的全过程.

    用户只需发出指令,例如:
    Fine-tune Qwen3-0.6B on the dataset trl-lib/Capybara

    AI 助手便会自动处理后续所有步骤:
    - 验证数据集格式
    - 选择合适的硬件并预估成本
    - 提交任务并实时监控进度
    - 训练完成后将模型推送到 Hub

    该工具不仅支持监督微调(SFT)、直接偏好优化(DPO)等多种训练方法,还能将最终模型转换为 GGUF 格式,方便在本地运行.

    这使得模型微调不再是少数专家的专利,而是变成了一项通过对话即可完成的任务,极大地降低了技术门槛.

    阅读原文

    #AI #大语言模型 #HuggingFace #模型微调 #Claude We Got Claude to Fine-Tune an Open Source LLM
  18. PostHog AI: 开发 AI 智能体一年后总结的 8 个教训

    PostHog 团队在开发其内置 AI 智能体 PostHog AI 的一年中,积累了丰富的实践经验。从一个简单的聊天原型到一个能处理复杂分析任务的智能助手,他们总结了以下 8 个核心教训:

    1. 模型升级是推土机
    AI 模型的持续进步是开发中最强大的变量。曾经复杂的问题,如多步推理和工具调用,随着模型能力的提升而变得简单。密切关注模型发展至关重要.

    2. 循环智能体优于固定工作流
    相较于图表式的固定工作流,单一的循环智能体(Agent)更为灵活和强大。它能在执行任务中自我纠正,避免了工作流中常见的上下文丢失问题.

    3. 单一循环胜过子智能体架构
    复杂的子智能体架构听起来很智能,但在实践中容易因层层抽象而丢失关键信息,导致性能下降。一个简单、扁平的 LLM 循环反而能涌现出惊人的能力.

    4. “待办事项”是超能力
    让 LLM 在每一步操作后都使用一个简单的 `todo_write` 工具来规划下一步,这种看似简单的机制能有效帮助模型在复杂任务中保持专注和连贯性.

    5. 上下文是关键
    用户输入往往是模糊的,AI 需要广泛的背景知识才能准确理解. PostHog AI 通过 `/init` 命令自动学习项目信息,为智能体提供核心上下文,从而显著提升任务成功率.

    6. 展示每一步,建立信任
    透明度是建立用户信任的基石. 与其隐藏过程,不如将智能体的思考、工具调用甚至失败的尝试全部展示给用户. 这比一个完美的“黑箱”更能赢得信赖.

    7. 警惕 AI 框架的陷阱
    在 AI 技术飞速发展的今天,LangChain 等高级框架可能会过早地锁定技术选型. 在生态系统稳定之前,坚持使用更底层的库可能是更明智的选择.

    8. 评估(Evals)并非全部
    自动化评估很有价值,但无法替代对真实用户行为的分析. 通过观察实际使用中的 LLM 轨迹 (Traces),团队能发现评估中无法覆盖的、更深刻的问题.

    总而言之,构建高效的 AI 智能体需要拥抱变化、简化架构、重视上下文和透明度,并始终立足于真实的用户场景.

    原文链接: PostHog Blog

    #AI #Agent #LLM #工程实践 #PostHog 8 learnings from 1 year of agents – PostHog AI - PostHog
  19. 如何构建一个可靠的 AI Agent?

    随着 AI 的发展,构建能长期稳定运行且行为可靠的 Agent 已成为 AI 工程师的核心竞争力之一。借鉴 Anthropic、GitHub 和 Docker 的最新实践,我们可以遵循以下五个关键步骤来打造强大的 AI Agent。

    1. 从明确的规范开始
    当前多数 Agent 因指令模糊、状态和工作流管理不善而表现不佳。一份好的规范应明确其角色技术栈预期输出示例行为边界(如数据访问权限、API 速率限制等)。不要只依赖“你是一个有用的助手”,而是给 Agent 一份定义清晰的合同。

    2. 将工作分解为可验证的小任务
    与其给出一个模糊的大任务(例如“为我构建一个 X 的克隆”),不如将其分解为具体、可验证的步骤,如“计划 → 编码 → 测试 → 部署 → 监控”。为 Agent 提供清晰的任务列表和严格的工作流程,能有效避免因模糊性导致的失败。

    3. 在模型外部持久化状态
    为了让 Agent 能够处理长时间运行的任务并在会话中断后恢复,需要将其状态(如进度日志、任务清单、文件差异等)存储在外部文件或数据库中。这确保了 Agent 能够随时检索到完成任务所需的相关上下文。

    4. 避免过度填充上下文窗口
    将所有信息塞进系统提示会导致响应缓慢和高昂的 Token 成本。更高效的策略是让 Agent 生成代码来调用外部工具或 API,然后仅将结果返回给模型。这种方法能显著节省 Token,使 Agent 响应更快、成本更低。

    5. 在沙箱中运行高风险操作
    如果 Agent 需要执行代码,必须将其置于沙箱环境中,并严格限制其可用的工具文件系统访问权限。为 Agent 设置明确的“护栏”,可以有效降低应用和服务器面临的风险。

    总而言之,一个成功的 Agent 由三部分组成:行为(清晰的规范)、状态(外部持久化)和护栏(安全限制)。

    原文链接: https://interviewready.io/blog/how-to-build-an-ai-agent-lessons-from-anthrophic-github-and-docker

    #AIAgent #AI开发 #最佳实践 #工程化 How to Build an AI Agent: Lessons from Anthrophic, Github and Docker
  20. 如何编写出色的 agents.md 文件?
    GitHub 分析超 2500 个仓库的经验总结

    GitHub Copilot 新推出的自定义代理功能,允许你通过 agents.md 文件构建专属的 AI 专家团队,例如 @docs-agent (文档工程师) 或 @test-agent (测试工程师).

    然而,大多数代理文件因指令模糊而效果不佳。“你是一个有用的编程助手” 这类宽泛的描述是行不通的.

    GitHub 团队通过分析超过 2500 个 agents.md 文件,总结出了编写高效代理的关键要素:为 AI 提供具体的操作手册,而不是模糊的提示

    成功的 agents.md 文件都具备以下特点:

    1. 明确角色与专长
    清晰定义代理的身份,例如:“你是一名测试工程师,为 React 组件编写测试”.

    2. 提供可执行命令
    npm test, pytest -v 等具体命令放在前面,代理会频繁引用它们.

    3. 代码范例优于解释
    一个真实的代码片段比三段描述更能清晰地传达你的代码风格.

    4. 设定清晰的边界
    明确告知 AI 能做什么,例如:“绝不提交密钥”、“不要修改 src/ 目录下的源代码”.

    5. 详细说明技术栈
    使用 “React 18 with TypeScript, Vite, and Tailwind CSS”,而不是笼统的 “React project”.

    6. 覆盖六大核心领域
    命令、测试、项目结构、代码风格、Git 工作流和边界.

    如何开始?
    从一个简单的任务开始,比如编写单元测试或修复 lint 错误. 你可以让 Copilot 帮助生成初始的 agents.md 文件,然后在此基础上进行迭代优化.

    原文链接

    #GitHub #Copilot #AI #Agents #Developer How to write a great agents.md: Lessons from over 2,500 repositories
1px