无原创,纯转发
Open Responses:让 LLM 接口真正“可互通”的开放规范
Open Responses 是一个开源规范与生态,目标是基于 OpenAI Responses API 的理念,建立多模型提供方可互操作的统一接口层。它通过共享 Schema 和配套工具,让开发者能用同一种请求/输出结构,跨不同提供方调用模型、处理流式返回,并组合更复杂的 Agent 工作流。
为什么需要它?
现在各家 LLM API 的核心组件越来越相似(消息、工具调用、流式、多模态等),但细节编码方式不同,迁移与兼容成本高。Open Responses 希望把“共同部分”沉淀成稳定规范,减少重复适配。
它强调的设计方向:
• 默认多提供方:一套 Schema 映射多家模型/平台
• 更贴近真实 Agent 工作流:统一的流式事件、工具调用模式,以及以“items”作为输出与工具使用的原子单元
• 可扩展但不碎片化:核心稳定,同时允许在必要时容纳提供方特性
如何开始:
• 阅读规范,理解 items、流式事件、工具使用等核心概念
• 查看 OpenAPI 参考,掌握完整类型与接口面
• 用官方的验收测试验证你的 API 实现一致性
原链接:https://www.openresponses.org/
#LLM #开放规范 #多模型 #互操作 #API设计
Open Responses 是一个开源规范与生态,目标是基于 OpenAI Responses API 的理念,建立多模型提供方可互操作的统一接口层。它通过共享 Schema 和配套工具,让开发者能用同一种请求/输出结构,跨不同提供方调用模型、处理流式返回,并组合更复杂的 Agent 工作流。
为什么需要它?
现在各家 LLM API 的核心组件越来越相似(消息、工具调用、流式、多模态等),但细节编码方式不同,迁移与兼容成本高。Open Responses 希望把“共同部分”沉淀成稳定规范,减少重复适配。
它强调的设计方向:
• 默认多提供方:一套 Schema 映射多家模型/平台
• 更贴近真实 Agent 工作流:统一的流式事件、工具调用模式,以及以“items”作为输出与工具使用的原子单元
• 可扩展但不碎片化:核心稳定,同时允许在必要时容纳提供方特性
如何开始:
• 阅读规范,理解 items、流式事件、工具使用等核心概念
• 查看 OpenAPI 参考,掌握完整类型与接口面
• 用官方的验收测试验证你的 API 实现一致性
原链接:https://www.openresponses.org/
#LLM #开放规范 #多模型 #互操作 #API设计
Tool Search Tool:让大规模工具库“按需加载”
当你的系统里有上百甚至上千个工具时,把所有工具定义一次性塞进上下文,会带来两个典型问题:既浪费上下文窗口(50 个工具就可能吃掉 1–2 万 token),也会让模型在 30–50 个工具以上更容易选错工具。Tool Search Tool 的思路是:先只暴露“搜索工具的工具”,其余工具标记为延迟加载;模型需要时先搜索,再把最相关的少量工具定义加载进来使用。
核心机制(7 步)
• 请求里先放入工具搜索工具(Regex 或 BM25 版本)+ 少量常用非延迟工具
• 其余工具定义加上
• 模型需要更多工具时,先调用 tool search
• 服务端返回 3–5 个最相关的
• 这些引用会被自动展开成完整工具定义
• 模型再从“已发现”的工具里选择并调用
• 这样既省上下文,又保持工具选择准确率
两种搜索方式怎么选
• Regex 版(
• BM25 版(
两种方式都会搜索:工具名、描述、参数名、参数描述。
延迟加载的最佳实践
• 工具搜索工具本身不要设置
• 保留 3–5 个最常用工具为非延迟(提升命中与体验)
• 工具命名与描述尽量贴近用户常用说法(提升可检索性)
• 适合场景:工具 >10 个、工具定义 >10K token、工具选择准确率下降、MCP 多服务器(200+ 工具)等
• 不太适合:工具 <10 个且几乎每次都要用、工具定义非常短
响应与错误处理要点
• 响应里会出现
• 常见 400 错误:
• 全部工具都 deferred:至少要有 1 个非延迟工具
• 引用的工具缺少定义:
• 工具搜索执行期错误(仍返回 200):如
与 MCP、缓存、流式的配合
• 可与 MCP toolset 结合:用
• 支持 prompt caching:已发现的工具可在后续轮次复用,不必每次重新搜索
• 流式返回会把搜索调用与结果作为事件发出,便于前端展示“正在搜索/已找到工具”
原文链接:https://platform.claude.com/docs/en/agents-and-tools/tool-use/tool-search-tool
#工具调用 #Agent开发 #上下文优化 #MCP #API设计
当你的系统里有上百甚至上千个工具时,把所有工具定义一次性塞进上下文,会带来两个典型问题:既浪费上下文窗口(50 个工具就可能吃掉 1–2 万 token),也会让模型在 30–50 个工具以上更容易选错工具。Tool Search Tool 的思路是:先只暴露“搜索工具的工具”,其余工具标记为延迟加载;模型需要时先搜索,再把最相关的少量工具定义加载进来使用。
核心机制(7 步)
• 请求里先放入工具搜索工具(Regex 或 BM25 版本)+ 少量常用非延迟工具
• 其余工具定义加上
defer_loading: true(不立即进上下文)• 模型需要更多工具时,先调用 tool search
• 服务端返回 3–5 个最相关的
tool_reference• 这些引用会被自动展开成完整工具定义
• 模型再从“已发现”的工具里选择并调用
• 这样既省上下文,又保持工具选择准确率
两种搜索方式怎么选
• Regex 版(
tool_search_tool_regex_20251119):查询是 Python 正则,不是自然语言;适合你希望可控匹配(如 get_.*_data、(?i)slack)。限制:模式最长 200 字符。• BM25 版(
tool_search_tool_bm25_20251119):查询用自然语言;更适合“我想做什么”式的描述。两种方式都会搜索:工具名、描述、参数名、参数描述。
延迟加载的最佳实践
• 工具搜索工具本身不要设置
defer_loading: true• 保留 3–5 个最常用工具为非延迟(提升命中与体验)
• 工具命名与描述尽量贴近用户常用说法(提升可检索性)
• 适合场景:工具 >10 个、工具定义 >10K token、工具选择准确率下降、MCP 多服务器(200+ 工具)等
• 不太适合:工具 <10 个且几乎每次都要用、工具定义非常短
响应与错误处理要点
• 响应里会出现
server_tool_use(触发工具搜索)与 tool_search_tool_result(返回引用列表)• 常见 400 错误:
• 全部工具都 deferred:至少要有 1 个非延迟工具
• 引用的工具缺少定义:
tool_reference 指向的工具必须在顶层 tools 里有对应定义(并通常设为 deferred)• 工具搜索执行期错误(仍返回 200):如
invalid_pattern、pattern_too_long、too_many_requests、unavailable与 MCP、缓存、流式的配合
• 可与 MCP toolset 结合:用
default_config.defer_loading 控制 MCP 工具默认延迟加载,并可对特定工具覆盖• 支持 prompt caching:已发现的工具可在后续轮次复用,不必每次重新搜索
• 流式返回会把搜索调用与结果作为事件发出,便于前端展示“正在搜索/已找到工具”
原文链接:https://platform.claude.com/docs/en/agents-and-tools/tool-use/tool-search-tool
#工具调用 #Agent开发 #上下文优化 #MCP #API设计
代码变便宜了,但“软件”依旧很贵
AI 工具把“写代码”的门槛打穿了:越来越多人用 CLI/对话式方式,直接描述需求就能生成一个能跑的应用。结果不是 SaaS 的黄金时代,而是“个人软件”的兴起——为某个具体问题快速做一个小工具,用完就丢,像当年的电子表格一样当作临时工作台。
但别误会:代码的成本下降,不代表软件的成本下降。真正昂贵的是把东西做成能长期运行、能承受现实摩擦的系统:维护、边界情况、体验债、数据归属与同步、可靠性与扩展性。周末做出的 CRUD+API Demo 很好看,但银行 CSV 格式一变、网页 DOM 一改、离线与多端同步一上,脆弱性立刻暴露。
当“能写出来”不再稀缺,新的瓶颈转向两件事:
• 分发与注意力:噪音变大,“一下午做出月入五位数”的叙事很多是营销而非可复制路径。
• 判断力与系统能力:工程师的价值更偏向架构与取舍——知道该如何组织系统、何时做限流/缓存、哪些变量不能乱放、哪些复杂度必须正面处理。
谁会在这波变化中受益?有明确领域痛点的专业人士、需要快速解决内部流程的团队、想替换脆弱手工流程的重度用户,以及愿意为“可控与所有权”而不是“高光界面”买单的人。AI 很能加速,但仍需要像审 PR 一样严格复核:它能产出代码,却不负责让软件在现实中长期站住。
原文链接:https://www.chrisgregori.dev/opinion/code-is-cheap-now-software-isnt
#AI工具 #软件工程 #产品分发 #架构思维 #个人软件
AI 工具把“写代码”的门槛打穿了:越来越多人用 CLI/对话式方式,直接描述需求就能生成一个能跑的应用。结果不是 SaaS 的黄金时代,而是“个人软件”的兴起——为某个具体问题快速做一个小工具,用完就丢,像当年的电子表格一样当作临时工作台。
但别误会:代码的成本下降,不代表软件的成本下降。真正昂贵的是把东西做成能长期运行、能承受现实摩擦的系统:维护、边界情况、体验债、数据归属与同步、可靠性与扩展性。周末做出的 CRUD+API Demo 很好看,但银行 CSV 格式一变、网页 DOM 一改、离线与多端同步一上,脆弱性立刻暴露。
当“能写出来”不再稀缺,新的瓶颈转向两件事:
• 分发与注意力:噪音变大,“一下午做出月入五位数”的叙事很多是营销而非可复制路径。
• 判断力与系统能力:工程师的价值更偏向架构与取舍——知道该如何组织系统、何时做限流/缓存、哪些变量不能乱放、哪些复杂度必须正面处理。
谁会在这波变化中受益?有明确领域痛点的专业人士、需要快速解决内部流程的团队、想替换脆弱手工流程的重度用户,以及愿意为“可控与所有权”而不是“高光界面”买单的人。AI 很能加速,但仍需要像审 PR 一样严格复核:它能产出代码,却不负责让软件在现实中长期站住。
原文链接:https://www.chrisgregori.dev/opinion/code-is-cheap-now-software-isnt
#AI工具 #软件工程 #产品分发 #架构思维 #个人软件
Claude Opus 4.5:让“能做”突然变得很容易
作者分享了一个明显的转折:三个月前他还不相信“AI 代理能替代开发者”,但在体验 Claude Opus 4.5 后,他开始认为这件事正在发生——至少在相当一部分软件开发场景里。
他用几个真实项目说明差异不在“会写代码”,而在于一次成功率、能自我迭代、能把复杂系统拼起来:
• Windows 右键图片格式转换工具:从文件资源管理器菜单到打包、安装/卸载脚本、发布网站、GitHub Actions 自动发布,整体接近“一次成型”。遇到报错会自己用
• 录屏与简单剪辑工具:从类似 LICEcap 的录制开始,持续加到视频/图片编辑、裁剪、模糊、标注等功能,作者感叹“几小时就推进到很远”。
• AI 发帖工具(给小生意用):iOS 端批量上传照片→AI 生成文案→定时发到 Facebook。后端涉及认证、存储、云函数、日志排错等一堆“胶水活”,但模型能通过 CLI 自己创建资源、查日志并修问题,还顺手做了管理后台。
• 订单与路线追踪:解析 Gmail 订单、规划路线、统计行驶时间(用于税务),作者强调:这种“手写很痛苦”的 Google/Firebase 集成,Opus 4.5 反而很顺。
文章也没有回避争议点:
作者承认自己并不完全理解这些应用“内部怎么搭起来的”(比如 Swift 不熟),但他的焦虑在减轻——因为当问题出现时,模型往往能定位并修复自己的 bug。于是他提出一个更激进的想法:代码也许不必主要面向人类可读,而是面向 LLM 可推理、可重写、可调试。
他甚至分享了一份自用的“AI-first 编码”提示词要点(概念层面):
• 追求可预测、可调试、低耦合、入口清晰、控制流线性
• 少炫技抽象,减少层级与间接性
• 该删就删;重构也要分高/中/低优先级
• 安全需要更谨慎:API key、登录流程、敏感数据存储等不能盲信
结尾的态度是复杂的:既兴奋于“几小时能做出过去要几周/月的东西”,也沮丧于技能壁垒被压平。但他给出的建议很朴素:别等“都懂了”再开始,继续做东西,只是更快了;同时一定盯紧安全与密钥。
原文链接:https://burkeholland.github.io/posts/opus-4-5-change-everything/
#AI编程 #开发者工具 #Claude #软件工程 #生产力
作者分享了一个明显的转折:三个月前他还不相信“AI 代理能替代开发者”,但在体验 Claude Opus 4.5 后,他开始认为这件事正在发生——至少在相当一部分软件开发场景里。
他用几个真实项目说明差异不在“会写代码”,而在于一次成功率、能自我迭代、能把复杂系统拼起来:
• Windows 右键图片格式转换工具:从文件资源管理器菜单到打包、安装/卸载脚本、发布网站、GitHub Actions 自动发布,整体接近“一次成型”。遇到报错会自己用
dotnet 构建、读错误、再修复。• 录屏与简单剪辑工具:从类似 LICEcap 的录制开始,持续加到视频/图片编辑、裁剪、模糊、标注等功能,作者感叹“几小时就推进到很远”。
• AI 发帖工具(给小生意用):iOS 端批量上传照片→AI 生成文案→定时发到 Facebook。后端涉及认证、存储、云函数、日志排错等一堆“胶水活”,但模型能通过 CLI 自己创建资源、查日志并修问题,还顺手做了管理后台。
• 订单与路线追踪:解析 Gmail 订单、规划路线、统计行驶时间(用于税务),作者强调:这种“手写很痛苦”的 Google/Firebase 集成,Opus 4.5 反而很顺。
文章也没有回避争议点:
作者承认自己并不完全理解这些应用“内部怎么搭起来的”(比如 Swift 不熟),但他的焦虑在减轻——因为当问题出现时,模型往往能定位并修复自己的 bug。于是他提出一个更激进的想法:代码也许不必主要面向人类可读,而是面向 LLM 可推理、可重写、可调试。
他甚至分享了一份自用的“AI-first 编码”提示词要点(概念层面):
• 追求可预测、可调试、低耦合、入口清晰、控制流线性
• 少炫技抽象,减少层级与间接性
• 该删就删;重构也要分高/中/低优先级
• 安全需要更谨慎:API key、登录流程、敏感数据存储等不能盲信
结尾的态度是复杂的:既兴奋于“几小时能做出过去要几周/月的东西”,也沮丧于技能壁垒被压平。但他给出的建议很朴素:别等“都懂了”再开始,继续做东西,只是更快了;同时一定盯紧安全与密钥。
原文链接:https://burkeholland.github.io/posts/opus-4-5-change-everything/
#AI编程 #开发者工具 #Claude #软件工程 #生产力
Agent-native 应用:把“功能”变成“结果”
这篇文章提出一种新范式:与其把产品能力写成一堆固定功能,不如构建一个能反复调用工具、直到达成目标的“软件代理(agent)”。核心在于:让代理拥有与用户同等的操作能力(UI 能做的,代理也能通过工具做到),并把工具设计成足够原子化的“积木”。这样,新功能往往不再是写代码,而是写一段描述结果的提示词;同时,用户提出的意外需求会推动系统“涌现”出新用法,并反过来指导你补齐工具与能力缺口。
五个核心原则
• 对等(Parity):任何 UI 动作,代理都应能通过工具实现同样的结果;否则代理会卡死。
• 粒度(Granularity):工具是原子能力;“功能”是代理在循环中用工具达成的结果。改行为优先改提示词,而不是重构代码。
• 可组合(Composability):有了原子工具 + 对等能力,就能通过新提示词快速拼出新“功能”(开发者/用户都能做)。
• 涌现能力(Emergent capability):用户会提你没设计过的需求;代理若能组合工具完成,就是新机会;若失败,则暴露工具缺口。
• 持续变好(Improvement over time):通过沉淀上下文(context 文件)与迭代提示词,应用可在不发版的情况下持续变强。
落地方法(把原则变成工程实践)
• 先做“能力地图”:列出用户能做的事,逐项确认代理具备创建/读取/更新/删除(CRUD)能力,避免“能新建不能修改/删除”的断腿体验。
• 先原语、后领域工具:先用文件、bash、读写等基础工具跑通;再为高频模式加领域工具,用于效率、校验、术语锚定,但不要把“判断”写进工具里。
• 文件作为通用接口:文件天然可读、可审计、可迁移,代理也最擅长操作;内容放文件、结构化高频数据放数据库(或混合:文件作可读真相,DB 做索引与性能)。
• 明确完成信号:不要靠“看起来差不多了”判断结束;让工具/编排层返回明确的
• 透明的代理行为:工具调用、进度、状态变化要让 UI 可见;“沉默的代理”会让用户觉得坏了。
• 把“授权”做成产品能力:根据风险与可逆性决定自动执行还是强确认;尤其是发送邮件、发布内容等高风险动作。
对移动端的启示
• 移动应用容易被后台杀死,代理任务却可能很长:需要checkpoint/恢复机制,尽可能在每次工具结果后存档。
• iCloud 之类的文件同步能让多设备共享“同一工作区”,但要处理冲突与未下载文件等边界。
原链接:https://every.to/guides/agent-native
#AgentNative #软件代理 #AI产品 #工具调用 #产品架构
这篇文章提出一种新范式:与其把产品能力写成一堆固定功能,不如构建一个能反复调用工具、直到达成目标的“软件代理(agent)”。核心在于:让代理拥有与用户同等的操作能力(UI 能做的,代理也能通过工具做到),并把工具设计成足够原子化的“积木”。这样,新功能往往不再是写代码,而是写一段描述结果的提示词;同时,用户提出的意外需求会推动系统“涌现”出新用法,并反过来指导你补齐工具与能力缺口。
五个核心原则
• 对等(Parity):任何 UI 动作,代理都应能通过工具实现同样的结果;否则代理会卡死。
• 粒度(Granularity):工具是原子能力;“功能”是代理在循环中用工具达成的结果。改行为优先改提示词,而不是重构代码。
• 可组合(Composability):有了原子工具 + 对等能力,就能通过新提示词快速拼出新“功能”(开发者/用户都能做)。
• 涌现能力(Emergent capability):用户会提你没设计过的需求;代理若能组合工具完成,就是新机会;若失败,则暴露工具缺口。
• 持续变好(Improvement over time):通过沉淀上下文(context 文件)与迭代提示词,应用可在不发版的情况下持续变强。
落地方法(把原则变成工程实践)
• 先做“能力地图”:列出用户能做的事,逐项确认代理具备创建/读取/更新/删除(CRUD)能力,避免“能新建不能修改/删除”的断腿体验。
• 先原语、后领域工具:先用文件、bash、读写等基础工具跑通;再为高频模式加领域工具,用于效率、校验、术语锚定,但不要把“判断”写进工具里。
• 文件作为通用接口:文件天然可读、可审计、可迁移,代理也最擅长操作;内容放文件、结构化高频数据放数据库(或混合:文件作可读真相,DB 做索引与性能)。
• 明确完成信号:不要靠“看起来差不多了”判断结束;让工具/编排层返回明确的
complete 信号,避免无限循环或半成品。• 透明的代理行为:工具调用、进度、状态变化要让 UI 可见;“沉默的代理”会让用户觉得坏了。
• 把“授权”做成产品能力:根据风险与可逆性决定自动执行还是强确认;尤其是发送邮件、发布内容等高风险动作。
对移动端的启示
• 移动应用容易被后台杀死,代理任务却可能很长:需要checkpoint/恢复机制,尽可能在每次工具结果后存档。
• iCloud 之类的文件同步能让多设备共享“同一工作区”,但要处理冲突与未下载文件等边界。
原链接:https://every.to/guides/agent-native
#AgentNative #软件代理 #AI产品 #工具调用 #产品架构
dotagents:用一个
你能用它做什么
• 以
• 一键创建软链接,适配多工具(Claude / Codex / Factory)
• 从本地路径、Git URL、HTTPS URL 安装 skills;并支持从 marketplace 安装 plugins
• 可随时重复运行,用于补装、修复链接或更新能力集
快速开始(要求:Bun 1.3+)
•
• 或
链接关系示例
•
•
•
https://github.com/iannuttall/dotagents
#AI工具 #开发效率 #CLI #Claude #Codex
.agents 目录统一管理各类 AI 工具配置dotagents 是一个 CLI/TUI 工具,把项目或全局的 .agents 目录作为“唯一真相源”,自动为不同 AI 工具创建软链接,并支持安装技能(skills)和插件(plugins),方便在多环境之间保持一致配置、可重复执行、易维护。你能用它做什么
• 以
.agents 为中心统一管理:hooks、commands、skills,以及 AGENTS/CLAUDE.md 等说明文件• 一键创建软链接,适配多工具(Claude / Codex / Factory)
• 从本地路径、Git URL、HTTPS URL 安装 skills;并支持从 marketplace 安装 plugins
• 可随时重复运行,用于补装、修复链接或更新能力集
快速开始(要求:Bun 1.3+)
•
npx @iannuttall/dotagents• 或
bunx @iannuttall/dotagents链接关系示例
•
.agents/AGENTS.md → ~/.claude/CLAUDE.md•
.agents/commands → ~/.claude/commands / ~/.factory/commands / ~/.codex/prompts•
.agents/hooks、.agents/skills 同步到对应工具目录https://github.com/iannuttall/dotagents
#AI工具 #开发效率 #CLI #Claude #Codex
Steel:为 AI Agent 打造的开源云端浏览器基础设施
Steel 是一个开源的浏览器 API,用来在云端按需启动并控制“浏览器集群”,让 AI Agent、自动化脚本把能力真正带到网页上运行。
它适合做什么?
• 大规模网页抓取与数据采集(也支持更稳定的反爬配置)
• 自主 Web Agent(下单、订票、填写表单等真实操作流程)
• 模型训练数据采集、AI 购物助手、RPA/销售自动化、QA 测试、客服自动化
核心能力概览
• Sessions API:一行调用启动浏览器会话
• 自动 CAPTCHA 处理:减少流程中断
• 代理与指纹控制:降低被识别为机器人的概率
• 快速启动:平均会话启动时间低于 1 秒(同区域更快)
• 长会话:单个会话最长可跑 24 小时
• 上下文复用:保存/注入 Cookies 与本地存储,续跑更顺畅
• 低改动迁移:Puppeteer/Playwright/Selenium 通过少量改动即可上云
• 可观测性:提供会话查看器,支持实时/录制回放调试
• 安全登录:帮助自动化访问需要登录的站点
价格与开源
• 提供免费档起步(按浏览器小时/代理带宽/CAPTCHA 计量),也有从个人到企业的多档套餐
• 项目开源,可本地运行或用 Docker 自托管(官方 GitHub 仓库提供)
原链接:https://steel.dev/
#浏览器自动化 #AI代理 #Web抓取 #开源工具 #云基础设施
Steel 是一个开源的浏览器 API,用来在云端按需启动并控制“浏览器集群”,让 AI Agent、自动化脚本把能力真正带到网页上运行。
它适合做什么?
• 大规模网页抓取与数据采集(也支持更稳定的反爬配置)
• 自主 Web Agent(下单、订票、填写表单等真实操作流程)
• 模型训练数据采集、AI 购物助手、RPA/销售自动化、QA 测试、客服自动化
核心能力概览
• Sessions API:一行调用启动浏览器会话
• 自动 CAPTCHA 处理:减少流程中断
• 代理与指纹控制:降低被识别为机器人的概率
• 快速启动:平均会话启动时间低于 1 秒(同区域更快)
• 长会话:单个会话最长可跑 24 小时
• 上下文复用:保存/注入 Cookies 与本地存储,续跑更顺畅
• 低改动迁移:Puppeteer/Playwright/Selenium 通过少量改动即可上云
• 可观测性:提供会话查看器,支持实时/录制回放调试
• 安全登录:帮助自动化访问需要登录的站点
价格与开源
• 提供免费档起步(按浏览器小时/代理带宽/CAPTCHA 计量),也有从个人到企业的多档套餐
• 项目开源,可本地运行或用 Docker 自托管(官方 GitHub 仓库提供)
原链接:https://steel.dev/
#浏览器自动化 #AI代理 #Web抓取 #开源工具 #云基础设施
用好编码代理:Claude Code 2.0 的关键功能与“上下文工程”心法
这篇长文把 Claude Code 2.0 当成一个“能动手的工作台”来拆解:不仅讲新功能,更强调如何用更好的流程与上下文管理,让代理稳定产出。
1) 先换个视角:你不是“追上更新”,而是“借力变强”
作者给了一个更实用的框架:
• 跟进工具:定期用、定期看更新(不必天天追)。
• 深耕领域:懂业务/系统设计/工程习惯,才能把“未知”变成“可提问、可验证”。
• 多玩多试:用不同模型做同一件事,快速建立直觉与边界。
2) Claude Code 2.0 值得关注的体验升级
一些偏“日常效率”的改动,叠加起来很实用:
• 语法高亮 + 更舒服的评审体验(作者因此更愿意在 CLI 里完成 review)
•
• Checkpointing(
• Prompt suggestions / 历史搜索(
• 更快的模糊文件搜索、队列导航、LSP 插件 等
3) Sub-agents(子代理)怎么用才不浪费
作者重点讲了“子代理不是魔法,是上下文与工具调用策略”:
• Explore:偏“只读搜索专家”,适合快速扫代码库、定位文件与线索。
• general-purpose / plan:更像“全能协作者”,通常会继承更多上下文。
• 关键提醒:不要只依赖 Explore 的摘要。摘要是“有损压缩”,重要文件最好让主代理再读一遍,让信息彼此“交叉注意力”,推理更稳。
4) 核心概念:Context Engineering(上下文工程)
代理之所以“烧 tokens”,不是它话多,而是:
• 工具调用本身 + 工具返回结果都会进入上下文;
• 上下文越长,检索与注意力越容易退化(作者称为 context rot / degradation)。
因此,上下文工程的目标是:
• 把最相关的信息放进来
• 控制“噪音”和重复指令
• 用清晰结构(计划、scratchpad、handoff)对抗跑偏
5) Hooks / Skills / MCP:把“提示词”产品化
作者把这三者放在一起看:
• Hooks:在对话生命周期某个节点自动触发脚本(比如 Stop 后自动提醒/继续下一步)。
• Skills:把领域指令与脚本做成“按需加载”的技能包,避免常驻系统提示导致上下文膨胀。
• MCP:连接外部工具/服务,但要注意“工具定义与中间结果”同样会吃上下文与成本;文中也提到用代码执行环境来降低这种膨胀的思路。
6) 一个很实战的工作流建议
作者的默认搭配大意是:
• Claude(Opus 4.5)偏执行与沟通:更像结对编程伙伴、反馈快。
• Codex 偏 review/找 bug:更克制、误报少,适合做“第二视角审查”。
• 面对难功能:先跑一个“可丢弃的草稿版本”,用它暴露模型的偏差,再用更精准的提示第二轮迭代。
原文链接:https://sankalp.bearblog.dev/my-experience-with-claude-code-20-and-how-to-get-better-at-using-coding-agents/
#ClaudeCode #编码代理 #上下文工程 #AI工具 #软件工程
这篇长文把 Claude Code 2.0 当成一个“能动手的工作台”来拆解:不仅讲新功能,更强调如何用更好的流程与上下文管理,让代理稳定产出。
1) 先换个视角:你不是“追上更新”,而是“借力变强”
作者给了一个更实用的框架:
• 跟进工具:定期用、定期看更新(不必天天追)。
• 深耕领域:懂业务/系统设计/工程习惯,才能把“未知”变成“可提问、可验证”。
• 多玩多试:用不同模型做同一件事,快速建立直觉与边界。
2) Claude Code 2.0 值得关注的体验升级
一些偏“日常效率”的改动,叠加起来很实用:
• 语法高亮 + 更舒服的评审体验(作者因此更愿意在 CLI 里完成 review)
•
/context 看上下文占用(建议复杂任务到 60% 左右就交接或压缩)• Checkpointing(
Esc+Esc / /rewind):能回到某个检查点,回滚代码与对话• Prompt suggestions / 历史搜索(
Ctrl + R):减少重复输入• 更快的模糊文件搜索、队列导航、LSP 插件 等
3) Sub-agents(子代理)怎么用才不浪费
作者重点讲了“子代理不是魔法,是上下文与工具调用策略”:
• Explore:偏“只读搜索专家”,适合快速扫代码库、定位文件与线索。
• general-purpose / plan:更像“全能协作者”,通常会继承更多上下文。
• 关键提醒:不要只依赖 Explore 的摘要。摘要是“有损压缩”,重要文件最好让主代理再读一遍,让信息彼此“交叉注意力”,推理更稳。
4) 核心概念:Context Engineering(上下文工程)
代理之所以“烧 tokens”,不是它话多,而是:
• 工具调用本身 + 工具返回结果都会进入上下文;
• 上下文越长,检索与注意力越容易退化(作者称为 context rot / degradation)。
因此,上下文工程的目标是:
• 把最相关的信息放进来
• 控制“噪音”和重复指令
• 用清晰结构(计划、scratchpad、handoff)对抗跑偏
5) Hooks / Skills / MCP:把“提示词”产品化
作者把这三者放在一起看:
• Hooks:在对话生命周期某个节点自动触发脚本(比如 Stop 后自动提醒/继续下一步)。
• Skills:把领域指令与脚本做成“按需加载”的技能包,避免常驻系统提示导致上下文膨胀。
• MCP:连接外部工具/服务,但要注意“工具定义与中间结果”同样会吃上下文与成本;文中也提到用代码执行环境来降低这种膨胀的思路。
6) 一个很实战的工作流建议
作者的默认搭配大意是:
• Claude(Opus 4.5)偏执行与沟通:更像结对编程伙伴、反馈快。
• Codex 偏 review/找 bug:更克制、误报少,适合做“第二视角审查”。
• 面对难功能:先跑一个“可丢弃的草稿版本”,用它暴露模型的偏差,再用更精准的提示第二轮迭代。
原文链接:https://sankalp.bearblog.dev/my-experience-with-claude-code-20-and-how-to-get-better-at-using-coding-agents/
#ClaudeCode #编码代理 #上下文工程 #AI工具 #软件工程
Ref:给你的 AI Agent 一份“刚刚好”的文档上下文
做 AI 编程助手最怕两件事:胡编和上下文膨胀。Ref 主打的就是把问题变简单——让你的 Agent 能随用随查公共/私有技术文档,只拿“够用且准确”的信息。
它怎么做?
Ref 通过 MCP(Model Context Protocol)把文档上下文接到你的 AI 工具里:既有持续更新的公共文档索引,也支持把你的私有资料(如 GitHub 仓库、PDF)纳入检索。
给 Agent 的两个核心能力:
•
•
为什么不是“东拼西凑工具链”?
你当然可以分别用:代码片段、搜索、爬取、私有代码检索、PDF 检索等工具组合;Ref 的定位是把这些需求尽量合并成一个更统一的入口,减少集成成本与上下文噪音。
安全与企业能力(官方强调点):
• SOC2 合规(并提供 Trust Center 与隐私安全说明)
• 支持 SSO 与 MCP OAuth
• 提供“主动提示注入防护”(对返回的上下文做注入扫描,仍在开发中)
定价概览:
• Free:200 credits(不刷新、不失效,官方估算约 10 周常规使用)
• Basic:$9/月,1000 credits
• Team:$9/月/席位,1000 credits/席位(团队共享私有文档索引与统一账单)
• Enterprise:SSO、SOC2、优先支持、定制化等
如果你在用 Claude/Cursor/Zed 等工具做工程开发,且经常需要“查最新文档 + 查公司内部资料”,这种“面向文档的上下文层”会比泛用搜索/爬虫更省 token,也更贴近代码场景。
原链接:https://ref.tools/
#MCP #开发者工具 #技术文档 #AI编程助手 #RAG
做 AI 编程助手最怕两件事:胡编和上下文膨胀。Ref 主打的就是把问题变简单——让你的 Agent 能随用随查公共/私有技术文档,只拿“够用且准确”的信息。
它怎么做?
Ref 通过 MCP(Model Context Protocol)把文档上下文接到你的 AI 工具里:既有持续更新的公共文档索引,也支持把你的私有资料(如 GitHub 仓库、PDF)纳入检索。
给 Agent 的两个核心能力:
•
search_documentation:面向技术文档的精确搜索,能定位到具体章节,支持公有与私有文档集。•
read_url:读取任意网页或 GitHub 文件内容(可含私有内容),适合顺藤摸瓜跟进链接。为什么不是“东拼西凑工具链”?
你当然可以分别用:代码片段、搜索、爬取、私有代码检索、PDF 检索等工具组合;Ref 的定位是把这些需求尽量合并成一个更统一的入口,减少集成成本与上下文噪音。
安全与企业能力(官方强调点):
• SOC2 合规(并提供 Trust Center 与隐私安全说明)
• 支持 SSO 与 MCP OAuth
• 提供“主动提示注入防护”(对返回的上下文做注入扫描,仍在开发中)
定价概览:
• Free:200 credits(不刷新、不失效,官方估算约 10 周常规使用)
• Basic:$9/月,1000 credits
• Team:$9/月/席位,1000 credits/席位(团队共享私有文档索引与统一账单)
• Enterprise:SSO、SOC2、优先支持、定制化等
如果你在用 Claude/Cursor/Zed 等工具做工程开发,且经常需要“查最新文档 + 查公司内部资料”,这种“面向文档的上下文层”会比泛用搜索/爬虫更省 token,也更贴近代码场景。
原链接:https://ref.tools/
#MCP #开发者工具 #技术文档 #AI编程助手 #RAG
2025 年 AI 编程现状:效率在涨,工具与模型在分化
Greptile 发布的《The State of AI Coding 2025》梳理了 AI 编程在 2025 年的关键趋势:工程产出显著提升,开发工具生态快速扩张,而不同大模型在“响应速度、吞吐、成本”上的取舍越来越清晰。
1) 工程效率:PR 更大,个人产出更高
• PR 规模变大:2025 年 3 月到 11 月,PR 的中位改动行数从 57 增至 76,约 +33%。
• 开发者产出上升:人均代码产出从 4,450 增至 7,839 行,约 +76%,AI 工具被视为“产能放大器”。
• 中型团队提升更明显:6–15 人团队的人均产出从 7,005 增至 13,227 行,约 +89%。
• 单文件改动更密:每个文件的改动行数中位数从 18 增至 22,约 +20%,说明 PR 不只变大,也更“集中”。
2) 工具采用:从“能用”到“形成标准层”
• 记忆/Memory 基建:
• 向量数据库:没有绝对赢家;Weaviate 约 25%,其余多家在 10–25% 之间拉锯。
• AI 规则文件:
• AI SDK 增长:Anthropic SDK 以 43M 下载领先(约 8 倍增长);Pydantic AI 增长 3.7× 到 6M。
• LLMOps:LiteLLM 月下载量增长 4× 至 41M(LangSmith 与 LangChain 安装存在绑定关系)。
3) 模型格局:生态差距在收敛
• SDK 下载量:OpenAI 约 130M 领先;Anthropic 自 2023 年 4 月起增长 1,547×;Google 约 13.6M。
• 差距缩小:OpenAI 与 Anthropic 的下载量比从 2024 年 1 月的 47:1,降至 2025 年 11 月的 4.2:1。
4) 作为“编程 Agent 后端”,模型各有侧重
报告用统一参数对多模型做了延迟、吞吐、成本等基准:
• 首 token 响应(TTFT):Claude Sonnet/Opus(p50 < 2.5s)明显更快,更利于交互式编程保持“心流”。
• 生成吞吐:GPT-5 Codex / GPT-5.1 吞吐更高,长输出更快结束,利于并行跑更多 Agent/CI。
• 成本倍率(以 GPT-5 Codex = 1× 归一):GPT-5 Codex ≈ GPT-5.1(1×);Gemini 3 Pro(1.4×);Sonnet 4.5(2×);Opus 4.5(3.3×)。
结论很直接:选型不再是“谁最强”,而是你更在意 响应速度、吞吐效率,还是预算。
5) 研究方向:规模、上下文与 Agent 的“系统工程”
报告还汇总了 2025 年影响工具与应用的一批研究线索,包括:
• MoE 的效率设计(如 DeepSeek-V3:关注 KV cache、路由与训练信号密度)。
• 长上下文 vs RAG 的边界(不同数据结构下各有优势;以及 KV 级检索等新思路)。
• Agent 训练与检索策略(用 RL 学会“何时搜索”、如何管理长程记忆、如何降低噪声上下文干扰等)。
原文链接:https://www.greptile.com/state-of-ai-coding-2025
#AI编程 #开发效率 #LLM工具链 #模型评测 #软件工程趋势
Greptile 发布的《The State of AI Coding 2025》梳理了 AI 编程在 2025 年的关键趋势:工程产出显著提升,开发工具生态快速扩张,而不同大模型在“响应速度、吞吐、成本”上的取舍越来越清晰。
1) 工程效率:PR 更大,个人产出更高
• PR 规模变大:2025 年 3 月到 11 月,PR 的中位改动行数从 57 增至 76,约 +33%。
• 开发者产出上升:人均代码产出从 4,450 增至 7,839 行,约 +76%,AI 工具被视为“产能放大器”。
• 中型团队提升更明显:6–15 人团队的人均产出从 7,005 增至 13,227 行,约 +89%。
• 单文件改动更密:每个文件的改动行数中位数从 18 增至 22,约 +20%,说明 PR 不只变大,也更“集中”。
2) 工具采用:从“能用”到“形成标准层”
• 记忆/Memory 基建:
mem0 以 59% 份额领跑(按 PyPI + npm 月下载量口径)。• 向量数据库:没有绝对赢家;Weaviate 约 25%,其余多家在 10–25% 之间拉锯。
• AI 规则文件:
CLAUDE.md 使用率 67%;不少团队多格式并存,且 17% 的仓库三种格式都用。• AI SDK 增长:Anthropic SDK 以 43M 下载领先(约 8 倍增长);Pydantic AI 增长 3.7× 到 6M。
• LLMOps:LiteLLM 月下载量增长 4× 至 41M(LangSmith 与 LangChain 安装存在绑定关系)。
3) 模型格局:生态差距在收敛
• SDK 下载量:OpenAI 约 130M 领先;Anthropic 自 2023 年 4 月起增长 1,547×;Google 约 13.6M。
• 差距缩小:OpenAI 与 Anthropic 的下载量比从 2024 年 1 月的 47:1,降至 2025 年 11 月的 4.2:1。
4) 作为“编程 Agent 后端”,模型各有侧重
报告用统一参数对多模型做了延迟、吞吐、成本等基准:
• 首 token 响应(TTFT):Claude Sonnet/Opus(p50 < 2.5s)明显更快,更利于交互式编程保持“心流”。
• 生成吞吐:GPT-5 Codex / GPT-5.1 吞吐更高,长输出更快结束,利于并行跑更多 Agent/CI。
• 成本倍率(以 GPT-5 Codex = 1× 归一):GPT-5 Codex ≈ GPT-5.1(1×);Gemini 3 Pro(1.4×);Sonnet 4.5(2×);Opus 4.5(3.3×)。
结论很直接:选型不再是“谁最强”,而是你更在意 响应速度、吞吐效率,还是预算。
5) 研究方向:规模、上下文与 Agent 的“系统工程”
报告还汇总了 2025 年影响工具与应用的一批研究线索,包括:
• MoE 的效率设计(如 DeepSeek-V3:关注 KV cache、路由与训练信号密度)。
• 长上下文 vs RAG 的边界(不同数据结构下各有优势;以及 KV 级检索等新思路)。
• Agent 训练与检索策略(用 RL 学会“何时搜索”、如何管理长程记忆、如何降低噪声上下文干扰等)。
原文链接:https://www.greptile.com/state-of-ai-coding-2025
#AI编程 #开发效率 #LLM工具链 #模型评测 #软件工程趋势
AntV Infographic:面向 AI 时代的声明式信息图引擎
AntV Infographic 是一个“声明式”的信息图生成与渲染框架(npm:
它解决什么问题
• 用更接近“写文档”的方式描述信息图:通过简洁语法定义标题、描述、数据项、布局与主题
• 适配 AI 生成:语法容错、配置完整,并支持流式输出与分段渲染,适合大模型逐步生成内容
• 从 0 到 1 更快:内置约 200+ 模板与组件(时间线、思维导图、流程、金字塔等)
核心能力
• 声明式渲染:用配置描述信息图结构与样式,而不是手工拖拽绘制
• AI 一键生成:AI 理解文本→抽取关键信息→生成配置→渲染成专业信息图
• 主题与风格:一键切换暗色等风格,也支持自定义主题体系
• 在线 Playground:浏览器内编辑语法、实时预览,配套示例便于上手
快速上手入口
• 学习与文档:
• AI 生成入口:
• 示例库:
• GitHub:
原链接:https://infographic.antv.vision/
#信息图 #数据可视化 #AntV #前端工程 #AIGC
AntV Infographic 是一个“声明式”的信息图生成与渲染框架(npm:
@antv/infographic),目标是把文字和结构化内容快速变成可视化信息图,降低制作门槛、提升表达效率。它解决什么问题
• 用更接近“写文档”的方式描述信息图:通过简洁语法定义标题、描述、数据项、布局与主题
• 适配 AI 生成:语法容错、配置完整,并支持流式输出与分段渲染,适合大模型逐步生成内容
• 从 0 到 1 更快:内置约 200+ 模板与组件(时间线、思维导图、流程、金字塔等)
核心能力
• 声明式渲染:用配置描述信息图结构与样式,而不是手工拖拽绘制
• AI 一键生成:AI 理解文本→抽取关键信息→生成配置→渲染成专业信息图
• 主题与风格:一键切换暗色等风格,也支持自定义主题体系
• 在线 Playground:浏览器内编辑语法、实时预览,配套示例便于上手
快速上手入口
• 学习与文档:
/learn• AI 生成入口:
/ai• 示例库:
/examples• GitHub:
antvis/infographic原链接:https://infographic.antv.vision/
#信息图 #数据可视化 #AntV #前端工程 #AIGC
AI SDK 6:从“调用模型”到“构建可复用智能体”
Vercel 发布 AI SDK 6,把 TypeScript AI 应用的开发重心从函数式调用(
这次更新最值得关注的点
• Agents / ToolLoopAgent:用
• 工具执行审批(Human-in-the-loop):工具支持
• 工具能力增强:
• Strict Mode 可按工具粒度开启,避免某个工具 schema 不兼容导致整次请求失败。
• Input Examples 用“正确示例”提升模型生成工具入参的稳定性。
•
• MCP(Model Context Protocol)更完整且稳定:新增/完善 OAuth 认证、Resources、Prompts、Elicitation,并在
• 工具调用 + 结构化输出:
• DevTools 可观测性:通过中间件记录并可视化每一步的输入输出、工具调用、token 消耗、耗时与原始请求/响应,解决多步 agent 调试“黑盒”问题。
• Reranking(重排序):新增
• 标准 JSON Schema 生态:支持实现 Standard JSON Schema 接口的任意 schema 库,降低与特定校验库的绑定成本。
• 图像编辑:
• 更细的返回原因与用量统计:新增
• LangChain 适配器重写:更贴合现代 LangChain/LangGraph,支持流式事件转换、工具调用部分输入流等能力。
• 更多 Provider Tools:围绕 Anthropic/OpenAI/Google/xAI 等提供平台特性工具(如代码执行、文件搜索、Web/X 搜索、MCP 工具等)。
升级提示
从 v5 升级到 v6,可先跑官方 codemod:
原文链接:https://vercel.com/blog/ai-sdk-6
#Vercel #AISDK #Agent #MCP #TypeScript
Vercel 发布 AI SDK 6,把 TypeScript AI 应用的开发重心从函数式调用(
generateText/streamText)进一步推进到可复用、可维护、可观测的 **Agent(智能体)**体系,并补齐了安全审批、MCP 全能力支持、调试工具等关键环节。这次更新最值得关注的点
• Agents / ToolLoopAgent:用
Agent 抽象把 模型、指令、工具 固化成可复用单元;ToolLoopAgent 提供“模型调用 → 工具执行 → 回填结果 → 继续推理”的生产级循环(默认最多 20 步),同一套定义可在 UI、API、后台任务复用。• 工具执行审批(Human-in-the-loop):工具支持
needsApproval,可按输入内容动态决定是否需要人工确认,适合删除文件、支付、修改生产数据等高风险操作。• 工具能力增强:
• Strict Mode 可按工具粒度开启,避免某个工具 schema 不兼容导致整次请求失败。
• Input Examples 用“正确示例”提升模型生成工具入参的稳定性。
•
toModelOutput 将“应用拿到的完整结果”和“发回模型的 token 内容”分离,减少大文本/二进制(截图、图片)带来的上下文浪费。• MCP(Model Context Protocol)更完整且稳定:新增/完善 OAuth 认证、Resources、Prompts、Elicitation,并在
@ai-sdk/mcp 中以稳定形态提供,便于对接远程 MCP 服务与第一方数据源。• 工具调用 + 结构化输出:
generateText 与 generateObject 能力统一,支持在多步工具链路后直接生成最终结构化结果(通过 Output.* 声明输出形态)。• DevTools 可观测性:通过中间件记录并可视化每一步的输入输出、工具调用、token 消耗、耗时与原始请求/响应,解决多步 agent 调试“黑盒”问题。
• Reranking(重排序):新增
rerank,把检索结果按相关性排序,只喂最相关上下文给模型(当前支持 Cohere、Amazon Bedrock、Together.ai)。• 标准 JSON Schema 生态:支持实现 Standard JSON Schema 接口的任意 schema 库,降低与特定校验库的绑定成本。
• 图像编辑:
generateImage 支持带参考图的编辑(如修补/扩展/风格迁移等),不再只限于文生图。• 更细的返回原因与用量统计:新增
rawFinishReason,并扩展 usage 的输入/输出细分,方便成本优化与兼容不同供应商行为。• LangChain 适配器重写:更贴合现代 LangChain/LangGraph,支持流式事件转换、工具调用部分输入流等能力。
• 更多 Provider Tools:围绕 Anthropic/OpenAI/Google/xAI 等提供平台特性工具(如代码执行、文件搜索、Web/X 搜索、MCP 工具等)。
升级提示
从 v5 升级到 v6,可先跑官方 codemod:
npx @ai-sdk/codemod v6(文中也提供迁移指南链接)。原文链接:https://vercel.com/blog/ai-sdk-6
#Vercel #AISDK #Agent #MCP #TypeScript
用 Payload CMS + Vercel AI SDK 搭建“可运营”的 AI 应用
把 AI 做到生产可用,更多是架构问题:提示词不该写死在代码里,长任务要能可靠重试,Embedding 要能查询,输出要结构化可校验,更关键的是——要能看见系统到底“说了什么、做了什么”。
这篇文章分享了 InnoPeak 在 FinSureTech 场景下的一套实践组合:用 Payload CMS 做“可视化、可配置的 AI 后端”,用 Vercel AI SDK 做“结构化生成与工具调用的运行层”,形成一条从配置、执行到观测的闭环。
1) 用 Payload 管理 Prompt 与模型选择(不发版也能调)
• 把系统/用户提示词做成模板(如 Handlebars),集中放在 Payload 的
• 模型 ID 用受控下拉选项管理,避免随意输入造成线上不可控
• 非开发同事也能在后台安全修改提示词与模型策略,应用逻辑保持稳定
2) 在后台“可视化”JSON Schema,提升结构化输出可靠性
做结构化输出(JSON schema)时,最大的成本在测试与迭代。作者的做法是:
• 在 Payload Admin 里直接渲染/展示 schema
• 让开发者一键复制到测试对话或本地 LLM 环境验证
这样能更快发现:字段缺失、类型不匹配、约束不被遵守等问题。
3) 用 Payload Jobs Queue 跑长任务:重试、编排、定时都省了
AI 工作流常有“慢”和“不稳定”:Embedding 生成、文档扫描、分段处理、失败重试……在 serverless 环境尤其麻烦。Payload 的 Jobs Queue 提供:
• 任务与工作流编排
• 重试与调度
• 可用 Vercel CRON 或其他调度器触发
把“队列基础设施”从应用里剥离出来,专注业务流程。
4) Embedding 直接存进 Payload 的 Postgres(pgvector),再用 Drizzle 查
Payload 本身不内建向量字段与索引,但可以用 schema hooks 扩展:
•
•
随后即可在 API route / server action / task 里做相似度检索与排序,实现 RAG 的“数据库内闭环”。
5) 记录 Token 与完整消息:成本可控、行为可追溯
为了线上可观测性,作者在 Payload 里建了
• 输入/输出/总 token(含缓存、推理 token 等)
• 与模型交互的完整 messages(包含 tool calls)
并通过 Vercel AI SDK 的
结论很明确:AI 应用要“能跑、能改、能查、能追踪”,需要的不只是模型能力,更是把配置、数据与运行时纳入同一套可运营系统。
原文链接:https://finly.ch/engineering-blog/916926-building-ai-native-applications-with-payload-cms-and-the-vercel-ai-sdk
#PayloadCMS #VercelAISDK #AInative #RAG #可观测性
把 AI 做到生产可用,更多是架构问题:提示词不该写死在代码里,长任务要能可靠重试,Embedding 要能查询,输出要结构化可校验,更关键的是——要能看见系统到底“说了什么、做了什么”。
这篇文章分享了 InnoPeak 在 FinSureTech 场景下的一套实践组合:用 Payload CMS 做“可视化、可配置的 AI 后端”,用 Vercel AI SDK 做“结构化生成与工具调用的运行层”,形成一条从配置、执行到观测的闭环。
1) 用 Payload 管理 Prompt 与模型选择(不发版也能调)
• 把系统/用户提示词做成模板(如 Handlebars),集中放在 Payload 的
globals 里• 模型 ID 用受控下拉选项管理,避免随意输入造成线上不可控
• 非开发同事也能在后台安全修改提示词与模型策略,应用逻辑保持稳定
2) 在后台“可视化”JSON Schema,提升结构化输出可靠性
做结构化输出(JSON schema)时,最大的成本在测试与迭代。作者的做法是:
• 在 Payload Admin 里直接渲染/展示 schema
• 让开发者一键复制到测试对话或本地 LLM 环境验证
这样能更快发现:字段缺失、类型不匹配、约束不被遵守等问题。
3) 用 Payload Jobs Queue 跑长任务:重试、编排、定时都省了
AI 工作流常有“慢”和“不稳定”:Embedding 生成、文档扫描、分段处理、失败重试……在 serverless 环境尤其麻烦。Payload 的 Jobs Queue 提供:
• 任务与工作流编排
• 重试与调度
• 可用 Vercel CRON 或其他调度器触发
把“队列基础设施”从应用里剥离出来,专注业务流程。
4) Embedding 直接存进 Payload 的 Postgres(pgvector),再用 Drizzle 查
Payload 本身不内建向量字段与索引,但可以用 schema hooks 扩展:
•
beforeSchemaInit 增加 vector 列,让生成的 Drizzle schema 也包含它(全类型化)•
afterSchemaInit 创建 HNSW 向量索引、以及 GIN 文本索引(便于混合检索)随后即可在 API route / server action / task 里做相似度检索与排序,实现 RAG 的“数据库内闭环”。
5) 记录 Token 与完整消息:成本可控、行为可追溯
为了线上可观测性,作者在 Payload 里建了
TokenUsage 集合,保存:• 输入/输出/总 token(含缓存、推理 token 等)
• 与模型交互的完整 messages(包含 tool calls)
并通过 Vercel AI SDK 的
onFinish 钩子自动落库。好处是:复盘提示词与输出、定位异常、优化成本都有依据。结论很明确:AI 应用要“能跑、能改、能查、能追踪”,需要的不只是模型能力,更是把配置、数据与运行时纳入同一套可运营系统。
原文链接:https://finly.ch/engineering-blog/916926-building-ai-native-applications-with-payload-cms-and-the-vercel-ai-sdk
#PayloadCMS #VercelAISDK #AInative #RAG #可观测性
一份配置,多端通用:MCP Config 转换器
它解决什么问题
• 只维护一份 MCP Server 定义(支持远程 HTTP / 本地 stdio)
• 按目标客户端输出对应格式:
• 适配 30+ 客户端格式,减少迁移与同步成本
怎么用(概念流程)
• 将仓库的
• 使用
• 用
支持范围(示例)
• JSON 类:Claude Desktop、Cursor、Windsurf、VS Code/Copilot、JetBrains、Zed、Warp、Perplexity Desktop 等
• CLI 类:Claude Code、Amp、OpenAI Codex CLI 等
适合谁
• 同时在多个 IDE/客户端里用 MCP 的开发者与团队
• 想把“配置维护”从手工劳动变成可复用工具链的人
原链接:https://github.com/iannuttall/mcp-config
#MCP #配置管理 #开发工具 #TypeScript #效率提升
mcp-config 是一个参考实现:把“同一份 MCP Server 配置”一键转换成不同应用所需的配置文件或命令,避免在 Claude Desktop、Cursor、VS Code 等多处重复手工改配置。它解决什么问题
• 只维护一份 MCP Server 定义(支持远程 HTTP / 本地 stdio)
• 按目标客户端输出对应格式:
JSON / CLI / TOML• 适配 30+ 客户端格式,减少迁移与同步成本
怎么用(概念流程)
• 将仓库的
src/ 复制到你的项目中• 使用
getClients() 查看支持的客户端• 用
transformConfig({ server, client }) 生成目标客户端需要的配置字符串(例如 Cursor 的 JSON,或 Claude Code 的添加命令)支持范围(示例)
• JSON 类:Claude Desktop、Cursor、Windsurf、VS Code/Copilot、JetBrains、Zed、Warp、Perplexity Desktop 等
• CLI 类:Claude Code、Amp、OpenAI Codex CLI 等
适合谁
• 同时在多个 IDE/客户端里用 MCP 的开发者与团队
• 想把“配置维护”从手工劳动变成可复用工具链的人
原链接:https://github.com/iannuttall/mcp-config
#MCP #配置管理 #开发工具 #TypeScript #效率提升
MiniMax M2.1 发布:面向真实复杂任务的多语言编程升级
MiniMax 发布新一代文本模型 MiniMax M2.1,目标从“可用、低成本”进一步走向“能解决真实世界的复杂任务”,重点补齐多语言工程协作与办公场景执行力。
这次重点提升了什么?
• 多语言编程能力系统增强:覆盖 Rust / Java / Go / C++ / Kotlin / Objective‑C / TypeScript / JavaScript 等,更贴近真实项目的多语言栈协作。
• Web & App 开发更强、更好看:强化原生 Android / iOS 开发,同时提升设计理解与审美表达,支持复杂交互、3D 场景模拟与高质量可视化。
• 更适合办公场景的“复合指令”执行:在多约束条件下做端到端任务推进,更强调“按要求完成”而不是只写对代码。
• 更简洁、更高效的输出:相较 M2,响应更精炼、速度更快、token 消耗更低,适配持续式 AI Coding / Agent 工作流。
• 更强的 Agent / 工具泛化:官方称在多种编码工具与 Agent 框架中表现稳定,并兼容常见的上下文管理约定。
• 对话与写作质量同步提升:不仅是“更会写代码”,也更擅长技术文档与日常写作的结构化表达。
基准与展示
• 在多项软件工程评测上相对 M2 有明显提升,并强调多语言场景竞争力;同时引入 VIBE(含 Web/Simulation/Android/iOS/Backend)评测体系,用更接近真实运行环境的方式验证“能跑、能交付”。
如何使用
• API:已上线 MiniMax Open Platform
• 产品:基于 M2.1 的 MiniMax Agent 已开放
• 开源:模型权重提供本地部署,推荐 SGLang / vLLM 等推理框架
原文链接:https://www.minimax.io/news/minimax-m21
#MiniMax #开源大模型 #AI编程 #多语言开发 #Agent工作流
MiniMax 发布新一代文本模型 MiniMax M2.1,目标从“可用、低成本”进一步走向“能解决真实世界的复杂任务”,重点补齐多语言工程协作与办公场景执行力。
这次重点提升了什么?
• 多语言编程能力系统增强:覆盖 Rust / Java / Go / C++ / Kotlin / Objective‑C / TypeScript / JavaScript 等,更贴近真实项目的多语言栈协作。
• Web & App 开发更强、更好看:强化原生 Android / iOS 开发,同时提升设计理解与审美表达,支持复杂交互、3D 场景模拟与高质量可视化。
• 更适合办公场景的“复合指令”执行:在多约束条件下做端到端任务推进,更强调“按要求完成”而不是只写对代码。
• 更简洁、更高效的输出:相较 M2,响应更精炼、速度更快、token 消耗更低,适配持续式 AI Coding / Agent 工作流。
• 更强的 Agent / 工具泛化:官方称在多种编码工具与 Agent 框架中表现稳定,并兼容常见的上下文管理约定。
• 对话与写作质量同步提升:不仅是“更会写代码”,也更擅长技术文档与日常写作的结构化表达。
基准与展示
• 在多项软件工程评测上相对 M2 有明显提升,并强调多语言场景竞争力;同时引入 VIBE(含 Web/Simulation/Android/iOS/Backend)评测体系,用更接近真实运行环境的方式验证“能跑、能交付”。
如何使用
• API:已上线 MiniMax Open Platform
• 产品:基于 M2.1 的 MiniMax Agent 已开放
• 开源:模型权重提供本地部署,推荐 SGLang / vLLM 等推理框架
原文链接:https://www.minimax.io/news/minimax-m21
#MiniMax #开源大模型 #AI编程 #多语言开发 #Agent工作流
GLM-4.7:把“能写代码”推进到“能当搭档”
Z.ai 发布 GLM-4.7,主打更强的工程落地能力:不仅写得对,还更擅长在真实工作流里(Agent、终端、工具调用)稳定推进任务。
这次重点提升了什么?
• 核心编码与代理式开发:相较 GLM-4.6,在多语言 Agent 编程与终端任务上有明显提升;例如 SWE-bench Verified 73.8%(+5.8)、SWE-bench Multilingual 66.7%(+12.9)、Terminal Bench 2.0 41.0%(+16.5)。并强调在 Claude Code、Cline、Roo Code 等主流框架中更“好用”。
• Vibe Coding / UI 生成质量:更容易产出更现代、更干净的网页;做幻灯片时布局与尺寸更准确,整体观感更接近可直接交付的作品。
• 工具使用能力:工具调用与浏览任务的表现增强(文中提到 τ²-Bench、BrowseComp 等基准),更适合“边查边做”的复杂流程。
• 复杂推理与数学:推理能力提升,HLE(Humanity’s Last Exam)42.8%(+12.4,带工具),面向高难问题的稳健性更强。
一个很实用的新变化:更可控的“思考”机制
• Interleaved Thinking:在回复/调用工具前先思考,提高指令遵循与产出质量。
• Preserved Thinking:在多轮编码代理场景中保留推理块,减少长任务里的信息丢失与前后不一致。
• Turn-level Thinking:按回合开关推理:简单问题更省时,复杂任务更稳。
如何开始使用
• 在线体验:Z.ai Chat 里选择 GLM-4.7
• API:Z.ai 文档提供接入指南(也支持通过 OpenRouter 使用)
• 本地部署:权重已在 HuggingFace / ModelScope 提供,并支持 vLLM、SGLang 等推理框架
• 编码代理:可在 Claude Code、Cline、Roo Code、Kilo Code 等工具中使用(订阅用户可按文中指引升级模型名为
原文链接:https://z.ai/blog/glm-4.7
#GLM47 #AI编程 #Agent #工具调用 #推理能力
Z.ai 发布 GLM-4.7,主打更强的工程落地能力:不仅写得对,还更擅长在真实工作流里(Agent、终端、工具调用)稳定推进任务。
这次重点提升了什么?
• 核心编码与代理式开发:相较 GLM-4.6,在多语言 Agent 编程与终端任务上有明显提升;例如 SWE-bench Verified 73.8%(+5.8)、SWE-bench Multilingual 66.7%(+12.9)、Terminal Bench 2.0 41.0%(+16.5)。并强调在 Claude Code、Cline、Roo Code 等主流框架中更“好用”。
• Vibe Coding / UI 生成质量:更容易产出更现代、更干净的网页;做幻灯片时布局与尺寸更准确,整体观感更接近可直接交付的作品。
• 工具使用能力:工具调用与浏览任务的表现增强(文中提到 τ²-Bench、BrowseComp 等基准),更适合“边查边做”的复杂流程。
• 复杂推理与数学:推理能力提升,HLE(Humanity’s Last Exam)42.8%(+12.4,带工具),面向高难问题的稳健性更强。
一个很实用的新变化:更可控的“思考”机制
• Interleaved Thinking:在回复/调用工具前先思考,提高指令遵循与产出质量。
• Preserved Thinking:在多轮编码代理场景中保留推理块,减少长任务里的信息丢失与前后不一致。
• Turn-level Thinking:按回合开关推理:简单问题更省时,复杂任务更稳。
如何开始使用
• 在线体验:Z.ai Chat 里选择 GLM-4.7
• API:Z.ai 文档提供接入指南(也支持通过 OpenRouter 使用)
• 本地部署:权重已在 HuggingFace / ModelScope 提供,并支持 vLLM、SGLang 等推理框架
• 编码代理:可在 Claude Code、Cline、Roo Code、Kilo Code 等工具中使用(订阅用户可按文中指引升级模型名为
glm-4.7)原文链接:https://z.ai/blog/glm-4.7
#GLM47 #AI编程 #Agent #工具调用 #推理能力
Bloom:自动化生成“行为评估”的开源框架
前沿模型的对齐研究离不开高质量的行为评估,但传统评估往往开发周期长、容易“过时”(被训练数据污染或被能力提升绕过)。Anthropic 发布了 Bloom:一个开源的“代理式”评估生成框架,用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。
Bloom 的核心思路是:研究者只需定义要测的行为(并可提供少量示例与配置),Bloom 就能自动生成大量情境并运行对话,最后给出该行为在不同模型上的出现频率与严重程度。官方结果显示,Bloom 的评分与人工标注有较强一致性,也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。
Bloom 怎么做评估(四阶段流水线)
• 理解(Understanding):分析研究者的行为描述与示例,明确“要测什么、为什么测”。
• 构思(Ideation):自动生成一批用于诱发目标行为的评估场景(含系统提示、用户设定、环境等)。
• 执行(Rollout):并行跑场景,对话中还会模拟用户与工具响应,以更真实地触发目标行为。
• 判定(Judgment):评审模型为每段对话打分,并输出套件级总结指标(如诱发率、平均行为强度)。
与固定题库不同,Bloom 每次运行可生成不同场景,但通过“seed 配置”保持可复现;研究者还能调节模型选择、对话长度、是否使用工具、场景多样性,以及增加如“真实感”“诱发难度”等副指标。
已发布的基准与一个案例
Anthropic 同时发布了对 16 个模型的基准结果,覆盖四类对齐相关行为:
• 迎合性妄想(delusional sycophancy)
• 受指令驱动的长程破坏(instructed long-horizon sabotage)
• 自我保存(self-preservation)
• 自我偏好偏差(self-preferential bias)
在“自我偏好偏差”案例中,Bloom 复现了系统卡里的模型排序,并进一步发现:在某些模型上,提高推理强度会降低偏差(更多体现为识别利益冲突后拒绝自评)。
开源地址与技术细节见原文与报告:
https://www.anthropic.com/research/bloom
#AI安全 #对齐研究 #模型评估 #开源工具 #大模型
前沿模型的对齐研究离不开高质量的行为评估,但传统评估往往开发周期长、容易“过时”(被训练数据污染或被能力提升绕过)。Anthropic 发布了 Bloom:一个开源的“代理式”评估生成框架,用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。
Bloom 的核心思路是:研究者只需定义要测的行为(并可提供少量示例与配置),Bloom 就能自动生成大量情境并运行对话,最后给出该行为在不同模型上的出现频率与严重程度。官方结果显示,Bloom 的评分与人工标注有较强一致性,也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。
Bloom 怎么做评估(四阶段流水线)
• 理解(Understanding):分析研究者的行为描述与示例,明确“要测什么、为什么测”。
• 构思(Ideation):自动生成一批用于诱发目标行为的评估场景(含系统提示、用户设定、环境等)。
• 执行(Rollout):并行跑场景,对话中还会模拟用户与工具响应,以更真实地触发目标行为。
• 判定(Judgment):评审模型为每段对话打分,并输出套件级总结指标(如诱发率、平均行为强度)。
与固定题库不同,Bloom 每次运行可生成不同场景,但通过“seed 配置”保持可复现;研究者还能调节模型选择、对话长度、是否使用工具、场景多样性,以及增加如“真实感”“诱发难度”等副指标。
已发布的基准与一个案例
Anthropic 同时发布了对 16 个模型的基准结果,覆盖四类对齐相关行为:
• 迎合性妄想(delusional sycophancy)
• 受指令驱动的长程破坏(instructed long-horizon sabotage)
• 自我保存(self-preservation)
• 自我偏好偏差(self-preferential bias)
在“自我偏好偏差”案例中,Bloom 复现了系统卡里的模型排序,并进一步发现:在某些模型上,提高推理强度会降低偏差(更多体现为识别利益冲突后拒绝自评)。
开源地址与技术细节见原文与报告:
https://www.anthropic.com/research/bloom
#AI安全 #对齐研究 #模型评估 #开源工具 #大模型
用 OpenRouter 接入 Claude Code:更稳、更可控的开发体验
在 Claude Code 里把请求走 OpenRouter,本质上是给 Anthropic API 加一层“可靠性与管理”中间层。需要注意:官方只保证与 Anthropic 第一方(1P)提供商完全兼容;为了最佳兼容性,建议将 Anthropic 1P 设为最高优先级。
为什么要这样接入?
• 自动故障切换(高可用):遇到 Anthropic API 宕机或限流时,OpenRouter 可在多个 Anthropic 提供商间自动切换,减少编码被打断的概率。
• 团队预算管理:集中设置额度、分配成员用量、避免成本失控。
• 用量可视化:在 OpenRouter 的 Activity Dashboard 里实时查看消耗、项目/成员用量等。
快速上手(核心步骤)
1)安装 Claude Code
• macOS / Linux / WSL:
•
• Windows PowerShell:
•
2)把 Claude Code 指到 OpenRouter
关键点只有三个:
1. Base URL 用:
2. Auth token 用你的 OpenRouter API Key
3. 必须把
把下面环境变量写进你的 shell 配置(例如
•
•
•
•
补充提醒:
• 不要放在项目级
• 若之前用 Anthropic 账号登录过 Claude Code,先在会话里执行
3)启动并验证
• 进入项目目录运行:
• 在 Claude Code 内用
•
•
• 也可去 OpenRouter Activity Dashboard 看请求是否实时出现。
进阶:Agent SDK 与 GitHub Action
• Anthropic Agent SDK(Python / TypeScript):由于它以 Claude Code 为运行时,同样使用上述环境变量即可接入 OpenRouter。
• Claude Code GitHub Action:在 action step 里
•
• 环境变量加
成本跟踪 Statusline(可选)
可以给 Claude Code 加自定义 statusline,实时显示 provider、模型、累计成本、缓存折扣等信息;脚本来自 openrouter-examples 仓库,并通过
常见排错
• 认证报错:确认
• 上下文长度错误:拆分任务或新开会话。
• 隐私:OpenRouter 默认不记录你的源码 prompts,除非你在账号设置里明确选择开启日志。
原链接:https://openrouter.ai/docs/guides/guides/claude-code-integration
#ClaudeCode #OpenRouter #Anthropic #开发工具 #成本管理
在 Claude Code 里把请求走 OpenRouter,本质上是给 Anthropic API 加一层“可靠性与管理”中间层。需要注意:官方只保证与 Anthropic 第一方(1P)提供商完全兼容;为了最佳兼容性,建议将 Anthropic 1P 设为最高优先级。
为什么要这样接入?
• 自动故障切换(高可用):遇到 Anthropic API 宕机或限流时,OpenRouter 可在多个 Anthropic 提供商间自动切换,减少编码被打断的概率。
• 团队预算管理:集中设置额度、分配成员用量、避免成本失控。
• 用量可视化:在 OpenRouter 的 Activity Dashboard 里实时查看消耗、项目/成员用量等。
快速上手(核心步骤)
1)安装 Claude Code
• macOS / Linux / WSL:
•
curl -fsSL https://claude.ai/install.sh | bash• Windows PowerShell:
•
irm https://claude.ai/install.ps1 | iex2)把 Claude Code 指到 OpenRouter
关键点只有三个:
1. Base URL 用:
https://openrouter.ai/api2. Auth token 用你的 OpenRouter API Key
3. 必须把
ANTHROPIC_API_KEY 显式设为空字符串(避免与默认 Anthropic 登录冲突)把下面环境变量写进你的 shell 配置(例如
~/.zshrc / ~/.bashrc):•
export OPENROUTER_API_KEY="<your-openrouter-api-key>"•
export ANTHROPIC_BASE_URL="https://openrouter.ai/api"•
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"•
export ANTHROPIC_API_KEY=""补充提醒:
• 不要放在项目级
.env 里:Claude Code 原生安装器不会读常见 .env。• 若之前用 Anthropic 账号登录过 Claude Code,先在会话里执行
/logout 清掉缓存凭据。3)启动并验证
• 进入项目目录运行:
claude• 在 Claude Code 内用
/status 查看是否生效,应该能看到:•
Auth token: ANTHROPIC_AUTH_TOKEN•
Anthropic base URL: https://openrouter.ai/api• 也可去 OpenRouter Activity Dashboard 看请求是否实时出现。
进阶:Agent SDK 与 GitHub Action
• Anthropic Agent SDK(Python / TypeScript):由于它以 Claude Code 为运行时,同样使用上述环境变量即可接入 OpenRouter。
• Claude Code GitHub Action:在 action step 里
•
anthropic_api_key 传入 secrets.OPENROUTER_API_KEY• 环境变量加
ANTHROPIC_BASE_URL: https://openrouter.ai/api成本跟踪 Statusline(可选)
可以给 Claude Code 加自定义 statusline,实时显示 provider、模型、累计成本、缓存折扣等信息;脚本来自 openrouter-examples 仓库,并通过
~/.claude/settings.json 配置 statusLine.command 启用。常见排错
• 认证报错:确认
ANTHROPIC_API_KEY 是 ""(空字符串),而不是未设置;否则 Claude Code 可能回退到默认 Anthropic 认证流程。• 上下文长度错误:拆分任务或新开会话。
• 隐私:OpenRouter 默认不记录你的源码 prompts,除非你在账号设置里明确选择开启日志。
原链接:https://openrouter.ai/docs/guides/guides/claude-code-integration
#ClaudeCode #OpenRouter #Anthropic #开发工具 #成本管理
Agent Skills:给 AI Agent “装上技能包”
Agent Skills 是一种开放格式:把一套可复用的指令、脚本与资源打包成「技能」,让智能体在需要时按需加载,从而更准确、更高效地完成真实工作。
为什么需要它?
• 智能体能力越来越强,但常缺少上下文与流程知识;技能把这些程序化经验与团队/组织知识变成可携带、可版本管理的包
• 对作者:一次构建,多处部署,跨多种智能体产品复用
• 对企业与团队:把组织最佳实践沉淀为可审计、可迭代的工作流
它能带来什么?
• 领域专长:把法律审阅、数据分析等专业流程封装成可复用指南
• 新能力扩展:例如自动做演示文稿、搭建 MCP Server、分析数据集等
• 可重复的工作流:多步骤任务标准化,稳定且可追踪
• 互操作性:同一技能可在不同“支持技能”的工具/产品间通用
生态与开放性
该格式最初由 Anthropic 提出并以开放标准发布,已被多种 AI 开发工具与产品支持,并在 GitHub 上开放协作。
上手入口
• 了解技能是什么、格式规范、如何集成、示例技能与参考库(校验与生成 prompt XML)
原链接:https://agentskills.io/home
#AI代理 #开放标准 #工作流 #知识沉淀 #开发者工具
Agent Skills 是一种开放格式:把一套可复用的指令、脚本与资源打包成「技能」,让智能体在需要时按需加载,从而更准确、更高效地完成真实工作。
为什么需要它?
• 智能体能力越来越强,但常缺少上下文与流程知识;技能把这些程序化经验与团队/组织知识变成可携带、可版本管理的包
• 对作者:一次构建,多处部署,跨多种智能体产品复用
• 对企业与团队:把组织最佳实践沉淀为可审计、可迭代的工作流
它能带来什么?
• 领域专长:把法律审阅、数据分析等专业流程封装成可复用指南
• 新能力扩展:例如自动做演示文稿、搭建 MCP Server、分析数据集等
• 可重复的工作流:多步骤任务标准化,稳定且可追踪
• 互操作性:同一技能可在不同“支持技能”的工具/产品间通用
生态与开放性
该格式最初由 Anthropic 提出并以开放标准发布,已被多种 AI 开发工具与产品支持,并在 GitHub 上开放协作。
上手入口
• 了解技能是什么、格式规范、如何集成、示例技能与参考库(校验与生成 prompt XML)
原链接:https://agentskills.io/home
#AI代理 #开放标准 #工作流 #知识沉淀 #开发者工具
Perplexity 职场 AI 指南:用 AI 重塑工作效率
这是一份 44 页的官方指南,教你如何用 Perplexity 全家桶提升工作效率。核心理念是将 AI 融入工作的三个层次:
🎯 屏蔽干扰
现代职场平均每 11 分钟被打断一次。Perplexity 提供:
• Comet 浏览器:AI 助手 + 代理模式,帮你阅读、总结、执行任务
• 邮件助手:自动分类邮件、智能回复、安排会议
• 快捷指令和定时任务:把重复工作变成一键操作
🚀 放大能力
• 深度研究:一次分析数百个信息源,生成带引用的报告
• Labs 创作工坊:无需技术背景,直接生成演示文稿、仪表盘、营销素材
• Spaces 空间:保存你的研究上下文和品牌风格,确保输出一致性
📈 产出成果
• 绩效评估:自动分析工作数据,生成专业报告
• 销售开发:批量研究潜在客户,生成个性化外联内容
• 提案制作:快速产出定制化方案和 ROI 模型
💡 提示词技巧
别把 AI 当搜索引擎用。要说清楚目标、上下文和期望格式。比如:
比"帮我处理邮件"有效得多。
🔗 原文链接
#Perplexity #AI效率 #职场工具 #生产力 #AI助手
这是一份 44 页的官方指南,教你如何用 Perplexity 全家桶提升工作效率。核心理念是将 AI 融入工作的三个层次:
🎯 屏蔽干扰
现代职场平均每 11 分钟被打断一次。Perplexity 提供:
• Comet 浏览器:AI 助手 + 代理模式,帮你阅读、总结、执行任务
• 邮件助手:自动分类邮件、智能回复、安排会议
• 快捷指令和定时任务:把重复工作变成一键操作
🚀 放大能力
• 深度研究:一次分析数百个信息源,生成带引用的报告
• Labs 创作工坊:无需技术背景,直接生成演示文稿、仪表盘、营销素材
• Spaces 空间:保存你的研究上下文和品牌风格,确保输出一致性
📈 产出成果
• 绩效评估:自动分析工作数据,生成专业报告
• 销售开发:批量研究潜在客户,生成个性化外联内容
• 提案制作:快速产出定制化方案和 ROI 模型
💡 提示词技巧
别把 AI 当搜索引擎用。要说清楚目标、上下文和期望格式。比如:
"找出过去 3 天所有需要回复的未读邮件,起草简短回复"
比"帮我处理邮件"有效得多。
🔗 原文链接
#Perplexity #AI效率 #职场工具 #生产力 #AI助手