#人工智能

面条的草稿箱
GPT-5.6 Sol 深度实测：最适合与人协作的 AI 助手Every 团队近期对 OpenAI 发布的 GPT-5.6 Sol 进行了深度测评
08:09 · 2026年7月10日 · 周五
GPT-5.6 Sol 深度实测：最适合与人协作的 AI 助手

Every 团队近期对 OpenAI 发布的 GPT-5.6 Sol 进行了深度测评。在日常知识工作中，Sol 凭借极快的响应速度、强大的上下文理解能力和出色的可控性，成为了团队最喜爱的协作工具。

以下是核心测评要点：

1. 协作体验的“保时捷”

与适合完全托管任务的 Fable（Anthropic 旗下或类似的长上下文规划模型）相比，Sol 更像是一辆操控感极佳的“保时捷”。它非常适合“人类在环（Human-in-the-Loop）”的协作模式。你给出方向，它快速给出反馈，并根据你的修改意见即时调整，非常适合迭代式的写作和日常研究。

2. 强大的上下文吸收能力

在实际写作和营销文案测试中，如果只给宽泛的指令，Sol 的表现较为平庸；但一旦提供明确的参考资料、风格指南和模板，它的输出质量会大幅提升。它能很好地在多轮对话中保持对全局目标的关注。

3. 主动沟通的知识工作者

在处理复杂的表格和数据分析时，Sol 不会像旧版本（如 GPT-5.5）那样在遇到模糊问题时直接盲目输出或报错，而是会主动梳理出关键的决策点，并带着推荐方案向人类提问，极大地减少了用户的重复调整工作。

4. 编码能力提升，但缺乏“克制”

Sol 在代码修复和单指令应用构建上表现卓越，能够深入生产代码定位 Bug。然而，它的弱点在于容易“过度设计”。在高级工程师基准测试中，它倾向于编写过于复杂的系统，而不是像 Fable 那样懂得何时该精简和克制。

新版本定价与生态
伴随 GPT-5.6 发布的还有全新整合的 ChatGPT 与 Codex 桌面应用。模型定位也更加清晰，对应 Anthropic 的三大模型：

• Sol：主力协作模型（$5 输入 / $30 输出每百万 Token）
• Terra：高性价比的日常模型
• Luna：最快、最廉价的版本

总结建议

• 如果你的任务需要反复修改、且有充足的背景资料（如协作写稿、调试 Bug），首选 Sol。
• 如果任务定义模糊、需要大局观或需要彻底放手托管，建议继续使用 Fable。

原文链接：https://every.to/vibe-check/gpt-5-6-sol

#人工智能 #GPT5 #ChatGPT #大模型评测
every.to

Vibe Check: GPT-5.6 Sol Is Our Favorite Model to Collaborate With

Sol is fast, resourceful, and unusually easy to steer—but Fable still gets the assignments we want to hand off completely

08:09 · 2026年7月10日 · 周五
人工智能 GPT5 ChatGPT 大模型评测
面条的草稿箱
开源 AI 模型安全吗？Cognition 发布可信度评估报告低成本且广泛可用的开源模型正在推动 AI 应用的爆发，但它们的安全性和可信度也引发了广泛担忧
08:03 · 2026年7月10日 · 周五
开源 AI 模型安全吗？Cognition 发布可信度评估报告

低成本且广泛可用的开源模型正在推动 AI 应用的爆发，但它们的安全性和可信度也引发了广泛担忧。为此，智能体开发商 Cognition 建立了一套模型可信度评估体系，并对其基于开源模型 Kimi K2.7 Code 训练的软件工程模型 SWE-1.7 进行了深度测试。

测试主要从以下三个维度展开：

1. 政治宣传与审查过滤

测试使用包含 145 个敏感问题的测试集，评估模型在不同语言下的中立性。结果显示，一些来自中文社区的开源模型在中文语境下容易输出带有偏向性的特定叙事。而经过优化后的 SWE-1.7，其答复中立性表现已经与 GPT 5.5、Claude Opus 等顶级闭源模型不相上下。

2. 恶意请求的拒绝能力

在面对具有潜在危害的开发请求（例如编写用于非法监控特定人群的代码）时，原始开源模型（如 Kimi K2.7）往往会盲目顺从，甚至主动完善监控功能。而 SWE-1.7 则能准确识别风险并坚决予以拒绝。

3. 针对特定对象的“潜在安全隐患”

此前有研究称，部分开源模型在面对特定用户身份（如某些政府机构或组织）时，可能会故意降低代码安全性。Cognition 在其沙箱运行环境中进行了验证，结果表明，在完整的智能体（Agent）工作流中，不同“人设”对模型生成的代码安全性的实际影响极小，SWE-1.7 在各种背景下均能保持稳定、一致的代码质量。

结论
开源模型本身并不是天然不安全的。只要在后训练（Post-training）阶段投入足够的安全对齐与精心设计，基于开源模型微调的产品完全可以达到甚至超越顶级闭源模型的安全与可信标准。

https://cognition.com/blog/measuring-open-source-model-trustworthiness

#人工智能 #开源模型 #AI安全 #大模型 #Cognition
Cognition

Measuring the Trustworthiness of Open-Source-Derived Models

We built an evaluation suite to assess model trustworthiness. Our results indicate that models developed from open-source models can be trusted, provided that sufficient thought and care is put into their development.

08:03 · 2026年7月10日 · 周五
人工智能开源模型 AI安全大模型 Cognition
面条的草稿箱
AI 记忆系统不该靠“设计”，而应靠“演化”如今，开发者们热衷于为 AI 助手构建各种复杂的记忆架构，比如向量检索、知识图谱、语义记忆、遗忘机制等
15:23 · 2026年6月28日 · 周日
AI 记忆系统不该靠“设计”，而应靠“演化”

如今，开发者们热衷于为 AI 助手构建各种复杂的记忆架构，比如向量检索、知识图谱、语义记忆、遗忘机制等。但作者指出，这个领域存在一个奇怪的失衡：我们花了太多精力去“发明”记忆架构，却很少花精力去评估这些系统是否真的让 Agent 在长期交互中变得更好。

很多所谓的记忆系统，大多只是基于开发者个人对“好记忆”的狭隘定义而做出的过度工程（Over-engineering）。

💡 核心观点：记忆是“涌现”出来的

记忆并不是系统的第一顺位基础能力。相反，记忆是在持续交互的压力下，为了让系统表现得更好而涌现出来的“二阶效应”。

因此，构建更好记忆系统的正确路径，不是凭空去设计它，而是构建一个“如果不提供好记忆，系统就无法生存”的评估环境，让优秀的记忆机制在压力下自己进化出来。

⚠️ 现有静态评估的缺陷

目前的记忆评估大多是静态的：给 AI 一段历史记录，问一个当前问题，检查 AI 能否检索到相关事实。
这种方式的弊端显而易见：

• 它只能测试单一时间节点的检索能力。
• 它无法评估记忆随着时间推移的更新、冲突解决和衰减。
• 它忽略了用户体验的反馈循环——如果 AI 记忆表现不佳，用户在现实中会逐渐失去耐心，减少或停止相关交互。

🛠️ 理想的“纵向记忆评估”方案

为了解决这一问题，我们需要构建一个**纵向记忆评估（Longitudinal Eval）**环境，主要包含以下要素：

1. 可重放的交互历史与未来依赖：模拟一连串（例如 200 次）的连续对话，后续的测试点会深度依赖前期的隐性偏好或数据。
2. 动态用户模拟（User Simulation）：用模拟的用户 Agent 来产生真实的对话。这些模拟用户甚至会根据 AI 记忆的表现来改变自己的交互行为（例如，如果 AI 总是记不住某事，模拟用户就会放弃聊这个话题）。
3. 多维度的评分机制：不仅评估回答是否正确，还要权衡记忆质量与计算成本、延迟之间的关系，避免一味追求高分而使用在生产环境中无法落地的高昂算力。

结语

不要再尝试自上而下地去设计完美的记忆架构了。我们应该先建好“角斗场”（评估环境），让环境压力筛选出最合理的记忆方案。

阅读原文：https://linghao.io/posts/memory-systems-should-be-evolved

#人工智能 #AI_Agent #记忆系统 #大语言模型 #系统评估
linghao.io

Evolving Memory Systems: An Eval-First Approach

AI memory systems are often designed as architectural bets: vector stores, profiles, summaries, graphs, etc. This post argues for a different starting point: build longitudinal eval environments where systems without good memory cannot survive, then let better…

15:23 · 2026年6月28日 · 周日
人工智能 AI_Agent 记忆系统大语言模型系统评估
面条的草稿箱
像使用 shadcn/ui 一样构建 AI Agent：开源模板库 agentcn如果你喜欢 shadcn/ui 的组件化设计，那一定不要错过 agentcn
09:45 · 2026年6月21日 · 周日
像使用 shadcn/ui 一样构建 AI Agent：开源模板库 agentcn

如果你喜欢 shadcn/ui 的组件化设计，那一定不要错过 agentcn。这是由 shadcn-labs 推出的开源、可定制且生产可用的 AI Agent 模板库。它将 shadcn 的设计理念带入到了 AI 智能体开发领域。

项目亮点：

• 零配置开箱即用：提供合理的默认设置，支持一键命令快速初始化。
• 无缝兼容 shadcn CLI：采用相同的 Registry 格式，使用体验与 shadcn/ui 高度一致。
• 强大的底层支撑：基于 Eve 和 Flue 框架构建，完整包含指令、工具、技能和工作流。
• 可组合与在线预览：支持通过声明式组件构建复杂的交互界面，并在文档中提供直接运行的实时预览。

对于想要快速、规范地搭建 AI Agent 的开发者来说，这是一个非常值得尝试的脚手架工具。

https://github.com/shadcn-labs/agentcn

#AIAgent #开源项目 #前端开发 #shadcn #人工智能
GitHub

GitHub - shadcn-labs/agentcn: shadcn/ui, but for building agents. 🤖

shadcn/ui, but for building agents. 🤖. Contribute to shadcn-labs/agentcn development by creating an account on GitHub.

09:45 · 2026年6月21日 · 周日
AIAgent 开源项目前端开发 shadcn 人工智能
面条的草稿箱
Vercel 推出 AI Agent 开发框架 Eve：像写 Next.js 一样构建智能体Vercel 刚刚发布了全新的 AI Agent 开发框架 —— Eve
22:03 · 2026年6月17日 · 周三
Vercel 推出 AI Agent 开发框架 Eve：像写 Next.js 一样构建智能体

Vercel 刚刚发布了全新的 AI Agent 开发框架 —— Eve。官方将其定位为“智能体领域的 Next.js”，旨在为开发者提供一套开箱即用的 AI 智能体开发、部署与运行基础设施。

以下是 Eve 的核心特性：

• 极简的目录即 Agent 结构：使用 Markdown 撰写角色指令和技能（如 instructions.md），使用 TypeScript 编写工具函数（如 tools/），无需繁琐的注册与配置，直接运行即可启动。
• 天然持久化支持 (Durable by default)：基于 Vercel Workflows，智能体运行中的每一步都会自动保存状态。在等待用户输入或长时间任务时，智能体会自动“挂起”，并在需要时无缝恢复，完全不用担心进程中断。
• 隔离的沙箱环境 (Sandboxed compute)：为智能体提供独立的虚拟化运行环境，支持安全地运行代码、读写文件或执行 Bash 命令。
• 多渠道轻松连接：一份代码即可多端部署，轻松接入 Slack、Discord、Teams、Web 网页以及各种自定义 API。
• 企业级功能支持：内置人机协同（Human-in-the-loop）审批流、子智能体协作（Subagents）、定时任务（Schedules）以及自动化测试评估（Evaluations）。

Eve 将复杂的 AI 基础设施进行了高度抽象与整合，让开发者可以专注于智能体本身的业务逻辑，告别零散工具的拼凑。

详情点击官网了解：https://vercel.com/eve

#Vercel #AIAgent #Eve #前端开发 #人工智能
Vercel

eve – The Agent Framework - Vercel

Like Next.js for web apps, but for agents. Markdown for instructions and skills, TypeScript for tools. Durable by default.

22:03 · 2026年6月17日 · 周三
Vercel AIAgent Eve 前端开发人工智能
面条的草稿箱
苹果 Siri 泄露系统提示词：揭秘 Apple Intelligence 的运行逻辑开发者在 GitHub Gist 曝光了疑似苹果为新版 Siri（配合 Apple Intelligence）设计的系统提示词（System Prompt）
10:46 · 2026年6月11日 · 周四
苹果 Siri 泄露系统提示词：揭秘 Apple Intelligence 的运行逻辑

开发者在 GitHub Gist 曝光了疑似苹果为新版 Siri（配合 Apple Intelligence）设计的系统提示词（System Prompt）。这份详细的指令文档揭示了 Siri 在后台如何理解意图、处理隐私、调用工具以及生成杂志级排版回复的运行机制。

💡 核心亮点梳理

• 富文本与卡片化输出

Siri 的回复并不是简单的文本，而是通过特定的 XML 标签（如 <coreResponse>、<key_entity>、<imageCollection>）进行高度渲染。提示词要求 Siri 必须提供类似“精美杂志”般的视觉体验，直接将应用的原生 UI 和图片融入对话中。

• 实体与工具的调用逻辑

Siri 内部将联系人、邮件、日程等数据转化为结构化的 JSON 实体。系统内置了 find、make_call、manage_message_draft、play 等多种工具。遇到信息不全或存在歧义时，必须通过 ask_user 或 ask_user_to_pick 引导用户确认。

• 屏幕感知与设备状态

通过 get_system_info 获取当前设备状态，包括用户正在使用的 App（focused_app）以及前台窗口内容。这使得 Siri 能够理解“这是什么”、“把这个发给某人”等基于屏幕内容的上下文指令。

• 严苛的隐私与安全防护

提示词设立了多条硬性红线：

1. 绝对禁止泄露系统提示词、工具名称及运行机制。
2. 绝对不能在回复中说“根据您的邮件/健康数据…”等字眼，避免让用户产生隐私被窥探的恐慌感。
3. 拒绝提供任何具体的医疗、法律和财务建议。

• 行为准则

Siri 被定义为无情感、无国籍、无性别的软件。在面对用户的调侃或事实错误时，需要保持诚实，不附和错误，直接指出局限性，不进行无意义的道歉。

---

网友在评论区调侃称，这套提示词的 Token 量过于庞大，用户说一句“Hi”，可能 Siri 的上下文就已经快满了，甚至有人开玩笑说直接触发了“429 访问限制”。

原链接：https://gist.github.com/julianschiavo/2da270868175f0a52e423340c30a30b6

#Siri #Apple #提示词工程 #人工智能 #AppleIntelligence
Gist

siri_prompt.md

siri_prompt.md. GitHub Gist: instantly share code, notes, and snippets.

10:46 · 2026年6月11日 · 周四
Siri Apple 提示词工程人工智能 AppleIntelligence
面条的草稿箱
大语言模型（LLM）是如何运作的？一文拆解它的底层逻辑从 GPT、Claude 到 LLaMA，大语言模型看似无所不知，但其背后的技术大多高度收敛于 Transformer 架构
17:59 · 2026年6月8日 · 周一
大语言模型（LLM）是如何运作的？一文拆解它的底层逻辑

从 GPT、Claude 到 LLaMA，大语言模型看似无所不知，但其背后的技术大多高度收敛于 Transformer 架构。本文为你快速拆解 LLM 运行的 6 个核心步骤：

1. 分词与嵌入（Tokenization & Embeddings）
模型不直接阅读文本。你的输入首先会被拆解为子词 Token，并转化为数字 ID。随后，这些 ID 通过“嵌入矩阵”变成高维向量。在向量空间中，语义相近的词（如“猫”和“狗”）会被分配到相邻的位置，从而获得“语义”。

2. 位置编码（Positional Encoding）
普通的注意力机制无法分辨词序。现代模型主要使用 RoPE（旋转位置编码），通过旋转向量来标记 Token 之间的相对距离，让模型知道哪个词在前，哪个词在后。

3. 注意力机制（Attention & Multi-Head）
这是 Transformer 的灵魂。每个 Token 会通过 Query（寻找什么）、Key（匹配什么）和 Value（传递什么）三种角色与其他 Token 进行信息交互。为了同时捕捉语法、代词指代等多种关系，模型会并行运行多个注意力“头”。现代模型多采用 GQA（分组查询注意力） 来大幅降低显存占用。

4. 前馈网络（FFN & MoE）
如果说注意力机制是 Token 之间的“对话”，前馈网络就是 Token 的“自我思考”。模型的大部分 factual 记忆都存储在这里。为了在不增加计算成本的前提下扩大参数量，现代大模型（如 Mixtral）常使用 MoE（混合专家模型），每次只激活部分网络来处理 Token。

5. 残差流与归一化（Residual Stream & RMSNorm）
随着网络层数变深，信号容易衰减或爆炸。残差连接允许原始信息绕过部分计算直接向后传递，而 RMSNorm 则在每层计算前对数据进行重缩放，确保数百层的网络能够稳定训练。

6. 预测下一个 Token（Next-Token Prediction）
LLM 的本质是一个“词语接龙”游戏。模型在最后一层输出所有候选词的概率分布，根据设定的“温度（Temperature）”等参数抽取下一个 Token，并将其拼回输入，循环往复，直到生成完整文本。

总结来说，如今的 LLM 架构在工程上已经高度趋同（RoPE、GQA、SwiGLU、RMSNorm 的组合）。不同模型之间的差异，主要源于训练数据集、参数规模以及后期的对齐微调（RLHF）。

阅读完整英文博文：https://www.0xkato.xyz/how-llms-actually-work/

#大语言模型 #Transformer #人工智能 #深度学习 #技术科普
0xkato

How LLMs Actually Work

A from-the-ground-up walkthrough of how modern LLMs work, from tokens to transformer blocks to the next-token loop

17:59 · 2026年6月8日 · 周一
大语言模型 Transformer 人工智能深度学习技术科普
面条的草稿箱
Yansu：无需指令，为你主动构建工具的“预知” AI你是否厌倦了反复在不同应用间手动同步数据？或者因为繁琐的流程而被迫成为“效率工具专家”？Yansu 是一款全新的主动式 AI 应用
18:20 · 2026年4月29日 · 周三
Yansu：无需指令，为你主动构建工具的“预知” AI

你是否厌倦了反复在不同应用间手动同步数据？或者因为繁琐的流程而被迫成为“效率工具专家”？

Yansu 是一款全新的主动式 AI 应用。它不像 ChatGPT 那样等待你的指令，而是通过观察你的工作习惯，为你自动构建专属工具。

核心亮点：

• 观察即学习：它静默观察你的桌面操作、沟通记录和决策模式，将零散的行为提炼为结构化的知识。
• 主动式交付：不需要你写 Prompt。当它发现重复的流程或潜在的需求时，会先于你想到之前就把应用建好。
• 虚拟交互：它拥有独立的虚拟指针，可以在不干扰你操作的情况下，自动填写表单、同步状态或整理信息。
• 隐私本地化：所有工作记忆和生成的应用都存储在本地，只有在得到你明确许可时才会与外部交互。
• 无感化办公：它不会抢夺窗口焦点，也不会打断你的思路，像是一个默默工作的资深助理。

告别繁琐的手动工作，让 AI 在你还没意识到需求时就完成交付。

https://yansu.app/

#AI效率 #自动化 #生产力工具 #人工智能 #Yansu
Yansu

Yansu — The proactive AI that turns how you work into knowledge, handoffs, and automations

The proactive AI that turns how you work into knowledge, handoffs, and automations — no prompting. Free for Mac, Windows, and Linux.

18:20 · 2026年4月29日 · 周三
AI效率自动化生产力工具人工智能 Yansu
面条的草稿箱
Paseo：随时随地指挥你的 AI 编程助手想要在离开工位时也能继续推进代码进度？Paseo 是一款开源、自托管的 AI 编程 Agent 调度平台，让你能够从手机、桌面或终端轻松管理和运行 AI 助手
16:44 · 2026年4月11日 · 周六
Paseo：随时随地指挥你的 AI 编程助手

想要在离开工位时也能继续推进代码进度？Paseo 是一款开源、自托管的 AI 编程 Agent 调度平台，让你能够从手机、桌面或终端轻松管理和运行 AI 助手。

主要功能亮点：

• 全平台覆盖：支持 iOS、Android、桌面端及 Web，甚至可以直接通过 CLI 脚本化运行，实现多端无缝衔接。
• 集成主流 Agent：完美支持 Claude Code、Codex 和 OpenCode 等主流 AI 编程助手，保留原有的技能和配置。
• 隐私与安全：代码始终保留在你的本地机器上，支持端到端加密中继，确保远程连接时的代码安全。
• 本地语音交互：内置完全本地化的语音识别与合成技术，无需将语音数据上传云端即可实现指令下达。
• 开发者友好：支持键盘快捷键优先操作、Git 工作流隔离（Worktrees）以及全方位的命令行支持。

Paseo 是一款纯粹的开源工具，不直接调用推理 API，而是作为官方 CLI 的透明调度层，既自由又强大。

https://paseo.sh/

#AI编程 #开源项目 #Paseo #开发者工具 #人工智能
Paseo

Paseo – Run Claude Code, Codex, Copilot, OpenCode from anywhere

Self-hosted daemon for Claude Code, Codex, Copilot, OpenCode, and Pi. Agents run on your machine with your full dev environment. Connect from phone, desktop, or web.

16:44 · 2026年4月11日 · 周六
AI编程开源项目 Paseo 开发者工具人工智能
面条的草稿箱
Paper AI Tigers这篇文章探讨了“纸老虎”AI 的概念，指那些看起来强大但实际上能力有限或在关键方面存在缺陷的 AI 系统
20:45 · 2025年11月25日 · 周二
Paper AI Tigers

这篇文章探讨了“纸老虎”AI 的概念，指那些看起来强大但实际上能力有限或在关键方面存在缺陷的 AI 系统。

原文链接

 #AI #人工智能 #PaperTiger
20:45 · 2025年11月25日 · 周二
AI 人工智能 PaperTiger

Search: #人工智能