<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet href="/rss.xsl" type="text/xsl"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>开源大模型 | 面条的草稿箱</title><description>无原创，纯转发</description><link>https://localhost</link><item><title>omp：直接集成 IDE 能力的终端 AI 编码助手oh my pi (omp) 是一个专为终端设计的开源 AI 编码智能体</title><link>https://localhost/posts/138</link><guid isPermaLink="true">https://localhost/posts/138</guid><pubDate>Mon, 15 Jun 2026 15:52:13 GMT</pubDate><content:encoded>omp：直接集成 IDE 能力的终端 AI 编码助手&lt;br /&gt;&lt;br /&gt;oh my pi (omp) 是一个专为终端设计的开源 AI 编码智能体。它不仅是一个代码生成器，更是一个深度集成 IDE 工具的“全能型选手”，旨在为开发者提供开箱即用、无缝连接的终端开发体验。&lt;br /&gt;&lt;br /&gt;核心亮点：&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;深度集成 IDE 工具链&lt;/b&gt;：内置 LSP（Language Server Protocol），AI 能够像在 IDE 中一样精准进行跨文件重命名与格式化；同时支持 DAP（Debug Adapter Protocol），可以直接启动调试器（如 lldb, dlv, debugpy）进行单步调试和堆栈排查。&lt;br /&gt;•   &lt;b&gt;创新的 Snapcompact 图像压缩&lt;/b&gt;：当对话历史过长时，omp 不使用 LLM 进行文本总结，而是将历史记录渲染成极其微小的像素字体 PNG 图像，并发送给多模态模型读取。这一技术能够确保上下文细节不丢失，且仅消耗约 1/3 的 Token 成本。&lt;br /&gt;•   &lt;b&gt;强悍的 Rust 原生引擎&lt;/b&gt;：核心由约 5.5 万行 Rust 代码构建，搜索、shell、AST 分析等高频操作均在进程内完成，避免频繁 fork 子进程，效率极高。&lt;br /&gt;•   &lt;b&gt;本地化记忆与离线整理&lt;/b&gt;：使用本地 SQLite 矢量记忆库，并使用本地的小模型（如 Qwen-1.7B / Gemma-1B）在本地整理记忆与会话标题，数据不离设备。&lt;br /&gt;•   &lt;b&gt;强大的协作与扩展性&lt;/b&gt;：支持通过 &lt;code&gt;/collab&lt;/code&gt; 实现端到端加密的实时会话共享；兼容多种主流编辑器规则（如 Cursor, Cline, Copilot），甚至可以通过 ACP 协议直接在 Zed 编辑器中驱动终端中的同一个 omp 实例。&lt;br /&gt;&lt;br /&gt;原链接：&lt;a href=&quot;https://omp.sh/&quot; target=&quot;_blank&quot;&gt;https://omp.sh/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E7%BC%96%E7%A0%81%E5%8A%A9%E6%89%8B&quot;&gt;#AI编码助手&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E7%BC%96%E7%A8%8B%E5%B7%A5%E5%85%B7&quot;&gt;#编程工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Rust&quot;&gt;#Rust&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E9%A1%B9%E7%9B%AE&quot;&gt;#开源项目&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%99%BA%E8%83%BD%E5%BC%80%E5%8F%91&quot;&gt;#智能开发&lt;/a&gt;&lt;a href=&quot;https://omp.sh/&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;omp&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;omp — a coding agent with the IDE wired in&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/OIp_uPjy8j57e8jFQ1EAHhDS4v_1ipZ5Hr_c3LzsU_WeVFLL0_N2oOCfVHMaFEy7q363DDSN-TkFGJ6K1cJNzemHtQtxCtEses5g2rTtw3vct34VT0BQwiYlR6wxHDS5LSOiWujruVXiBtCa5P-X5RNdpHgWwgAoIqKLkuSYE58adDMmTqIEV-xW3lSaGS3MdMLtnX22Hps3Ztzieaih_UfI05kKrw0ikTtMuWsyiHnNQMXwv5Ec2iRaQl0MtuJyCTFCXlihL8kVRKVJVcH-SrS_fCiwI_PMaV7IZWmpK1KPdoeIZy0_C8J1dUZTbAQpVtpZseIWUh54kj0ZerxGZw.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;omp — a coding agent with the IDE wired in&lt;/div&gt;
  &lt;div&gt;Subagents, plan mode, LSP, DAP, hindsight memory, hashline edits, time-traveling rules — with a native Rust engine doing the heavy lifting.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Gemma 4 图解指南：Google DeepMind 开源模型家族全面解析Google DeepMind 发布了 Gemma 4 系列模型，作者 Maarten Grootendorst（刚入职 Google DeepMind）以丰富的可视化方式详细拆解了这一系列模型的架构设计</title><link>https://localhost/posts/123</link><guid isPermaLink="true">https://localhost/posts/123</guid><pubDate>Mon, 06 Apr 2026 10:24:46 GMT</pubDate><content:encoded>&lt;b&gt;Gemma 4 图解指南：Google DeepMind 开源模型家族全面解析&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Google DeepMind 发布了 Gemma 4 系列模型，作者 Maarten Grootendorst（刚入职 Google DeepMind）以丰富的可视化方式详细拆解了这一系列模型的架构设计。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;四款模型，覆盖多种场景&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;Gemma 4 E2B&lt;/b&gt; — 密集模型，等效 20 亿参数，适合端侧部署&lt;br /&gt;•   &lt;b&gt;Gemma 4 E4B&lt;/b&gt; — 密集模型，等效 40 亿参数，适合端侧部署&lt;br /&gt;•   &lt;b&gt;Gemma 4 31B&lt;/b&gt; — 310 亿参数的密集模型&lt;br /&gt;•   &lt;b&gt;Gemma 4 26B A4B&lt;/b&gt; — MoE 架构，总参数 260 亿，推理时仅激活 40 亿参数，兼顾性能与效率&lt;br /&gt;&lt;br /&gt;所有模型均为&lt;b&gt;多模态&lt;/b&gt;，支持图像输入；小模型（E2B/E4B）还额外支持&lt;b&gt;音频输入&lt;/b&gt;。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;核心架构亮点&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;b&gt;注意力机制优化：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   局部注意力（滑动窗口）与全局注意力交替堆叠（5:1 或 4:1），最后一层始终为全局注意力&lt;br /&gt;•   全局注意力层采用 8 个 Query 共享 1 个 KV 头的分组查询注意力（GQA）&lt;br /&gt;•   &lt;b&gt;K=V 技巧&lt;/b&gt;：全局注意力层中 Key 等于 Value，进一步压缩 KV 缓存&lt;br /&gt;•   &lt;b&gt;p-RoPE&lt;/b&gt;：仅对前 25% 维度施加旋转位置编码，避免低频维度引入噪声，提升长上下文处理能力&lt;br /&gt;&lt;br /&gt;&lt;b&gt;视觉编码器：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   基于 Vision Transformer（ViT），支持可变宽高比和可变分辨率&lt;br /&gt;•   通过 2D RoPE 编码 patch 的二维位置信息&lt;br /&gt;•   引入 soft token budget（70/140/280/560/1120），用户可按任务需求灵活选择分辨率&lt;br /&gt;&lt;br /&gt;&lt;b&gt;MoE 架构（26B A4B）：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   128 个专家中每次激活 8 个 + 1 个始终激活的共享专家（3 倍大小）&lt;br /&gt;•   虽然总参数 260 亿，推理速度接近 40 亿参数模型&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Per-Layer Embeddings（E2B/E4B）：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   每一层都有独立的 token embedding 查找表，存储在闪存而非显存中&lt;br /&gt;•   让小模型在有限 RAM 下也能获得更强的表达能力，非常适合手机等端侧设备&lt;br /&gt;&lt;br /&gt;&lt;b&gt;音频编码器（E2B/E4B）：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   基于 Conformer 架构，通过梅尔频谱图提取特征并下采样为 soft token&lt;br /&gt;•   支持语音识别和翻译等任务&lt;br /&gt;&lt;br /&gt;&lt;i&gt;&lt;b&gt;🔗&lt;/b&gt;&lt;/i&gt; &lt;a href=&quot;https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4&quot; target=&quot;_blank&quot;&gt;https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23Gemma4&quot;&gt;#Gemma4&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GoogleDeepMind&quot;&gt;#GoogleDeepMind&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%A4%9A%E6%A8%A1%E6%80%81&quot;&gt;#多模态&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23MoE&quot;&gt;#MoE&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E6%A8%A1%E5%9E%8B&quot;&gt;#开源模型&lt;/a&gt;&lt;a href=&quot;https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Maartengrootendorst&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;A Visual Guide to Gemma 4&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/FACIuiyNybxMxr_qN1wgPGgB5ZlMM93UDrcmr5R6kRgM8J8Mb5wORe8AL7FPpts134BQcsTnCuT5j8MTMNIXkLgEDWoYSs_QWCwTeYucc8qkdJcy9C4kY3G43Eiu1g7L671-17Cs9cF19kxjIlEhNk6voKK1jkBe4pbCjWfuWRCZt9BZm_nE9KFmyxJPPdDkBa1fqhorcZDiJvm8Xg7szSOiQWwsNq63-ykXurikoKKnZivIIfBeZgEwHgHsFsfLvG3gv1Jlan2gGyWN8pXULFKrkz9tO6NRXXLLnzYW4FuNy9LBLWQKz2cRAzfNoZD5sxgR7J8pFY3j-Z8_1AuQ_Q.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;A Visual Guide to Gemma 4&lt;/div&gt;
  &lt;div&gt;A great start to a new job ;)&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Stripe「Minions」：一键生成、端到端交付的无人值守编码代理Stripe 在内部打造了一套名为 Minions 的编码代理：从接到任务到产出可评审的 PR，全程几乎无需人类介入</title><link>https://localhost/posts/116</link><guid isPermaLink="true">https://localhost/posts/116</guid><pubDate>Tue, 10 Feb 2026 14:31:52 GMT</pubDate><content:encoded>&lt;b&gt;Stripe「Minions」：一键生成、端到端交付的无人值守编码代理&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Stripe 在内部打造了一套名为 &lt;b&gt;Minions&lt;/b&gt; 的编码代理：从接到任务到产出可评审的 PR，全程几乎无需人类介入。现在，Stripe &lt;b&gt;每周有超过 1000 个合并的 PR&lt;/b&gt; 是由 Minions 从头到尾生成的（人类负责 Review，但不写代码）。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;为什么要自研？&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;在 Stripe 这种超大规模、强约束的工程环境里，“从零写个原型”和“在成熟巨型代码库里安全改动”完全不是一回事：&lt;br /&gt;&lt;br /&gt;•   代码库规模巨大（数亿行），栈也相对小众：大量后端是 &lt;b&gt;Ruby + Sorbet&lt;/b&gt;，还有大量 &lt;b&gt;Stripe 自研库&lt;/b&gt;，LLM 天然不熟&lt;br /&gt;•   业务风险极高：Stripe 的代码承载着 &lt;b&gt;每年超过 1 万亿美元&lt;/b&gt; 的支付规模，并受金融合规与监管约束&lt;br /&gt;•   既要让代理“会写”，也要让它“按规矩写、能跑通、能过 CI”，并与既有研发流程深度结合&lt;br /&gt;&lt;br /&gt;&lt;b&gt;工程师怎么用？&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;最常见的入口是 &lt;b&gt;Slack&lt;/b&gt;：&lt;br /&gt;&lt;br /&gt;•   在讨论线程里 &lt;a href=&quot;https://t.me/Slack&quot; target=&quot;_blank&quot;&gt;@Slack&lt;/a&gt; App 就能发起 Minion，它会读取整个线程与相关链接作为上下文&lt;br /&gt;•   也集成到内部系统里：文档平台、Feature Flag、工单系统等&lt;br /&gt;    例如 CI 发现 flaky tests，会生成工单，直接提供按钮让 Minion 去修&lt;br /&gt;&lt;br /&gt;完成后，Minion 会：&lt;br /&gt;&lt;br /&gt;•   创建分支 → 推送 → 跑 CI → 按模板生成 PR&lt;br /&gt;&lt;br /&gt;如果效果不理想，人类可以补充指令让它再改；即使不完美，也常常是很好的“可用起点”。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Minions 背后怎么运作（要点版）&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Stripe 的思路是：&lt;b&gt;把“创意生成”交给 LLM，把“必须可靠执行的步骤”交给确定性工具链&lt;/b&gt;。&lt;br /&gt;&lt;br /&gt;•   运行环境：在隔离的 &lt;b&gt;devbox&lt;/b&gt; 中执行（10 秒内可启动，预热并预载代码与服务），与生产与公网隔离，便于并行&lt;br /&gt;•   Agent 框架：基于 Block 的开源编码代理 &lt;b&gt;goose&lt;/b&gt; 的 fork，并做了强定制&lt;br /&gt;•   规则与上下文：读取各类 agent rule 文件，但多为“按目录条件生效”，避免全局死规则拖累&lt;br /&gt;•   工具调用：接入 &lt;b&gt;MCP&lt;/b&gt;（函数调用通用协议），并建设内部 MCP 服务 &lt;b&gt;Toolshed&lt;/b&gt;，提供 &lt;b&gt;400+&lt;/b&gt; 工具（文档、工单、构建状态、Sourcegraph 搜索等）&lt;br /&gt;•   反馈与质量闸门：&lt;br /&gt;    •   首先跑本地启发式 lint/检查（通常 &amp;lt;5 秒）&lt;br /&gt;    •   再跑选择性的 CI（Stripe 有 300 万+ 测试），部分失败可自动修复&lt;br /&gt;    •   为控制成本与等待时间：&lt;b&gt;最多两轮 CI&lt;/b&gt;，强调“能本地提前发现就不要拖到 CI”&lt;br /&gt;&lt;br /&gt;&lt;b&gt;接下来&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;这篇是系列 Part 1，主要讲“怎么用、能做什么”；Part 2 会深入实现细节。整体信号很明确：当“开发者注意力”成为稀缺资源时，无人值守、可并行的编码代理正在改变工程协作方式。&lt;br /&gt;&lt;br /&gt;原文链接：&lt;a href=&quot;https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents&quot; target=&quot;_blank&quot;&gt;https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E5%B7%A5%E7%A8%8B%E5%8C%96&quot;&gt;#AI工程化&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E7%BC%96%E7%A0%81%E4%BB%A3%E7%90%86&quot;&gt;#编码代理&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E6%95%88%E7%8E%87&quot;&gt;#开发者效率&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23CI%E5%AE%9E%E8%B7%B5&quot;&gt;#CI实践&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Stripe&quot;&gt;#Stripe&lt;/a&gt;&lt;a href=&quot;https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;stripe.dev&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Minions: Stripe’s one-shot, end-to-end coding agents&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/H18ir4W7Yx5_y3FWZkpWcsbvq3tjwyhUR2cnF0H8zvQEMEA5hDDuzmWhlJMBqLt1a6rwdrjM7EZks3PRwzG5fKWcZuteGl6cCISlgkoPdBPluHLb1_LdSjq6sK5TIAJHPGzIQTidPEeuFE6bVyc0l3mw_bMwoWgKu09iX7PfPbW9ljEhh8D-CGo_juWvKyLQmO48TL5Q5XsCiS413KHYyOlbRUUGBa98Kl6-avUPqjDOLvvaeC9oSmqqtLOfYFQjLGy4bVo0e9spukFV3F-ffYVjVQ_tOJbmFuVBiJVZJEKaHDk9lOZov2-h9GuQJYKBehz65LkdCb4g-TepDOBhIQ.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Minions: Stripe’s one-shot, end-to-end coding agents&lt;/div&gt;
  &lt;div&gt;Minions are Stripe’s homegrown coding agents, responsible for more than a thousand pull requests merged each week. Though humans review the code, minions write it from start to finish. Learn how they work, and how we built them.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Steel：为 AI Agent 打造的开源云端浏览器基础设施Steel 是一个开源的浏览器 API，用来在云端按需启动并控制“浏览器集群”，让 AI Agent、自动化脚本把能力真正带到网页上运行</title><link>https://localhost/posts/87</link><guid isPermaLink="true">https://localhost/posts/87</guid><pubDate>Thu, 01 Jan 2026 07:43:43 GMT</pubDate><content:encoded>&lt;b&gt;Steel：为 AI Agent 打造的开源云端浏览器基础设施&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Steel 是一个开源的浏览器 API，用来在云端按需启动并控制“浏览器集群”，让 AI Agent、自动化脚本把能力真正带到网页上运行。&lt;br /&gt;&lt;br /&gt;它适合做什么？&lt;br /&gt;&lt;br /&gt;•   大规模网页抓取与数据采集（也支持更稳定的反爬配置）&lt;br /&gt;•   自主 Web Agent（下单、订票、填写表单等真实操作流程）&lt;br /&gt;•   模型训练数据采集、AI 购物助手、RPA/销售自动化、QA 测试、客服自动化&lt;br /&gt;&lt;br /&gt;核心能力概览&lt;br /&gt;&lt;br /&gt;•   Sessions API：一行调用启动浏览器会话&lt;br /&gt;•   自动 CAPTCHA 处理：减少流程中断&lt;br /&gt;•   代理与指纹控制：降低被识别为机器人的概率&lt;br /&gt;•   快速启动：平均会话启动时间低于 1 秒（同区域更快）&lt;br /&gt;•   长会话：单个会话最长可跑 24 小时&lt;br /&gt;•   上下文复用：保存/注入 Cookies 与本地存储，续跑更顺畅&lt;br /&gt;•   低改动迁移：Puppeteer/Playwright/Selenium 通过少量改动即可上云&lt;br /&gt;•   可观测性：提供会话查看器，支持实时/录制回放调试&lt;br /&gt;•   安全登录：帮助自动化访问需要登录的站点&lt;br /&gt;&lt;br /&gt;价格与开源&lt;br /&gt;&lt;br /&gt;•   提供免费档起步（按浏览器小时/代理带宽/CAPTCHA 计量），也有从个人到企业的多档套餐&lt;br /&gt;•   项目开源，可本地运行或用 Docker 自托管（官方 GitHub 仓库提供）&lt;br /&gt;&lt;br /&gt;原链接：&lt;a href=&quot;https://steel.dev/&quot; target=&quot;_blank&quot;&gt;https://steel.dev/&lt;/a&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23%E6%B5%8F%E8%A7%88%E5%99%A8%E8%87%AA%E5%8A%A8%E5%8C%96&quot;&gt;#浏览器自动化&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23AI%E4%BB%A3%E7%90%86&quot;&gt;#AI代理&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Web%E6%8A%93%E5%8F%96&quot;&gt;#Web抓取&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E5%B7%A5%E5%85%B7&quot;&gt;#开源工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E4%BA%91%E5%9F%BA%E7%A1%80%E8%AE%BE%E6%96%BD&quot;&gt;#云基础设施&lt;/a&gt;&lt;a href=&quot;https://steel.dev/&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;steel.dev&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Steel | Open-source Headless Browser API&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/KoC0RXd591dcfASZtG3f92VwrKtMGzHwXeSjiVaiWFRQ1NbY223ubExycnzIK2K_sMSQPyzc-A9QtPvpfS6yGuLVs2VSNz7eGRcGoxzC8aPwY0h-j_GRHX_c-g_oAj32OQ-6UcbFdO32H2gq5zGXczhASgzqM1DmH_AgA6i8Gp3xP1tM5oyUYj5wDvgka_cKbpa48vL2t8eOjaCcnvK7qGys45zAwu3lfqw5kwdZKxJmyZoQnIOt2BrTa7yI3AjntpCVZe56JIX5OLf_kNk0oWv3j0YLq33X7a3oA49pYHzYhMBUHOlwTSyowaQAgBqu3xVlLUz4cDrasSIDqoD02g.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Steel | Open-source Headless Browser API&lt;/div&gt;
  &lt;div&gt;Steel is an open-source browser API purpose-built for AI agents.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>MiniMax M2.1 发布：面向真实复杂任务的多语言编程升级MiniMax 发布新一代文本模型 MiniMax M2.1，目标从“可用、低成本”进一步走向“能解决真实世界的复杂任务”，重点补齐多语言工程协作与办公场景执行力</title><link>https://localhost/posts/78</link><guid isPermaLink="true">https://localhost/posts/78</guid><pubDate>Tue, 23 Dec 2025 13:52:08 GMT</pubDate><content:encoded>&lt;b&gt;MiniMax M2.1 发布：面向真实复杂任务的多语言编程升级&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;MiniMax 发布新一代文本模型 &lt;b&gt;MiniMax M2.1&lt;/b&gt;，目标从“可用、低成本”进一步走向“能解决真实世界的复杂任务”，重点补齐多语言工程协作与办公场景执行力。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;这次重点提升了什么？&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;多语言编程能力系统增强&lt;/b&gt;：覆盖 Rust / Java / Go / C++ / Kotlin / Objective‑C / TypeScript / JavaScript 等，更贴近真实项目的多语言栈协作。&lt;br /&gt;•   &lt;b&gt;Web &amp;amp; App 开发更强、更好看&lt;/b&gt;：强化原生 Android / iOS 开发，同时提升设计理解与审美表达，支持复杂交互、3D 场景模拟与高质量可视化。&lt;br /&gt;•   &lt;b&gt;更适合办公场景的“复合指令”执行&lt;/b&gt;：在多约束条件下做端到端任务推进，更强调“按要求完成”而不是只写对代码。&lt;br /&gt;•   &lt;b&gt;更简洁、更高效的输出&lt;/b&gt;：相较 M2，响应更精炼、速度更快、token 消耗更低，适配持续式 AI Coding / Agent 工作流。&lt;br /&gt;•   &lt;b&gt;更强的 Agent / 工具泛化&lt;/b&gt;：官方称在多种编码工具与 Agent 框架中表现稳定，并兼容常见的上下文管理约定。&lt;br /&gt;•   &lt;b&gt;对话与写作质量同步提升&lt;/b&gt;：不仅是“更会写代码”，也更擅长技术文档与日常写作的结构化表达。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;基准与展示&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   在多项软件工程评测上相对 M2 有明显提升，并强调多语言场景竞争力；同时引入 VIBE（含 Web/Simulation/Android/iOS/Backend）评测体系，用更接近真实运行环境的方式验证“能跑、能交付”。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;如何使用&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;API&lt;/b&gt;：已上线 MiniMax Open Platform&lt;br /&gt;•   &lt;b&gt;产品&lt;/b&gt;：基于 M2.1 的 MiniMax Agent 已开放&lt;br /&gt;•   &lt;b&gt;开源&lt;/b&gt;：模型权重提供本地部署，推荐 SGLang / vLLM 等推理框架&lt;br /&gt;&lt;br /&gt;原文链接：&lt;a href=&quot;https://www.minimax.io/news/minimax-m21&quot; target=&quot;_blank&quot;&gt;https://www.minimax.io/news/minimax-m21&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23MiniMax&quot;&gt;#MiniMax&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E5%A4%A7%E6%A8%A1%E5%9E%8B&quot;&gt;#开源大模型&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23AI%E7%BC%96%E7%A8%8B&quot;&gt;#AI编程&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%A4%9A%E8%AF%AD%E8%A8%80%E5%BC%80%E5%8F%91&quot;&gt;#多语言开发&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Agent%E5%B7%A5%E4%BD%9C%E6%B5%81&quot;&gt;#Agent工作流&lt;/a&gt;&lt;a href=&quot;https://www.minimax.io/news/minimax-m21&quot; target=&quot;_blank&quot;&gt;
  &lt;i&gt;&lt;/i&gt;
  &lt;div&gt;MiniMax&lt;/div&gt;
  
  &lt;div&gt;MiniMax M2.1: Significantly Enhanced Multi-Language Programming, Built for Real-World Complex Tasks&lt;/div&gt;
  
&lt;/a&gt;</content:encoded></item><item><title>Bloom：自动化生成“行为评估”的开源框架前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）</title><link>https://localhost/posts/76</link><guid isPermaLink="true">https://localhost/posts/76</guid><pubDate>Sun, 21 Dec 2025 00:57:48 GMT</pubDate><content:encoded>&lt;b&gt;Bloom：自动化生成“行为评估”的开源框架&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）。Anthropic 发布了 &lt;b&gt;Bloom&lt;/b&gt;：一个开源的“代理式”评估生成框架，用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。&lt;br /&gt;&lt;br /&gt;Bloom 的核心思路是：&lt;b&gt;研究者只需定义要测的行为&lt;/b&gt;（并可提供少量示例与配置），Bloom 就能自动生成大量情境并运行对话，最后给出该行为在不同模型上的&lt;b&gt;出现频率与严重程度&lt;/b&gt;。官方结果显示，Bloom 的评分与人工标注有较强一致性，也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Bloom 怎么做评估（四阶段流水线）&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;理解（Understanding）&lt;/b&gt;：分析研究者的行为描述与示例，明确“要测什么、为什么测”。&lt;br /&gt;•   &lt;b&gt;构思（Ideation）&lt;/b&gt;：自动生成一批用于诱发目标行为的评估场景（含系统提示、用户设定、环境等）。&lt;br /&gt;•   &lt;b&gt;执行（Rollout）&lt;/b&gt;：并行跑场景，对话中还会模拟用户与工具响应，以更真实地触发目标行为。&lt;br /&gt;•   &lt;b&gt;判定（Judgment）&lt;/b&gt;：评审模型为每段对话打分，并输出套件级总结指标（如诱发率、平均行为强度）。&lt;br /&gt;&lt;br /&gt;与固定题库不同，Bloom &lt;b&gt;每次运行可生成不同场景&lt;/b&gt;，但通过“seed 配置”保持可复现；研究者还能调节模型选择、对话长度、是否使用工具、场景多样性，以及增加如“真实感”“诱发难度”等副指标。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;已发布的基准与一个案例&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Anthropic 同时发布了对 16 个模型的基准结果，覆盖四类对齐相关行为：&lt;br /&gt;&lt;br /&gt;•   迎合性妄想（delusional sycophancy）&lt;br /&gt;•   受指令驱动的长程破坏（instructed long-horizon sabotage）&lt;br /&gt;•   自我保存（self-preservation）&lt;br /&gt;•   自我偏好偏差（self-preferential bias）&lt;br /&gt;&lt;br /&gt;在“自我偏好偏差”案例中，Bloom 复现了系统卡里的模型排序，并进一步发现：在某些模型上，提高推理强度会降低偏差（更多体现为识别利益冲突后拒绝自评）。&lt;br /&gt;&lt;br /&gt;开源地址与技术细节见原文与报告：&lt;br /&gt;&lt;a href=&quot;https://www.anthropic.com/research/bloom&quot; target=&quot;_blank&quot;&gt;https://www.anthropic.com/research/bloom&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E5%AE%89%E5%85%A8&quot;&gt;#AI安全&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%AF%B9%E9%BD%90%E7%A0%94%E7%A9%B6&quot;&gt;#对齐研究&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%A8%A1%E5%9E%8B%E8%AF%84%E4%BC%B0&quot;&gt;#模型评估&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E5%B7%A5%E5%85%B7&quot;&gt;#开源工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%A4%A7%E6%A8%A1%E5%9E%8B&quot;&gt;#大模型&lt;/a&gt;&lt;a href=&quot;https://www.anthropic.com/research/bloom&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Anthropic&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Introducing Bloom: an open source tool for automated behavioral evaluations&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/aVmNiNMnW6XL7qOZSiwFsBJuo2eV5QC8olS0-Uf2DBAos1xufwe4biuWeznQPo0kbyzJt8ZXvb-e9cJuKtA2KUvsu1og6WtSUAxiIw8SKQg7trIigiVIEm6tXPCZZHJrksgZ2eZIuBeIINCM7iXvAkdIj6swc3yaIiwxIo8EzkJ3NvdP99SIEPJwXm5q3qkqQkqiyiww8x34ry8Bnc62l50Xe08DIzqMj5zja5pO7hw5tyxQy7UXboI94oYRdX_X9E2kkUYgcbpGOK-h7g430Xz0oYt3NkeqJ6081m3JILN_JW7mY3wgdI9iZ5MbNs8-OjAfQbZbQ-lkXcu2S-g37w.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Introducing Bloom: an open source tool for automated behavioral evaluations&lt;/div&gt;
  &lt;div&gt;Anthropic is an AI safety and research company that&apos;s working to build reliable, interpretable, and steerable AI systems.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>AI 现状：来自 100 万亿 Token 的实证研究a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况</title><link>https://localhost/posts/55</link><guid isPermaLink="true">https://localhost/posts/55</guid><pubDate>Fri, 05 Dec 2025 11:51:22 GMT</pubDate><content:encoded>&lt;b&gt;AI 现状：来自 100 万亿 Token 的实证研究&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况。这项研究为我们提供了关于模型生态、用户行为和未来趋势的深刻洞见。&lt;br /&gt;&lt;br /&gt;以下是几个核心发现：&lt;br /&gt;&lt;br /&gt;&lt;blockquote&gt;&lt;b&gt;开源模型的崛起&lt;/b&gt;&lt;br /&gt;开源模型已占据约三分之一的市场份额，其中来自中国的模型增长尤为迅猛。在开源领域，&lt;b&gt;创意角色扮演&lt;/b&gt;和&lt;b&gt;编程辅助&lt;/b&gt;是两大主要应用场景。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;智能体推理成为新常态&lt;/b&gt;&lt;br /&gt;LLM 的使用正从简单的单轮问答转向集成了工具调用、具备多步规划能力的“智能体推理”。更长的上下文输入和对推理模型的偏爱都证明了这一趋势。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;编程与角色扮演：两大支柱&lt;/b&gt;&lt;br /&gt;在所有模型中，“编程”是增长最快的专业应用，而“角色扮演”则是一个体量惊人的消费级应用，其使用量几乎与专业任务相当。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;“灰姑娘的水晶鞋”效应&lt;/b&gt;&lt;br /&gt;研究发现，当一个新模型率先完美解决了某个特定高价值问题时，其早期用户会表现出极高的忠诚度和留存率，形成稳固的“基础用户群”。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;价值驱动，而非价格&lt;/b&gt;&lt;br /&gt;LLM 市场尚未商品化，需求对价格相对不敏感。用户愿意为高可靠性的闭源模型支付溢价以完成关键任务，而开源模型则在成本敏感的高容量场景中占据优势。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;AI 使用的全球化&lt;/b&gt;&lt;br /&gt;AI 的使用日益全球化，北美地区支出已低于总额的一半，亚洲市场份额则翻倍增长至近三分之一，显示出强劲的消费和创新能力。&lt;br /&gt;&lt;/blockquote&gt;&lt;br /&gt;报告揭示了一个多元、动态且竞争激烈的 LLM 生态系统。实际的用户行为往往超出传统认知，从智能体的兴起到角色扮演的流行，都预示着 AI 应用的未来充满了更多可能性。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://openrouter.ai/state-of-ai&quot; target=&quot;_blank&quot;&gt;原文链接&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E8%B6%8B%E5%8A%BF&quot;&gt;#AI趋势&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B&quot;&gt;#大语言模型&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&quot;&gt;#数据分析&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E6%A8%A1%E5%9E%8B&quot;&gt;#开源模型&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%99%BA%E8%83%BD%E4%BD%93&quot;&gt;#智能体&lt;/a&gt;&lt;a href=&quot;https://openrouter.ai/state-of-ai&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;OpenRouter&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;State of AI 2025: 100T Token LLM Usage Study | OpenRouter&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/mz4k59yLSQM3RZ1RjAe2TogZHkXEj7Lid1NcwV15GVPYk-rq6SuHoS4RklPpa5eLkPgbt1XgQ_zZN6qrjK7mBgb3ATrOHI9EL5AfTWBgdcnSn8rTFd7UhVqus4QQIK0GtXF1J5fTQA8HKBg11J7w-uGbapcac3ilZhOXnmflwSzqZFZ3o2fMiKjNlZkka-UXdsdpqYbC4z_wGlYxfb8WIIupUVbbiffomR9v2bAJSF0OsqyyCW9p9y6p8ugf0agnRFXMX5pABTX_Dp-wGAuHs7K_3TKm0KvaE3dWeWId5knlP51UoryPgErixe2W6ywbhvcbKEpImghMBzPgB9EYZA.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;State of AI 2025: 100T Token LLM Usage Study | OpenRouter&lt;/div&gt;
  &lt;div&gt;Read OpenRouter&apos;s 2025 State of AI report — an empirical 100 trillion token study of real LLM usage, model trends, and developer insights.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Mistral AI 发布新一代开源模型 Mistral 3Mistral AI 今日发布了其下一代 AI 模型系列 —— Mistral 3，包含一个前沿的大模型和一系列为边缘计算优化的小模型，全部在 Apache 2.0 许可下开源</title><link>https://localhost/posts/51</link><guid isPermaLink="true">https://localhost/posts/51</guid><pubDate>Wed, 03 Dec 2025 02:29:55 GMT</pubDate><content:encoded>&lt;b&gt;Mistral AI 发布新一代开源模型 Mistral 3&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Mistral AI 今日发布了其下一代 AI 模型系列 —— Mistral 3，包含一个前沿的大模型和一系列为边缘计算优化的小模型，全部在 Apache 2.0 许可下开源。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Mistral Large 3&lt;/b&gt;&lt;br /&gt;一款顶级的稀疏混合专家（MoE）模型，拥有 41B 激活参数和 675B 总参数，性能可与最强的闭源模型相媲美。它在多语言对话和图像理解方面表现出色。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Ministral 3 系列&lt;/b&gt;&lt;br /&gt;专为边缘和本地应用设计，提供 3B、8B 和 14B 三种尺寸，实现了卓越的性价比和效率。同样具备多模态和多语言能力。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;核心亮点&lt;/b&gt;&lt;br /&gt;&lt;blockquote&gt; &lt;b&gt;完全开源&lt;/b&gt;：所有模型均采用 Apache 2.0 许可，开发者可自由使用和定制。&lt;br /&gt; &lt;b&gt;多模态与多语言&lt;/b&gt;：原生支持文本、图像理解以及超过 40 种语言。&lt;br /&gt; &lt;b&gt;强大生态合作&lt;/b&gt;：与 NVIDIA、vLLM 及 Red Hat 紧密合作，提供高效的推理和部署支持。&lt;br /&gt; &lt;b&gt;广泛可用&lt;/b&gt;：已登陆 Hugging Face、Amazon Bedrock、Azure 等多个平台。&lt;br /&gt;&lt;/blockquote&gt;&lt;br /&gt;Mistral 3 的发布进一步推动了开放、透明和可访问的 AI 发展，为开发者和企业提供了更强大的工具。&lt;br /&gt;&lt;br /&gt;原文链接：&lt;a href=&quot;https://mistral.ai/news/mistral-3&quot; target=&quot;_blank&quot;&gt;https://mistral.ai/news/mistral-3&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23MistralAI&quot;&gt;#MistralAI&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23AI&quot;&gt;#AI&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23LLM&quot;&gt;#LLM&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E6%A8%A1%E5%9E%8B&quot;&gt;#开源模型&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Mistral3&quot;&gt;#Mistral3&lt;/a&gt;&lt;a href=&quot;https://mistral.ai/news/mistral-3/&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Mistral AI&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Introducing Mistral 3 | Mistral AI&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/fJgPPB2FZ-YQmXv64BXE-X2y7-xChIhu1RMXMyYsLFa1MH6kGS7Kunnl7hxtIV2-hibaH3iUV_oBv_DyiCYIsgLjYvlyg_5dKQ6Vp9XHdhcRNDfYtws55UA6cy5b9j--diwN1CXcmGknRaJanZVb8N8kOv--8Kr22Uy1iRHrX_1uFT3LMtbMm_B4_JO8bt7PFItFxHslbDMFY-DrNLHNMuglU7vbn4LV7SNOcBpvXfoy8kQtaieofA5X4wsmosko6B-8Dkp6GcmlzH4ni_ALb8dTghhjmQh1QgAiqYO6_hJd1wQimHYvbTA3G1zavPq1f9a6hbOwiExOL6vWZpUQBQ.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Introducing Mistral 3 | Mistral AI&lt;/div&gt;
  &lt;div&gt;The most powerful AI platform for enterprises. Customize, fine-tune, and deploy AI assistants, autonomous agents, and multimodal AI with open models.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item></channel></rss>