Skip to main content

Search: #开源大模型

无原创,纯转发
  1. Gemma 4 图解指南:Google DeepMind 开源模型家族全面解析

    Google DeepMind 发布了 Gemma 4 系列模型,作者 Maarten Grootendorst(刚入职 Google DeepMind)以丰富的可视化方式详细拆解了这一系列模型的架构设计。

    四款模型,覆盖多种场景

    Gemma 4 E2B — 密集模型,等效 20 亿参数,适合端侧部署
    Gemma 4 E4B — 密集模型,等效 40 亿参数,适合端侧部署
    Gemma 4 31B — 310 亿参数的密集模型
    Gemma 4 26B A4B — MoE 架构,总参数 260 亿,推理时仅激活 40 亿参数,兼顾性能与效率

    所有模型均为多模态,支持图像输入;小模型(E2B/E4B)还额外支持音频输入

    核心架构亮点

    注意力机制优化:

    • 局部注意力(滑动窗口)与全局注意力交替堆叠(5:1 或 4:1),最后一层始终为全局注意力
    • 全局注意力层采用 8 个 Query 共享 1 个 KV 头的分组查询注意力(GQA)
    K=V 技巧:全局注意力层中 Key 等于 Value,进一步压缩 KV 缓存
    p-RoPE:仅对前 25% 维度施加旋转位置编码,避免低频维度引入噪声,提升长上下文处理能力

    视觉编码器:

    • 基于 Vision Transformer(ViT),支持可变宽高比和可变分辨率
    • 通过 2D RoPE 编码 patch 的二维位置信息
    • 引入 soft token budget(70/140/280/560/1120),用户可按任务需求灵活选择分辨率

    MoE 架构(26B A4B):

    • 128 个专家中每次激活 8 个 + 1 个始终激活的共享专家(3 倍大小)
    • 虽然总参数 260 亿,推理速度接近 40 亿参数模型

    Per-Layer Embeddings(E2B/E4B):

    • 每一层都有独立的 token embedding 查找表,存储在闪存而非显存中
    • 让小模型在有限 RAM 下也能获得更强的表达能力,非常适合手机等端侧设备

    音频编码器(E2B/E4B):

    • 基于 Conformer 架构,通过梅尔频谱图提取特征并下采样为 soft token
    • 支持语音识别和翻译等任务

    🔗 https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4

    #Gemma4 #GoogleDeepMind #多模态 #MoE #开源模型 A Visual Guide to Gemma 4
  2. Stripe「Minions」:一键生成、端到端交付的无人值守编码代理

    Stripe 在内部打造了一套名为 Minions 的编码代理:从接到任务到产出可评审的 PR,全程几乎无需人类介入。现在,Stripe 每周有超过 1000 个合并的 PR 是由 Minions 从头到尾生成的(人类负责 Review,但不写代码)。

    为什么要自研?

    在 Stripe 这种超大规模、强约束的工程环境里,“从零写个原型”和“在成熟巨型代码库里安全改动”完全不是一回事:

    • 代码库规模巨大(数亿行),栈也相对小众:大量后端是 Ruby + Sorbet,还有大量 Stripe 自研库,LLM 天然不熟
    • 业务风险极高:Stripe 的代码承载着 每年超过 1 万亿美元 的支付规模,并受金融合规与监管约束
    • 既要让代理“会写”,也要让它“按规矩写、能跑通、能过 CI”,并与既有研发流程深度结合

    工程师怎么用?

    最常见的入口是 Slack

    • 在讨论线程里 @Slack App 就能发起 Minion,它会读取整个线程与相关链接作为上下文
    • 也集成到内部系统里:文档平台、Feature Flag、工单系统等
    例如 CI 发现 flaky tests,会生成工单,直接提供按钮让 Minion 去修

    完成后,Minion 会:

    • 创建分支 → 推送 → 跑 CI → 按模板生成 PR

    如果效果不理想,人类可以补充指令让它再改;即使不完美,也常常是很好的“可用起点”。

    Minions 背后怎么运作(要点版)

    Stripe 的思路是:把“创意生成”交给 LLM,把“必须可靠执行的步骤”交给确定性工具链

    • 运行环境:在隔离的 devbox 中执行(10 秒内可启动,预热并预载代码与服务),与生产与公网隔离,便于并行
    • Agent 框架:基于 Block 的开源编码代理 goose 的 fork,并做了强定制
    • 规则与上下文:读取各类 agent rule 文件,但多为“按目录条件生效”,避免全局死规则拖累
    • 工具调用:接入 MCP(函数调用通用协议),并建设内部 MCP 服务 Toolshed,提供 400+ 工具(文档、工单、构建状态、Sourcegraph 搜索等)
    • 反馈与质量闸门:
    • 首先跑本地启发式 lint/检查(通常 <5 秒)
    • 再跑选择性的 CI(Stripe 有 300 万+ 测试),部分失败可自动修复
    • 为控制成本与等待时间:最多两轮 CI,强调“能本地提前发现就不要拖到 CI”

    接下来

    这篇是系列 Part 1,主要讲“怎么用、能做什么”;Part 2 会深入实现细节。整体信号很明确:当“开发者注意力”成为稀缺资源时,无人值守、可并行的编码代理正在改变工程协作方式。

    原文链接:https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents

    #AI工程化 #编码代理 #开发者效率 #CI实践 #Stripe Minions: Stripe’s one-shot, end-to-end coding agents
  3. Steel:为 AI Agent 打造的开源云端浏览器基础设施

    Steel 是一个开源的浏览器 API,用来在云端按需启动并控制“浏览器集群”,让 AI Agent、自动化脚本把能力真正带到网页上运行。

    它适合做什么?

    • 大规模网页抓取与数据采集(也支持更稳定的反爬配置)
    • 自主 Web Agent(下单、订票、填写表单等真实操作流程)
    • 模型训练数据采集、AI 购物助手、RPA/销售自动化、QA 测试、客服自动化

    核心能力概览

    • Sessions API:一行调用启动浏览器会话
    • 自动 CAPTCHA 处理:减少流程中断
    • 代理与指纹控制:降低被识别为机器人的概率
    • 快速启动:平均会话启动时间低于 1 秒(同区域更快)
    • 长会话:单个会话最长可跑 24 小时
    • 上下文复用:保存/注入 Cookies 与本地存储,续跑更顺畅
    • 低改动迁移:Puppeteer/Playwright/Selenium 通过少量改动即可上云
    • 可观测性:提供会话查看器,支持实时/录制回放调试
    • 安全登录:帮助自动化访问需要登录的站点

    价格与开源

    • 提供免费档起步(按浏览器小时/代理带宽/CAPTCHA 计量),也有从个人到企业的多档套餐
    • 项目开源,可本地运行或用 Docker 自托管(官方 GitHub 仓库提供)

    原链接:https://steel.dev/
    #浏览器自动化 #AI代理 #Web抓取 #开源工具 #云基础设施 Steel | Open-source Headless Browser API
  4. MiniMax M2.1 发布:面向真实复杂任务的多语言编程升级

    MiniMax 发布新一代文本模型 MiniMax M2.1,目标从“可用、低成本”进一步走向“能解决真实世界的复杂任务”,重点补齐多语言工程协作与办公场景执行力。

    这次重点提升了什么?

    多语言编程能力系统增强:覆盖 Rust / Java / Go / C++ / Kotlin / Objective‑C / TypeScript / JavaScript 等,更贴近真实项目的多语言栈协作。
    Web & App 开发更强、更好看:强化原生 Android / iOS 开发,同时提升设计理解与审美表达,支持复杂交互、3D 场景模拟与高质量可视化。
    更适合办公场景的“复合指令”执行:在多约束条件下做端到端任务推进,更强调“按要求完成”而不是只写对代码。
    更简洁、更高效的输出:相较 M2,响应更精炼、速度更快、token 消耗更低,适配持续式 AI Coding / Agent 工作流。
    更强的 Agent / 工具泛化:官方称在多种编码工具与 Agent 框架中表现稳定,并兼容常见的上下文管理约定。
    对话与写作质量同步提升:不仅是“更会写代码”,也更擅长技术文档与日常写作的结构化表达。

    基准与展示

    • 在多项软件工程评测上相对 M2 有明显提升,并强调多语言场景竞争力;同时引入 VIBE(含 Web/Simulation/Android/iOS/Backend)评测体系,用更接近真实运行环境的方式验证“能跑、能交付”。

    如何使用

    API:已上线 MiniMax Open Platform
    产品:基于 M2.1 的 MiniMax Agent 已开放
    开源:模型权重提供本地部署,推荐 SGLang / vLLM 等推理框架

    原文链接:https://www.minimax.io/news/minimax-m21

    #MiniMax #开源大模型 #AI编程 #多语言开发 #Agent工作流
  5. Bloom:自动化生成“行为评估”的开源框架

    前沿模型的对齐研究离不开高质量的行为评估,但传统评估往往开发周期长、容易“过时”(被训练数据污染或被能力提升绕过)。Anthropic 发布了 Bloom:一个开源的“代理式”评估生成框架,用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。

    Bloom 的核心思路是:研究者只需定义要测的行为(并可提供少量示例与配置),Bloom 就能自动生成大量情境并运行对话,最后给出该行为在不同模型上的出现频率与严重程度。官方结果显示,Bloom 的评分与人工标注有较强一致性,也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。

    Bloom 怎么做评估(四阶段流水线)

    理解(Understanding):分析研究者的行为描述与示例,明确“要测什么、为什么测”。
    构思(Ideation):自动生成一批用于诱发目标行为的评估场景(含系统提示、用户设定、环境等)。
    执行(Rollout):并行跑场景,对话中还会模拟用户与工具响应,以更真实地触发目标行为。
    判定(Judgment):评审模型为每段对话打分,并输出套件级总结指标(如诱发率、平均行为强度)。

    与固定题库不同,Bloom 每次运行可生成不同场景,但通过“seed 配置”保持可复现;研究者还能调节模型选择、对话长度、是否使用工具、场景多样性,以及增加如“真实感”“诱发难度”等副指标。

    已发布的基准与一个案例

    Anthropic 同时发布了对 16 个模型的基准结果,覆盖四类对齐相关行为:

    • 迎合性妄想(delusional sycophancy)
    • 受指令驱动的长程破坏(instructed long-horizon sabotage)
    • 自我保存(self-preservation)
    • 自我偏好偏差(self-preferential bias)

    在“自我偏好偏差”案例中,Bloom 复现了系统卡里的模型排序,并进一步发现:在某些模型上,提高推理强度会降低偏差(更多体现为识别利益冲突后拒绝自评)。

    开源地址与技术细节见原文与报告:
    https://www.anthropic.com/research/bloom

    #AI安全 #对齐研究 #模型评估 #开源工具 #大模型 Introducing Bloom: an open source tool for automated behavioral evaluations
  6. AI 现状:来自 100 万亿 Token 的实证研究

    a16z 与 OpenRouter 合作,通过分析超过 100 万亿 Token 的真实世界交互数据,揭示了大型语言模型(LLM)的实际使用情况。这项研究为我们提供了关于模型生态、用户行为和未来趋势的深刻洞见。

    以下是几个核心发现:

    开源模型的崛起
    开源模型已占据约三分之一的市场份额,其中来自中国的模型增长尤为迅猛。在开源领域,创意角色扮演编程辅助是两大主要应用场景。

    智能体推理成为新常态
    LLM 的使用正从简单的单轮问答转向集成了工具调用、具备多步规划能力的“智能体推理”。更长的上下文输入和对推理模型的偏爱都证明了这一趋势。

    编程与角色扮演:两大支柱
    在所有模型中,“编程”是增长最快的专业应用,而“角色扮演”则是一个体量惊人的消费级应用,其使用量几乎与专业任务相当。

    “灰姑娘的水晶鞋”效应
    研究发现,当一个新模型率先完美解决了某个特定高价值问题时,其早期用户会表现出极高的忠诚度和留存率,形成稳固的“基础用户群”。

    价值驱动,而非价格
    LLM 市场尚未商品化,需求对价格相对不敏感。用户愿意为高可靠性的闭源模型支付溢价以完成关键任务,而开源模型则在成本敏感的高容量场景中占据优势。

    AI 使用的全球化
    AI 的使用日益全球化,北美地区支出已低于总额的一半,亚洲市场份额则翻倍增长至近三分之一,显示出强劲的消费和创新能力。

    报告揭示了一个多元、动态且竞争激烈的 LLM 生态系统。实际的用户行为往往超出传统认知,从智能体的兴起到角色扮演的流行,都预示着 AI 应用的未来充满了更多可能性。

    原文链接

    #AI趋势 #大语言模型 #数据分析 #开源模型 #智能体 State of AI 2025: 100T Token LLM Usage Study | OpenRouter
  7. Mistral AI 发布新一代开源模型 Mistral 3

    Mistral AI 今日发布了其下一代 AI 模型系列 —— Mistral 3,包含一个前沿的大模型和一系列为边缘计算优化的小模型,全部在 Apache 2.0 许可下开源。

    Mistral Large 3
    一款顶级的稀疏混合专家(MoE)模型,拥有 41B 激活参数和 675B 总参数,性能可与最强的闭源模型相媲美。它在多语言对话和图像理解方面表现出色。

    Ministral 3 系列
    专为边缘和本地应用设计,提供 3B、8B 和 14B 三种尺寸,实现了卓越的性价比和效率。同样具备多模态和多语言能力。

    核心亮点
    完全开源:所有模型均采用 Apache 2.0 许可,开发者可自由使用和定制。
    多模态与多语言:原生支持文本、图像理解以及超过 40 种语言。
    强大生态合作:与 NVIDIA、vLLM 及 Red Hat 紧密合作,提供高效的推理和部署支持。
    广泛可用:已登陆 Hugging Face、Amazon Bedrock、Azure 等多个平台。

    Mistral 3 的发布进一步推动了开放、透明和可访问的 AI 发展,为开发者和企业提供了更强大的工具。

    原文链接:https://mistral.ai/news/mistral-3

    #MistralAI #AI #LLM #开源模型 #Mistral3 Introducing Mistral 3 | Mistral AI
1px