Skip to main content

Search: #开发效率

无原创,纯转发
  1. Slim Tools:为 AI 智能体减负的统一 MCP 工具网关

    在使用 AI Agent(如 Claude、Cursor 等)时,你是否遇到过因为加载了太多 MCP 或 OpenAPI 工具,导致上下文窗口(Context Window)被严重占用、Token 消耗飞涨的情况?

    Slim Tools 提供了一个巧妙的解决方案:它将所有上游工具统一封装进一个极简的 MCP 接口中。

    核心特性:

    统一入口:无需向 AI 暴露所有工具,只需提供一个 Slim Tools 的 MCP URL(https://slim.tools/mcp)。
    按需探索:AI 代理在运行阶段仅能看到 discover_tools(工具搜索)和 execute_code(沙盒代码执行)两个核心能力。
    高效联动:AI 通过搜索找到匹配的工具,然后在沙盒中运行代码来组合并调用这些上游 API(如 GitHub、Notion、Slack、Figma 等)。
    简化授权:统一管理所有上游服务的 OAuth 授权,无需重复配置。

    通过这种“运行时发现”的设计,AI 代理无需在上下文里“背负”沉重的工具集,不仅让 Prompt 更加清爽,也让 Agent 的响应速度大幅提升。

    原文链接:http://slim.tools

    #AIAgents #MCP #开发者工具 #效率工具 Slim Tools | Tool Orchestration Runtime for AI Agents
  2. Gemma 4 图解指南:Google DeepMind 开源模型家族全面解析

    Google DeepMind 发布了 Gemma 4 系列模型,作者 Maarten Grootendorst(刚入职 Google DeepMind)以丰富的可视化方式详细拆解了这一系列模型的架构设计。

    四款模型,覆盖多种场景

    Gemma 4 E2B — 密集模型,等效 20 亿参数,适合端侧部署
    Gemma 4 E4B — 密集模型,等效 40 亿参数,适合端侧部署
    Gemma 4 31B — 310 亿参数的密集模型
    Gemma 4 26B A4B — MoE 架构,总参数 260 亿,推理时仅激活 40 亿参数,兼顾性能与效率

    所有模型均为多模态,支持图像输入;小模型(E2B/E4B)还额外支持音频输入

    核心架构亮点

    注意力机制优化:

    • 局部注意力(滑动窗口)与全局注意力交替堆叠(5:1 或 4:1),最后一层始终为全局注意力
    • 全局注意力层采用 8 个 Query 共享 1 个 KV 头的分组查询注意力(GQA)
    K=V 技巧:全局注意力层中 Key 等于 Value,进一步压缩 KV 缓存
    p-RoPE:仅对前 25% 维度施加旋转位置编码,避免低频维度引入噪声,提升长上下文处理能力

    视觉编码器:

    • 基于 Vision Transformer(ViT),支持可变宽高比和可变分辨率
    • 通过 2D RoPE 编码 patch 的二维位置信息
    • 引入 soft token budget(70/140/280/560/1120),用户可按任务需求灵活选择分辨率

    MoE 架构(26B A4B):

    • 128 个专家中每次激活 8 个 + 1 个始终激活的共享专家(3 倍大小)
    • 虽然总参数 260 亿,推理速度接近 40 亿参数模型

    Per-Layer Embeddings(E2B/E4B):

    • 每一层都有独立的 token embedding 查找表,存储在闪存而非显存中
    • 让小模型在有限 RAM 下也能获得更强的表达能力,非常适合手机等端侧设备

    音频编码器(E2B/E4B):

    • 基于 Conformer 架构,通过梅尔频谱图提取特征并下采样为 soft token
    • 支持语音识别和翻译等任务

    🔗 https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4

    #Gemma4 #GoogleDeepMind #多模态 #MoE #开源模型 A Visual Guide to Gemma 4
  3. CursorBench:Cursor 如何更贴近真实开发来评估模型质量

    开发者正在把更长、更复杂的编程任务交给智能体:跨多个文件、工具和步骤。Cursor 认为,评测方式也必须随之升级,才能真实反映“好用与否”。

    Cursor 的做法是 线上 + 线下 的混合评测闭环:

    线下:CursorBench(内部基准)
    基于工程团队的真实 Cursor 会话构建,而不是从公开代码库抽题。因为更贴近实际工作流、信息更不充分且常带歧义,CursorBench 往往能更好地区分前沿模型,并衡量多维能力(正确性、代码质量、效率、交互行为等)。

    线上:真实流量的受控实验
    用于捕捉线下评测遗漏的退化:例如线下评分器判“正确”,但开发者实际体验变差。Cursor 会用多类代理指标(交互信号 + 输出质量信号)综合观察,并通过消融实验归因(如移除语义搜索工具来定位其关键场景)。

    为什么不太依赖公开基准?Cursor 指出三类常见问题:

    1. 任务不匹配:许多基准仍偏向“修 bug”或“解谜题”,与真实开发请求脱节。
    2. 评分困难:真实请求常有多种正确解,固定答案容易误伤合理方案。
    3. 数据污染:公开仓库题目容易进入训练数据,分数被抬高;甚至出现“记忆补丁”与测试缺陷等问题。

    下一步,Cursor 预计开发会更多转向“长时运行智能体”。他们也计划让 CursorBench 适配更长任务,并解决成本、可复现性、以及离线结果与真实体验之间的差距。

    原文链接:https://cursor.com/cn/blog/cursorbench

    #模型评测 #编程智能体 #基准测试 #Cursor #开发者体验 How we compare model quality in Cursor · Cursor
  4. Entire:把 AI 编程对话“写进”每一次 Git 提交

    用 AI 写代码时,最容易丢的不是代码,而是“为什么这么写”的上下文。Entire 提供一个思路:在你正常的 git 工作流里,把每次 AI agent 会话自动记录下来,并与对应的 commit 绑定,形成可搜索的历史记录。

    它能做什么?

    自动捕获会话:在每次 push 时记录 AI agent 的会话内容,并和提交一起关联。
    不改变你的工作方式:通过 CLI 接入现有工具链,尽量减少上下文切换。
    支持多种 agent:目前支持 Claude CodeGoogle Gemini;OpenAI Codex 等集成在路上。
    把“意图”留在仓库里:官方强调记录会直接存进 git 历史,不依赖额外托管服务或外部数据库。

    安装方式(官网给出的命令)

    curl -fsSL https://entire.io/install.sh | bash

    适合希望团队更容易复盘决策、追踪 AI 产出过程、减少重复踩坑的工程项目。

    原链接:http://entire.io/

    #Git #AI编程 #开发工具 #工程效率 #CLI Entire · A new developer platform is coming
  5. Stripe「Minions」:一键生成、端到端交付的无人值守编码代理

    Stripe 在内部打造了一套名为 Minions 的编码代理:从接到任务到产出可评审的 PR,全程几乎无需人类介入。现在,Stripe 每周有超过 1000 个合并的 PR 是由 Minions 从头到尾生成的(人类负责 Review,但不写代码)。

    为什么要自研?

    在 Stripe 这种超大规模、强约束的工程环境里,“从零写个原型”和“在成熟巨型代码库里安全改动”完全不是一回事:

    • 代码库规模巨大(数亿行),栈也相对小众:大量后端是 Ruby + Sorbet,还有大量 Stripe 自研库,LLM 天然不熟
    • 业务风险极高:Stripe 的代码承载着 每年超过 1 万亿美元 的支付规模,并受金融合规与监管约束
    • 既要让代理“会写”,也要让它“按规矩写、能跑通、能过 CI”,并与既有研发流程深度结合

    工程师怎么用?

    最常见的入口是 Slack

    • 在讨论线程里 @Slack App 就能发起 Minion,它会读取整个线程与相关链接作为上下文
    • 也集成到内部系统里:文档平台、Feature Flag、工单系统等
    例如 CI 发现 flaky tests,会生成工单,直接提供按钮让 Minion 去修

    完成后,Minion 会:

    • 创建分支 → 推送 → 跑 CI → 按模板生成 PR

    如果效果不理想,人类可以补充指令让它再改;即使不完美,也常常是很好的“可用起点”。

    Minions 背后怎么运作(要点版)

    Stripe 的思路是:把“创意生成”交给 LLM,把“必须可靠执行的步骤”交给确定性工具链

    • 运行环境:在隔离的 devbox 中执行(10 秒内可启动,预热并预载代码与服务),与生产与公网隔离,便于并行
    • Agent 框架:基于 Block 的开源编码代理 goose 的 fork,并做了强定制
    • 规则与上下文:读取各类 agent rule 文件,但多为“按目录条件生效”,避免全局死规则拖累
    • 工具调用:接入 MCP(函数调用通用协议),并建设内部 MCP 服务 Toolshed,提供 400+ 工具(文档、工单、构建状态、Sourcegraph 搜索等)
    • 反馈与质量闸门:
    • 首先跑本地启发式 lint/检查(通常 <5 秒)
    • 再跑选择性的 CI(Stripe 有 300 万+ 测试),部分失败可自动修复
    • 为控制成本与等待时间:最多两轮 CI,强调“能本地提前发现就不要拖到 CI”

    接下来

    这篇是系列 Part 1,主要讲“怎么用、能做什么”;Part 2 会深入实现细节。整体信号很明确:当“开发者注意力”成为稀缺资源时,无人值守、可并行的编码代理正在改变工程协作方式。

    原文链接:https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents

    #AI工程化 #编码代理 #开发者效率 #CI实践 #Stripe Minions: Stripe’s one-shot, end-to-end coding agents
  6. dotagents:用一个 .agents 目录统一管理各类 AI 工具配置

    dotagents 是一个 CLI/TUI 工具,把项目或全局的 .agents 目录作为“唯一真相源”,自动为不同 AI 工具创建软链接,并支持安装技能(skills)和插件(plugins),方便在多环境之间保持一致配置、可重复执行、易维护。

    你能用它做什么

    • 以 .agents 为中心统一管理:hooks、commands、skills,以及 AGENTS/CLAUDE.md 等说明文件
    • 一键创建软链接,适配多工具(Claude / Codex / Factory)
    • 从本地路径、Git URL、HTTPS URL 安装 skills;并支持从 marketplace 安装 plugins
    • 可随时重复运行,用于补装、修复链接或更新能力集

    快速开始(要求:Bun 1.3+)

    npx @iannuttall/dotagents
    • 或 bunx @iannuttall/dotagents

    链接关系示例

    .agents/AGENTS.md~/.claude/CLAUDE.md
    .agents/commands~/.claude/commands / ~/.factory/commands / ~/.codex/prompts
    .agents/hooks.agents/skills 同步到对应工具目录

    https://github.com/iannuttall/dotagents

    #AI工具 #开发效率 #CLI #Claude #Codex GitHub - iannuttall/dotagents: One location for all of your hooks, commands, skills, and AGENT/CLAUDE.md files.
  7. 2025 年 AI 编程现状:效率在涨,工具与模型在分化

    Greptile 发布的《The State of AI Coding 2025》梳理了 AI 编程在 2025 年的关键趋势:工程产出显著提升,开发工具生态快速扩张,而不同大模型在“响应速度、吞吐、成本”上的取舍越来越清晰。

    1) 工程效率:PR 更大,个人产出更高

    PR 规模变大:2025 年 3 月到 11 月,PR 的中位改动行数从 57 增至 76,约 +33%
    开发者产出上升:人均代码产出从 4,450 增至 7,839 行,约 +76%,AI 工具被视为“产能放大器”。
    中型团队提升更明显:6–15 人团队的人均产出从 7,005 增至 13,227 行,约 +89%
    单文件改动更密:每个文件的改动行数中位数从 18 增至 22,约 +20%,说明 PR 不只变大,也更“集中”。

    2) 工具采用:从“能用”到“形成标准层”

    记忆/Memory 基建mem059% 份额领跑(按 PyPI + npm 月下载量口径)。
    向量数据库:没有绝对赢家;Weaviate 约 25%,其余多家在 10–25% 之间拉锯。
    AI 规则文件CLAUDE.md 使用率 67%;不少团队多格式并存,且 17% 的仓库三种格式都用
    AI SDK 增长:Anthropic SDK 以 43M 下载领先(约 8 倍增长);Pydantic AI 增长 3.7×6M
    LLMOps:LiteLLM 月下载量增长 41M(LangSmith 与 LangChain 安装存在绑定关系)。

    3) 模型格局:生态差距在收敛

    SDK 下载量:OpenAI 约 130M 领先;Anthropic 自 2023 年 4 月起增长 1,547×;Google 约 13.6M
    差距缩小:OpenAI 与 Anthropic 的下载量比从 2024 年 1 月的 47:1,降至 2025 年 11 月的 4.2:1

    4) 作为“编程 Agent 后端”,模型各有侧重

    报告用统一参数对多模型做了延迟、吞吐、成本等基准:

    首 token 响应(TTFT):Claude Sonnet/Opus(p50 < 2.5s)明显更快,更利于交互式编程保持“心流”。
    生成吞吐:GPT-5 Codex / GPT-5.1 吞吐更高,长输出更快结束,利于并行跑更多 Agent/CI。
    成本倍率(以 GPT-5 Codex = 1× 归一):GPT-5 Codex ≈ GPT-5.1(1×);Gemini 3 Pro(1.4×);Sonnet 4.5(2×);Opus 4.5(3.3×)。

    结论很直接:选型不再是“谁最强”,而是你更在意 响应速度、吞吐效率,还是预算

    5) 研究方向:规模、上下文与 Agent 的“系统工程”

    报告还汇总了 2025 年影响工具与应用的一批研究线索,包括:

    MoE 的效率设计(如 DeepSeek-V3:关注 KV cache、路由与训练信号密度)。
    长上下文 vs RAG 的边界(不同数据结构下各有优势;以及 KV 级检索等新思路)。
    Agent 训练与检索策略(用 RL 学会“何时搜索”、如何管理长程记忆、如何降低噪声上下文干扰等)。

    原文链接:https://www.greptile.com/state-of-ai-coding-2025

    #AI编程 #开发效率 #LLM工具链 #模型评测 #软件工程趋势 AI Code Review | Greptile | Merge 4X Faster, Catch 3X More Bugs
  8. 用 OpenRouter 接入 Claude Code:更稳、更可控的开发体验

    在 Claude Code 里把请求走 OpenRouter,本质上是给 Anthropic API 加一层“可靠性与管理”中间层。需要注意:官方只保证与 Anthropic 第一方(1P)提供商完全兼容;为了最佳兼容性,建议将 Anthropic 1P 设为最高优先级

    为什么要这样接入?

    自动故障切换(高可用):遇到 Anthropic API 宕机或限流时,OpenRouter 可在多个 Anthropic 提供商间自动切换,减少编码被打断的概率。
    团队预算管理:集中设置额度、分配成员用量、避免成本失控。
    用量可视化:在 OpenRouter 的 Activity Dashboard 里实时查看消耗、项目/成员用量等。

    快速上手(核心步骤)

    1)安装 Claude Code

    • macOS / Linux / WSL:
    curl -fsSL https://claude.ai/install.sh | bash
    • Windows PowerShell:
    irm https://claude.ai/install.ps1 | iex

    2)把 Claude Code 指到 OpenRouter

    关键点只有三个:

    1. Base URL 用:https://openrouter.ai/api
    2. Auth token 用你的 OpenRouter API Key
    3. 必须把 ANTHROPIC_API_KEY 显式设为空字符串(避免与默认 Anthropic 登录冲突)

    把下面环境变量写进你的 shell 配置(例如 ~/.zshrc / ~/.bashrc):

    export OPENROUTER_API_KEY="<your-openrouter-api-key>"
    export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
    export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
    export ANTHROPIC_API_KEY=""

    补充提醒:

    • 不要放在项目级 .env 里:Claude Code 原生安装器不会读常见 .env
    • 若之前用 Anthropic 账号登录过 Claude Code,先在会话里执行 /logout 清掉缓存凭据。

    3)启动并验证

    • 进入项目目录运行:claude
    • 在 Claude Code 内用 /status 查看是否生效,应该能看到:
    Auth token: ANTHROPIC_AUTH_TOKEN
    Anthropic base URL: https://openrouter.ai/api
    • 也可去 OpenRouter Activity Dashboard 看请求是否实时出现。

    进阶:Agent SDK 与 GitHub Action

    Anthropic Agent SDK(Python / TypeScript):由于它以 Claude Code 为运行时,同样使用上述环境变量即可接入 OpenRouter。
    Claude Code GitHub Action:在 action step 里
    anthropic_api_key 传入 secrets.OPENROUTER_API_KEY
    • 环境变量加 ANTHROPIC_BASE_URL: https://openrouter.ai/api

    成本跟踪 Statusline(可选)

    可以给 Claude Code 加自定义 statusline,实时显示 provider、模型、累计成本、缓存折扣等信息;脚本来自 openrouter-examples 仓库,并通过 ~/.claude/settings.json 配置 statusLine.command 启用。

    常见排错

    认证报错:确认 ANTHROPIC_API_KEY""(空字符串),而不是未设置;否则 Claude Code 可能回退到默认 Anthropic 认证流程。
    上下文长度错误:拆分任务或新开会话。
    隐私:OpenRouter 默认不记录你的源码 prompts,除非你在账号设置里明确选择开启日志。

    原链接:https://openrouter.ai/docs/guides/guides/claude-code-integration

    #ClaudeCode #OpenRouter #Anthropic #开发工具 #成本管理
  9. 小米发布 MiMo-V2-Flash:高效推理模型开源

    小米于 2025 年 12 月 16 日发布并开源了 MiMo-V2-Flash,这是一款高效、超快的基础语言模型,在推理、编码和智能体场景表现尤为出色,同时也可作为日常任务的通用助手。

    核心亮点

    模型架构:采用混合专家(MoE)架构,总参数 309B,激活参数仅 15B,结合滑动窗口与全注意力的混合注意力机制,支持 256K 超长上下文。

    性能表现
    • AIME 2025、GPQA-Diamond 等推理测试中位列开源模型前二
    • SWE-bench Verified 达 73.4%,SWE-bench Multilingual 达 71.7%,软件工程能力领先所有开源模型
    • 推理速度达 150 tokens/秒,成本仅 $0.1/百万输入 token

    技术创新
    • 多 Token 预测(MTP):通过自推测解码实现 2.0-2.6 倍加速
    • MOPD 训练范式:多教师在线策略蒸馏,训练效率提升 50 倍以上

    开源资源:模型权重以 MIT 协议开放于 Hugging Face,推理代码已贡献至 SGLang,技术报告同步发布。

    原文链接

    #小米 #MiMo #开源模型 #大语言模型 #AI推理
  10. Coding Agents 与复杂度预算

    Lee Robinson(Cursor 工程师)分享了一次惊人的迁移经历:仅用 3 天时间$260 token 费用 和数百个 AI Agent,就把 cursor.com 从 CMS 迁回纯代码和 Markdown。

    为什么要抛弃 CMS?

    CMS 带来的隐性复杂度超乎想象:
    • 多系统用户管理
    • 预览变更的繁琐流程
    • 国际化翻译的插件地狱
    • CDN 费用暴涨(上线后花了 $56,848)
    • 代码库的依赖和抽象膨胀

    AI 时代的关键洞察

    抽象的代价从未如此之高。当内容变成代码后:
    • Agent 可以直接 grep 和编辑
    • PR 链接无需登录即可分享预览
    • 所有变更通过 git 追踪,Agent 能自主挖掘历史

    迁移成果

    • 344 次 Agent 请求
    • 67 次 commit(+43K / -322K 行代码)
    • 构建速度提升 2 倍
    • 节省数千美元 CDN 费用
    • 第二天就能在手机上通过 cloud agent 合并修复

    核心观点

    "过度抽象一直是代码异味,现在有了简单的解决方案:花 token 删除复杂度。" 编程 Agent 正在帮助团队尝试疯狂想法、清理深埋的技术债。

    🔗 原文链接

    #CodingAgent #AI编程 #技术债务 #Cursor #开发效率
  11. 如何让 Claude Code Skills 可靠激活

    Claude Code 的 Skills 功能理论上会根据描述自动激活,但实际测试发现激活率仅约 20%,跟抛硬币差不多。作者通过 200+ 次测试,找到了两种有效方案。

    测试结果对比:

    Simple 简单指令:整体成功率仅 20%
    Forced Eval 强制评估:成功率 84%,最稳定
    LLM Eval 预评估:成功率 80%,更快更省钱

    核心发现

    强制评估之所以有效,在于它创建了「承诺机制」:

    1. Claude 必须逐一评估每个 Skill 并给出 YES/NO
    2. 明确表态后才能继续实现
    3. 使用 "MANDATORY"、"CRITICAL" 等强硬措辞增加执行力

    如何选择

    Forced Eval:追求稳定性,不介意输出冗长
    LLM Eval:追求速度和成本,适合单一技能场景

    使用方法:在 .claude/hooks/ 创建对应脚本,并在 settings.json 中配置 hook。如果用 claude-skills-cli,可直接运行:

    pnpm exec claude-skills-cli add-hook
    


    🔗 原文链接

    #ClaudeCode #Skills #开发技巧 #Anthropic #AI工具
  12. Claude Code Skills 不会自动激活?这有个解决方案

    Claude Code 的 Skills 功能号称是"自主激活"的——只要你的请求匹配技能描述,Claude 就会自动使用。但现实很骨感:它根本不会

    作者创建了一个 research 技能,用于验证信息来源。每当说"research this",Claude 应该自动调用该技能。结果呢?Claude 每次都无视技能,直接蛮干。

    问题根源

    Claude 太过专注于完成任务,会直接跳过检查可用工具的步骤。即使 Hook 提醒"检查一下 skills",Claude 也当成背景噪音忽略。

    解决方案:用 Hook 强制激活

    核心思路:不要依赖"自主激活",而是通过 UserPromptSubmit Hook 检测触发词,显式命令 Claude 使用技能。

    # 温柔提醒(无效)
    echo '💡 Check skills for relevant skills'
    
    # 强制指令(有效)
    echo "🔍 INSTRUCTION: Use Skill(research) to handle this"
    


    区别在于:一个是"请考虑一下",另一个是"闭嘴听令"!

    更简洁的通用方案

    后来作者发现了更简单的方式——一条通用 Hook 指令适用于所有技能:

    "command": "echo 'INSTRUCTION: If prompt matches any skill keywords, use Skill(skill-name) to activate it.'"
    


    无需维护关键词脚本,无需处理冲突。

    实测结果

    20 次测试,成功率约 50%——基本靠运气。但比维护复杂脚本省心多了。

    结论:官方说 Skills 会自动激活,实际不会。用简单 Hook 碰碰运气,重要任务还是显式调用 Skill(skill-name) 最靠谱。

    🔗 原文链接

    #ClaudeCode #AI工具 #开发技巧 #Hooks #编程 Claude Code Skills Don't Auto-Activate (a workaround) - Scott Spence
  13. AI 现状:来自 100 万亿 Token 的实证研究

    a16z 与 OpenRouter 合作,通过分析超过 100 万亿 Token 的真实世界交互数据,揭示了大型语言模型(LLM)的实际使用情况。这项研究为我们提供了关于模型生态、用户行为和未来趋势的深刻洞见。

    以下是几个核心发现:

    开源模型的崛起
    开源模型已占据约三分之一的市场份额,其中来自中国的模型增长尤为迅猛。在开源领域,创意角色扮演编程辅助是两大主要应用场景。

    智能体推理成为新常态
    LLM 的使用正从简单的单轮问答转向集成了工具调用、具备多步规划能力的“智能体推理”。更长的上下文输入和对推理模型的偏爱都证明了这一趋势。

    编程与角色扮演:两大支柱
    在所有模型中,“编程”是增长最快的专业应用,而“角色扮演”则是一个体量惊人的消费级应用,其使用量几乎与专业任务相当。

    “灰姑娘的水晶鞋”效应
    研究发现,当一个新模型率先完美解决了某个特定高价值问题时,其早期用户会表现出极高的忠诚度和留存率,形成稳固的“基础用户群”。

    价值驱动,而非价格
    LLM 市场尚未商品化,需求对价格相对不敏感。用户愿意为高可靠性的闭源模型支付溢价以完成关键任务,而开源模型则在成本敏感的高容量场景中占据优势。

    AI 使用的全球化
    AI 的使用日益全球化,北美地区支出已低于总额的一半,亚洲市场份额则翻倍增长至近三分之一,显示出强劲的消费和创新能力。

    报告揭示了一个多元、动态且竞争激烈的 LLM 生态系统。实际的用户行为往往超出传统认知,从智能体的兴起到角色扮演的流行,都预示着 AI 应用的未来充满了更多可能性。

    原文链接

    #AI趋势 #大语言模型 #数据分析 #开源模型 #智能体 State of AI 2025: 100T Token LLM Usage Study | OpenRouter
  14. Mistral AI 发布新一代开源模型 Mistral 3

    Mistral AI 今日发布了其下一代 AI 模型系列 —— Mistral 3,包含一个前沿的大模型和一系列为边缘计算优化的小模型,全部在 Apache 2.0 许可下开源。

    Mistral Large 3
    一款顶级的稀疏混合专家(MoE)模型,拥有 41B 激活参数和 675B 总参数,性能可与最强的闭源模型相媲美。它在多语言对话和图像理解方面表现出色。

    Ministral 3 系列
    专为边缘和本地应用设计,提供 3B、8B 和 14B 三种尺寸,实现了卓越的性价比和效率。同样具备多模态和多语言能力。

    核心亮点
    完全开源:所有模型均采用 Apache 2.0 许可,开发者可自由使用和定制。
    多模态与多语言:原生支持文本、图像理解以及超过 40 种语言。
    强大生态合作:与 NVIDIA、vLLM 及 Red Hat 紧密合作,提供高效的推理和部署支持。
    广泛可用:已登陆 Hugging Face、Amazon Bedrock、Azure 等多个平台。

    Mistral 3 的发布进一步推动了开放、透明和可访问的 AI 发展,为开发者和企业提供了更强大的工具。

    原文链接:https://mistral.ai/news/mistral-3

    #MistralAI #AI #LLM #开源模型 #Mistral3 Introducing Mistral 3 | Mistral AI
1px