<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet href="/rss.xsl" type="text/xsl"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>模型评测 | 面条的草稿箱</title><description>无原创，纯转发</description><link>https://localhost</link><item><title>CursorBench：Cursor 如何更贴近真实开发来评估模型质量开发者正在把更长、更复杂的编程任务交给智能体：跨多个文件、工具和步骤</title><link>https://localhost/posts/120</link><guid isPermaLink="true">https://localhost/posts/120</guid><pubDate>Fri, 13 Mar 2026 06:03:11 GMT</pubDate><content:encoded>&lt;b&gt;CursorBench：Cursor 如何更贴近真实开发来评估模型质量&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;开发者正在把更长、更复杂的编程任务交给智能体：跨多个文件、工具和步骤。Cursor 认为，评测方式也必须随之升级，才能真实反映“好用与否”。&lt;br /&gt;&lt;br /&gt;Cursor 的做法是 &lt;b&gt;线上 + 线下&lt;/b&gt; 的混合评测闭环：&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;线下：CursorBench（内部基准）&lt;/b&gt;&lt;br /&gt;    基于工程团队的真实 Cursor 会话构建，而不是从公开代码库抽题。因为更贴近实际工作流、信息更不充分且常带歧义，CursorBench 往往能更好地区分前沿模型，并衡量多维能力（正确性、代码质量、效率、交互行为等）。&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;线上：真实流量的受控实验&lt;/b&gt;&lt;br /&gt;    用于捕捉线下评测遗漏的退化：例如线下评分器判“正确”，但开发者实际体验变差。Cursor 会用多类代理指标（交互信号 + 输出质量信号）综合观察，并通过消融实验归因（如移除语义搜索工具来定位其关键场景）。&lt;br /&gt;&lt;br /&gt;为什么不太依赖公开基准？Cursor 指出三类常见问题：&lt;br /&gt;&lt;br /&gt;1.  &lt;b&gt;任务不匹配&lt;/b&gt;：许多基准仍偏向“修 bug”或“解谜题”，与真实开发请求脱节。&lt;br /&gt;2.  &lt;b&gt;评分困难&lt;/b&gt;：真实请求常有多种正确解，固定答案容易误伤合理方案。&lt;br /&gt;3.  &lt;b&gt;数据污染&lt;/b&gt;：公开仓库题目容易进入训练数据，分数被抬高；甚至出现“记忆补丁”与测试缺陷等问题。&lt;br /&gt;&lt;br /&gt;下一步，Cursor 预计开发会更多转向“长时运行智能体”。他们也计划让 CursorBench 适配更长任务，并解决成本、可复现性、以及离线结果与真实体验之间的差距。&lt;br /&gt;&lt;br /&gt;原文链接：&lt;a href=&quot;https://cursor.com/cn/blog/cursorbench&quot; target=&quot;_blank&quot;&gt;https://cursor.com/cn/blog/cursorbench&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23%E6%A8%A1%E5%9E%8B%E8%AF%84%E6%B5%8B&quot;&gt;#模型评测&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E7%BC%96%E7%A8%8B%E6%99%BA%E8%83%BD%E4%BD%93&quot;&gt;#编程智能体&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%9F%BA%E5%87%86%E6%B5%8B%E8%AF%95&quot;&gt;#基准测试&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Cursor&quot;&gt;#Cursor&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E4%BD%93%E9%AA%8C&quot;&gt;#开发者体验&lt;/a&gt;&lt;a href=&quot;https://cursor.com/cn/blog/cursorbench&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Cursor&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;How we compare model quality in Cursor · Cursor&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/QRvICVn9snfzukg82oFNZXywk4nurNWHeEwJrrPLmFAO7IZZHlo7sEP_qI_acKG1_RPMpo7Lfm88ritWi6KP78DNBgac4qbTzAiVDEtUTR_7NEL6WmTe2O8lmNRtdhifXCW31XhvLvk8X8jHBOycBh1ztir-qVYthNrpbL1DYK4UMtpJhYHAfb4N_hH7EO3NmZQ2n_YNq9KDTRVyocV4ORVIPzFwoynkGakSxLab1gFHzk860MJ_JmRhC47fVUVijcu3bswc_P62gdWXIUfGd-WCCiZiQVLxKMZxq061REs2e5Ts1omkAiPEOMcwXWhhUsUjBB2BBMWBWn7ugDTCzA.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;How we compare model quality in Cursor · Cursor&lt;/div&gt;
  &lt;div&gt;We use a hybrid online-offline eval process to keep our understanding of model quality aligned with what developers actually do.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>2025 年 AI 编程现状：效率在涨，工具与模型在分化Greptile 发布的《The State of AI Coding 2025》梳理了 AI 编程在 2025 年的关键趋势：工程产出显著提升，开发工具生态快速扩张，而不同大模型在“响应速度、吞吐、成本”上的取舍越来越清晰</title><link>https://localhost/posts/84</link><guid isPermaLink="true">https://localhost/posts/84</guid><pubDate>Fri, 26 Dec 2025 13:19:39 GMT</pubDate><content:encoded>&lt;b&gt;2025 年 AI 编程现状：效率在涨，工具与模型在分化&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Greptile 发布的《The State of AI Coding 2025》梳理了 AI 编程在 2025 年的关键趋势：工程产出显著提升，开发工具生态快速扩张，而不同大模型在“响应速度、吞吐、成本”上的取舍越来越清晰。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;1) 工程效率：PR 更大，个人产出更高&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;PR 规模变大&lt;/b&gt;：2025 年 3 月到 11 月，PR 的中位改动行数从 57 增至 76，约 &lt;b&gt;+33%&lt;/b&gt;。&lt;br /&gt;•   &lt;b&gt;开发者产出上升&lt;/b&gt;：人均代码产出从 4,450 增至 7,839 行，约 &lt;b&gt;+76%&lt;/b&gt;，AI 工具被视为“产能放大器”。&lt;br /&gt;•   &lt;b&gt;中型团队提升更明显&lt;/b&gt;：6–15 人团队的人均产出从 7,005 增至 13,227 行，约 &lt;b&gt;+89%&lt;/b&gt;。&lt;br /&gt;•   &lt;b&gt;单文件改动更密&lt;/b&gt;：每个文件的改动行数中位数从 18 增至 22，约 &lt;b&gt;+20%&lt;/b&gt;，说明 PR 不只变大，也更“集中”。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;2) 工具采用：从“能用”到“形成标准层”&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;记忆/Memory 基建&lt;/b&gt;：&lt;code&gt;mem0&lt;/code&gt; 以 &lt;b&gt;59%&lt;/b&gt; 份额领跑（按 PyPI + npm 月下载量口径）。&lt;br /&gt;•   &lt;b&gt;向量数据库&lt;/b&gt;：没有绝对赢家；Weaviate 约 &lt;b&gt;25%&lt;/b&gt;，其余多家在 10–25% 之间拉锯。&lt;br /&gt;•   &lt;b&gt;AI 规则文件&lt;/b&gt;：&lt;code&gt;CLAUDE.md&lt;/code&gt; 使用率 &lt;b&gt;67%&lt;/b&gt;；不少团队多格式并存，且 &lt;b&gt;17% 的仓库三种格式都用&lt;/b&gt;。&lt;br /&gt;•   &lt;b&gt;AI SDK 增长&lt;/b&gt;：Anthropic SDK 以 &lt;b&gt;43M&lt;/b&gt; 下载领先（约 8 倍增长）；Pydantic AI 增长 &lt;b&gt;3.7×&lt;/b&gt; 到 &lt;b&gt;6M&lt;/b&gt;。&lt;br /&gt;•   &lt;b&gt;LLMOps&lt;/b&gt;：LiteLLM 月下载量增长 &lt;b&gt;4×&lt;/b&gt; 至 &lt;b&gt;41M&lt;/b&gt;（LangSmith 与 LangChain 安装存在绑定关系）。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;3) 模型格局：生态差距在收敛&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;SDK 下载量&lt;/b&gt;：OpenAI 约 &lt;b&gt;130M&lt;/b&gt; 领先；Anthropic 自 2023 年 4 月起增长 &lt;b&gt;1,547×&lt;/b&gt;；Google 约 &lt;b&gt;13.6M&lt;/b&gt;。&lt;br /&gt;•   &lt;b&gt;差距缩小&lt;/b&gt;：OpenAI 与 Anthropic 的下载量比从 2024 年 1 月的 &lt;b&gt;47:1&lt;/b&gt;，降至 2025 年 11 月的 &lt;b&gt;4.2:1&lt;/b&gt;。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;4) 作为“编程 Agent 后端”，模型各有侧重&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;报告用统一参数对多模型做了延迟、吞吐、成本等基准：&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;首 token 响应（TTFT）&lt;/b&gt;：Claude Sonnet/Opus（p50 &amp;lt; 2.5s）明显更快，更利于交互式编程保持“心流”。&lt;br /&gt;•   &lt;b&gt;生成吞吐&lt;/b&gt;：GPT-5 Codex / GPT-5.1 吞吐更高，长输出更快结束，利于并行跑更多 Agent/CI。&lt;br /&gt;•   &lt;b&gt;成本倍率（以 GPT-5 Codex = 1× 归一）&lt;/b&gt;：GPT-5 Codex ≈ GPT-5.1（1×）；Gemini 3 Pro（1.4×）；Sonnet 4.5（2×）；Opus 4.5（3.3×）。&lt;br /&gt;&lt;br /&gt;结论很直接：选型不再是“谁最强”，而是你更在意 &lt;b&gt;响应速度、吞吐效率，还是预算&lt;/b&gt;。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;5) 研究方向：规模、上下文与 Agent 的“系统工程”&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;报告还汇总了 2025 年影响工具与应用的一批研究线索，包括：&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;MoE 的效率设计&lt;/b&gt;（如 DeepSeek-V3：关注 KV cache、路由与训练信号密度）。&lt;br /&gt;•   &lt;b&gt;长上下文 vs RAG 的边界&lt;/b&gt;（不同数据结构下各有优势；以及 KV 级检索等新思路）。&lt;br /&gt;•   &lt;b&gt;Agent 训练与检索策略&lt;/b&gt;（用 RL 学会“何时搜索”、如何管理长程记忆、如何降低噪声上下文干扰等）。&lt;br /&gt;&lt;br /&gt;原文链接：&lt;a href=&quot;https://www.greptile.com/state-of-ai-coding-2025&quot; target=&quot;_blank&quot;&gt;https://www.greptile.com/state-of-ai-coding-2025&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E7%BC%96%E7%A8%8B&quot;&gt;#AI编程&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E6%95%88%E7%8E%87&quot;&gt;#开发效率&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23LLM%E5%B7%A5%E5%85%B7%E9%93%BE&quot;&gt;#LLM工具链&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%A8%A1%E5%9E%8B%E8%AF%84%E6%B5%8B&quot;&gt;#模型评测&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E8%BD%AF%E4%BB%B6%E5%B7%A5%E7%A8%8B%E8%B6%8B%E5%8A%BF&quot;&gt;#软件工程趋势&lt;/a&gt;&lt;a href=&quot;https://www.greptile.com/state-of-ai-coding-2025&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Greptile&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;AI Code Review | Greptile | Merge 4X Faster, Catch 3X More Bugs&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/hfShrCsZA-0OoEmYsJmgxvHCwj7q7NGihNVTRjjhsIUcVlVFa6z1oktsaeEoWwRd6R-4Q7gRuV4dlLtKxaAdP3U4uL3wB91bMA7xRU1t3a70gtLAK3WXIY10-UiivuYM0aWr0yVBR7tfgkAK-jWHDTmonIw9BCrdGNRoT7SNc-gpTxs1vCEWs9mDMRZpyUEzhIe9qyNSZldinJPkOQpOHB9I7XCz-l0ZaEIRTer6OCcqFQnjnbhV1DNhdZv5TaDmuVWgmGAB1REpUX4tm6TUq2JT0wfnC-0UFCGPsvxDCM5orYESnTVio5sCLQnhNIO9zekb2DSwTzbs1_GlwRKMhw.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;AI Code Review | Greptile | Merge 4X Faster, Catch 3X More Bugs&lt;/div&gt;
  &lt;div&gt;AI Code Reviews that understand your entire codebase. Automate PR reviews, catch bugs faster, improve code quality with AI-driven analysis. Try Greptile free!&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Bloom：自动化生成“行为评估”的开源框架前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）</title><link>https://localhost/posts/76</link><guid isPermaLink="true">https://localhost/posts/76</guid><pubDate>Sun, 21 Dec 2025 00:57:48 GMT</pubDate><content:encoded>&lt;b&gt;Bloom：自动化生成“行为评估”的开源框架&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）。Anthropic 发布了 &lt;b&gt;Bloom&lt;/b&gt;：一个开源的“代理式”评估生成框架，用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。&lt;br /&gt;&lt;br /&gt;Bloom 的核心思路是：&lt;b&gt;研究者只需定义要测的行为&lt;/b&gt;（并可提供少量示例与配置），Bloom 就能自动生成大量情境并运行对话，最后给出该行为在不同模型上的&lt;b&gt;出现频率与严重程度&lt;/b&gt;。官方结果显示，Bloom 的评分与人工标注有较强一致性，也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Bloom 怎么做评估（四阶段流水线）&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;理解（Understanding）&lt;/b&gt;：分析研究者的行为描述与示例，明确“要测什么、为什么测”。&lt;br /&gt;•   &lt;b&gt;构思（Ideation）&lt;/b&gt;：自动生成一批用于诱发目标行为的评估场景（含系统提示、用户设定、环境等）。&lt;br /&gt;•   &lt;b&gt;执行（Rollout）&lt;/b&gt;：并行跑场景，对话中还会模拟用户与工具响应，以更真实地触发目标行为。&lt;br /&gt;•   &lt;b&gt;判定（Judgment）&lt;/b&gt;：评审模型为每段对话打分，并输出套件级总结指标（如诱发率、平均行为强度）。&lt;br /&gt;&lt;br /&gt;与固定题库不同，Bloom &lt;b&gt;每次运行可生成不同场景&lt;/b&gt;，但通过“seed 配置”保持可复现；研究者还能调节模型选择、对话长度、是否使用工具、场景多样性，以及增加如“真实感”“诱发难度”等副指标。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;已发布的基准与一个案例&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Anthropic 同时发布了对 16 个模型的基准结果，覆盖四类对齐相关行为：&lt;br /&gt;&lt;br /&gt;•   迎合性妄想（delusional sycophancy）&lt;br /&gt;•   受指令驱动的长程破坏（instructed long-horizon sabotage）&lt;br /&gt;•   自我保存（self-preservation）&lt;br /&gt;•   自我偏好偏差（self-preferential bias）&lt;br /&gt;&lt;br /&gt;在“自我偏好偏差”案例中，Bloom 复现了系统卡里的模型排序，并进一步发现：在某些模型上，提高推理强度会降低偏差（更多体现为识别利益冲突后拒绝自评）。&lt;br /&gt;&lt;br /&gt;开源地址与技术细节见原文与报告：&lt;br /&gt;&lt;a href=&quot;https://www.anthropic.com/research/bloom&quot; target=&quot;_blank&quot;&gt;https://www.anthropic.com/research/bloom&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E5%AE%89%E5%85%A8&quot;&gt;#AI安全&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%AF%B9%E9%BD%90%E7%A0%94%E7%A9%B6&quot;&gt;#对齐研究&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%A8%A1%E5%9E%8B%E8%AF%84%E4%BC%B0&quot;&gt;#模型评估&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E5%B7%A5%E5%85%B7&quot;&gt;#开源工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%A4%A7%E6%A8%A1%E5%9E%8B&quot;&gt;#大模型&lt;/a&gt;&lt;a href=&quot;https://www.anthropic.com/research/bloom&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Anthropic&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Introducing Bloom: an open source tool for automated behavioral evaluations&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/aVmNiNMnW6XL7qOZSiwFsBJuo2eV5QC8olS0-Uf2DBAos1xufwe4biuWeznQPo0kbyzJt8ZXvb-e9cJuKtA2KUvsu1og6WtSUAxiIw8SKQg7trIigiVIEm6tXPCZZHJrksgZ2eZIuBeIINCM7iXvAkdIj6swc3yaIiwxIo8EzkJ3NvdP99SIEPJwXm5q3qkqQkqiyiww8x34ry8Bnc62l50Xe08DIzqMj5zja5pO7hw5tyxQy7UXboI94oYRdX_X9E2kkUYgcbpGOK-h7g430Xz0oYt3NkeqJ6081m3JILN_JW7mY3wgdI9iZ5MbNs8-OjAfQbZbQ-lkXcu2S-g37w.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Introducing Bloom: an open source tool for automated behavioral evaluations&lt;/div&gt;
  &lt;div&gt;Anthropic is an AI safety and research company that&apos;s working to build reliable, interpretable, and steerable AI systems.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item></channel></rss>