<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet href="/rss.xsl" type="text/xsl"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>对齐研究 | 面条的草稿箱</title><description>无原创，纯转发</description><link>https://localhost</link><item><title>Bloom：自动化生成“行为评估”的开源框架前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）</title><link>https://localhost/posts/76</link><guid isPermaLink="true">https://localhost/posts/76</guid><pubDate>Sun, 21 Dec 2025 00:57:48 GMT</pubDate><content:encoded>&lt;b&gt;Bloom：自动化生成“行为评估”的开源框架&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）。Anthropic 发布了 &lt;b&gt;Bloom&lt;/b&gt;：一个开源的“代理式”评估生成框架，用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。&lt;br /&gt;&lt;br /&gt;Bloom 的核心思路是：&lt;b&gt;研究者只需定义要测的行为&lt;/b&gt;（并可提供少量示例与配置），Bloom 就能自动生成大量情境并运行对话，最后给出该行为在不同模型上的&lt;b&gt;出现频率与严重程度&lt;/b&gt;。官方结果显示，Bloom 的评分与人工标注有较强一致性，也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Bloom 怎么做评估（四阶段流水线）&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;理解（Understanding）&lt;/b&gt;：分析研究者的行为描述与示例，明确“要测什么、为什么测”。&lt;br /&gt;•   &lt;b&gt;构思（Ideation）&lt;/b&gt;：自动生成一批用于诱发目标行为的评估场景（含系统提示、用户设定、环境等）。&lt;br /&gt;•   &lt;b&gt;执行（Rollout）&lt;/b&gt;：并行跑场景，对话中还会模拟用户与工具响应，以更真实地触发目标行为。&lt;br /&gt;•   &lt;b&gt;判定（Judgment）&lt;/b&gt;：评审模型为每段对话打分，并输出套件级总结指标（如诱发率、平均行为强度）。&lt;br /&gt;&lt;br /&gt;与固定题库不同，Bloom &lt;b&gt;每次运行可生成不同场景&lt;/b&gt;，但通过“seed 配置”保持可复现；研究者还能调节模型选择、对话长度、是否使用工具、场景多样性，以及增加如“真实感”“诱发难度”等副指标。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;已发布的基准与一个案例&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;Anthropic 同时发布了对 16 个模型的基准结果，覆盖四类对齐相关行为：&lt;br /&gt;&lt;br /&gt;•   迎合性妄想（delusional sycophancy）&lt;br /&gt;•   受指令驱动的长程破坏（instructed long-horizon sabotage）&lt;br /&gt;•   自我保存（self-preservation）&lt;br /&gt;•   自我偏好偏差（self-preferential bias）&lt;br /&gt;&lt;br /&gt;在“自我偏好偏差”案例中，Bloom 复现了系统卡里的模型排序，并进一步发现：在某些模型上，提高推理强度会降低偏差（更多体现为识别利益冲突后拒绝自评）。&lt;br /&gt;&lt;br /&gt;开源地址与技术细节见原文与报告：&lt;br /&gt;&lt;a href=&quot;https://www.anthropic.com/research/bloom&quot; target=&quot;_blank&quot;&gt;https://www.anthropic.com/research/bloom&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E5%AE%89%E5%85%A8&quot;&gt;#AI安全&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%AF%B9%E9%BD%90%E7%A0%94%E7%A9%B6&quot;&gt;#对齐研究&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%A8%A1%E5%9E%8B%E8%AF%84%E4%BC%B0&quot;&gt;#模型评估&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E5%B7%A5%E5%85%B7&quot;&gt;#开源工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%A4%A7%E6%A8%A1%E5%9E%8B&quot;&gt;#大模型&lt;/a&gt;&lt;a href=&quot;https://www.anthropic.com/research/bloom&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Anthropic&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;Introducing Bloom: an open source tool for automated behavioral evaluations&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/aVmNiNMnW6XL7qOZSiwFsBJuo2eV5QC8olS0-Uf2DBAos1xufwe4biuWeznQPo0kbyzJt8ZXvb-e9cJuKtA2KUvsu1og6WtSUAxiIw8SKQg7trIigiVIEm6tXPCZZHJrksgZ2eZIuBeIINCM7iXvAkdIj6swc3yaIiwxIo8EzkJ3NvdP99SIEPJwXm5q3qkqQkqiyiww8x34ry8Bnc62l50Xe08DIzqMj5zja5pO7hw5tyxQy7UXboI94oYRdX_X9E2kkUYgcbpGOK-h7g430Xz0oYt3NkeqJ6081m3JILN_JW7mY3wgdI9iZ5MbNs8-OjAfQbZbQ-lkXcu2S-g37w.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;Introducing Bloom: an open source tool for automated behavioral evaluations&lt;/div&gt;
  &lt;div&gt;Anthropic is an AI safety and research company that&apos;s working to build reliable, interpretable, and steerable AI systems.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item></channel></rss>