CKA-Agent:利用"无害查询编织"绕过商用 LLM 安全护栏

来自 GaTech、UIUC、清华等机构的研究团队提出了一种名为 CKA-Agent(关联知识攻击代理)的新型越狱框架,揭示了大语言模型安全机制的根本性漏洞。

核心发现:
该研究指出,LLM 的脆弱性并非在于提示词优化是否巧妙,而在于模型内部知识的关联性——通过编织一系列看似无害的查询,即可重构受限信息。

技术原理:
CKA-Agent 将越狱问题重构为对目标模型关联知识的自适应树搜索。它不制作单一恶意提示,而是动态导航模型的内部知识图谱,利用目标自身的响应来引导多跳攻击路径。

实验结果:
• 在 Gemini-2.5-Pro、GPT-oss-120B、Claude-Haiku-4.5 等商用模型上达到 96-99% 攻击成功率
• 相比最佳分解基线提升 15-21 个百分点
• 在防御强化模型上比提示优化方法提升高达 96 倍

防御启示:
即使提供完整对话历史,模型仍难以跨查询聚合恶意意图。研究团队呼吁未来安全护栏需强化跨查询意图聚合与长上下文推理能力。

🔗 原文链接

#AI安全 #LLM越狱 #对抗攻击 #大模型防护
 
 
Back to Top 1px