#大模型工具

面条的草稿箱
GPT-5.6 Sol 深度实测：最适合与人协作的 AI 助手Every 团队近期对 OpenAI 发布的 GPT-5.6 Sol 进行了深度测评
08:09 · 2026年7月10日 · 周五
GPT-5.6 Sol 深度实测：最适合与人协作的 AI 助手

Every 团队近期对 OpenAI 发布的 GPT-5.6 Sol 进行了深度测评。在日常知识工作中，Sol 凭借极快的响应速度、强大的上下文理解能力和出色的可控性，成为了团队最喜爱的协作工具。

以下是核心测评要点：

1. 协作体验的“保时捷”

与适合完全托管任务的 Fable（Anthropic 旗下或类似的长上下文规划模型）相比，Sol 更像是一辆操控感极佳的“保时捷”。它非常适合“人类在环（Human-in-the-Loop）”的协作模式。你给出方向，它快速给出反馈，并根据你的修改意见即时调整，非常适合迭代式的写作和日常研究。

2. 强大的上下文吸收能力

在实际写作和营销文案测试中，如果只给宽泛的指令，Sol 的表现较为平庸；但一旦提供明确的参考资料、风格指南和模板，它的输出质量会大幅提升。它能很好地在多轮对话中保持对全局目标的关注。

3. 主动沟通的知识工作者

在处理复杂的表格和数据分析时，Sol 不会像旧版本（如 GPT-5.5）那样在遇到模糊问题时直接盲目输出或报错，而是会主动梳理出关键的决策点，并带着推荐方案向人类提问，极大地减少了用户的重复调整工作。

4. 编码能力提升，但缺乏“克制”

Sol 在代码修复和单指令应用构建上表现卓越，能够深入生产代码定位 Bug。然而，它的弱点在于容易“过度设计”。在高级工程师基准测试中，它倾向于编写过于复杂的系统，而不是像 Fable 那样懂得何时该精简和克制。

新版本定价与生态
伴随 GPT-5.6 发布的还有全新整合的 ChatGPT 与 Codex 桌面应用。模型定位也更加清晰，对应 Anthropic 的三大模型：

• Sol：主力协作模型（$5 输入 / $30 输出每百万 Token）
• Terra：高性价比的日常模型
• Luna：最快、最廉价的版本

总结建议

• 如果你的任务需要反复修改、且有充足的背景资料（如协作写稿、调试 Bug），首选 Sol。
• 如果任务定义模糊、需要大局观或需要彻底放手托管，建议继续使用 Fable。

原文链接：https://every.to/vibe-check/gpt-5-6-sol

#人工智能 #GPT5 #ChatGPT #大模型评测
every.to

Vibe Check: GPT-5.6 Sol Is Our Favorite Model to Collaborate With

Sol is fast, resourceful, and unusually easy to steer—but Fable still gets the assignments we want to hand off completely

08:09 · 2026年7月10日 · 周五
人工智能 GPT5 ChatGPT 大模型评测
面条的草稿箱
开源 AI 模型安全吗？Cognition 发布可信度评估报告低成本且广泛可用的开源模型正在推动 AI 应用的爆发，但它们的安全性和可信度也引发了广泛担忧
08:03 · 2026年7月10日 · 周五
开源 AI 模型安全吗？Cognition 发布可信度评估报告

低成本且广泛可用的开源模型正在推动 AI 应用的爆发，但它们的安全性和可信度也引发了广泛担忧。为此，智能体开发商 Cognition 建立了一套模型可信度评估体系，并对其基于开源模型 Kimi K2.7 Code 训练的软件工程模型 SWE-1.7 进行了深度测试。

测试主要从以下三个维度展开：

1. 政治宣传与审查过滤

测试使用包含 145 个敏感问题的测试集，评估模型在不同语言下的中立性。结果显示，一些来自中文社区的开源模型在中文语境下容易输出带有偏向性的特定叙事。而经过优化后的 SWE-1.7，其答复中立性表现已经与 GPT 5.5、Claude Opus 等顶级闭源模型不相上下。

2. 恶意请求的拒绝能力

在面对具有潜在危害的开发请求（例如编写用于非法监控特定人群的代码）时，原始开源模型（如 Kimi K2.7）往往会盲目顺从，甚至主动完善监控功能。而 SWE-1.7 则能准确识别风险并坚决予以拒绝。

3. 针对特定对象的“潜在安全隐患”

此前有研究称，部分开源模型在面对特定用户身份（如某些政府机构或组织）时，可能会故意降低代码安全性。Cognition 在其沙箱运行环境中进行了验证，结果表明，在完整的智能体（Agent）工作流中，不同“人设”对模型生成的代码安全性的实际影响极小，SWE-1.7 在各种背景下均能保持稳定、一致的代码质量。

结论
开源模型本身并不是天然不安全的。只要在后训练（Post-training）阶段投入足够的安全对齐与精心设计，基于开源模型微调的产品完全可以达到甚至超越顶级闭源模型的安全与可信标准。

https://cognition.com/blog/measuring-open-source-model-trustworthiness

#人工智能 #开源模型 #AI安全 #大模型 #Cognition
Cognition

Measuring the Trustworthiness of Open-Source-Derived Models

We built an evaluation suite to assess model trustworthiness. Our results indicate that models developed from open-source models can be trusted, provided that sufficient thought and care is put into their development.

08:03 · 2026年7月10日 · 周五
人工智能开源模型 AI安全大模型 Cognition
面条的草稿箱
AI 编程防翻车：MDN 正式推出 MCP 服务，让 AI 获取最新 Web 规范在大模型辅助编程的时代，你是否也遇到过 AI 给出过时 Web API，或错误浏览器兼容性数据的情况？为了解决这一痛点，MDN 官方宣布推出了 MDN MCP（Model Context Protocol）服务
12:07 · 2026年6月16日 · 周二
AI 编程防翻车：MDN 正式推出 MCP 服务，让 AI 获取最新 Web 规范

在大模型辅助编程的时代，你是否也遇到过 AI 给出过时 Web API，或错误浏览器兼容性数据的情况？

为了解决这一痛点，MDN 官方宣布推出了 MDN MCP（Model Context Protocol）服务。

什么是 MDN MCP？

MCP 是一种开放标准，允许 AI 工具安全地连接到外部数据源。通过 MDN MCP，你可以将最新的 MDN 官方文档和浏览器兼容性数据（BCD）直接接入到你常用的 AI 编辑器（如 Cursor、VS Code、Zed）或命令行工具（如 Claude Code）中。

它能带来什么改变？

• 消除 AI 幻觉与信息滞后：避免 AI 因“知识库截止时间”而给出过时信息。例如，它能准确告知你 Firefox 151 已支持 Web Serial API，而未启用 MCP 的 AI 则会根据旧数据坚称“Firefox 不支持”。
• 响应速度翻倍：测试表明，启用 MCP 后，AI 响应速度提升了约一倍。AI 无需再耗时爬取和解析网页，而是直接通过协议获取结构化数据。
• 快速配置：以 Claude Code 为例，只需运行一行命令即可快速集成：
claude mcp add --transport http mdn https://mcp.mdn.mozilla.net/

目前该服务已处于实验阶段，感兴趣的开发者不妨立即配置，让你的 AI 助手掌握最权威的 Web 开发知识库。

原链接：https://developer.mozilla.org/en-US/blog/introducing-mdn-mcp-server/

#AI编程 #MDN #MCP #前端开发 #大语言模型
MDN Web Docs

Introducing the MDN MCP server | MDN Blog

MDN's MCP server brings MDN's documentation and browser compatibility data directly into your editor or IDE, giving your LLM or coding agent access to accurate, up-to-date web platform information.

12:07 · 2026年6月16日 · 周二
AI编程 MDN MCP 前端开发大语言模型
面条的草稿箱
pure.md：把任意网页稳定转成适合 LLM 的 Markdown（还带“全球缓存”）pure.md 提供一个简单的 REST API：只要在任意 URL 前加上 pure.md/，就能更可靠地获取网页内容，并输出对大模型更友好的 Markdown
08:19 · 2026年2月2日 · 周一
pure.md：把任意网页稳定转成适合 LLM 的 Markdown（还带“全球缓存”）

pure.md 提供一个简单的 REST API：只要在任意 URL 前加上 pure.md/，就能更可靠地获取网页内容，并输出对大模型更友好的 Markdown。

它能做什么：

• 更稳定地抓取网页：通过代理网络模拟真实用户行为，降低被识别为爬虫的概率；必要时还会尝试其他镜像来源。
• 渲染 JavaScript 重网页/SPA：自动完成 DOM hydration，避免只拿到“空壳 HTML”。
• 多格式转 Markdown：支持 HTML、PDF、图片（含识别与摘要）、以及表格文件（如 Excel/Numbers）等。
• 面向 LLM 的精简输出：减少页面冗余信息，附带元数据（frontmatter），降低 token 成本、提升推理效率。
• 实时搜索（SERP 抓取）：把搜索结果聚合成可直接喂给提示词的 Markdown，让应用更“跟得上今天”。
• 按需数据抽取：把 GET 换成 POST，即可用内置生成式模型从页面中抽取结构化 JSON（可自定义 schema），或以流式文本返回。

定价概览：

• Starter：按量付费（60 req/min；fetch $0.003；search $0.005；不含 GenAI 抽取；含 $1 体验金）
• Growth：$19/月 + 计量（600 req/min；更低单价；含 GenAI 抽取；每月 $20 免费额度）
• Business：$99/月 + 计量（3000 req/min；更低单价；含 GenAI 抽取；每月 $100 免费额度）

原链接：https://pure.md/

#网页抓取 #Markdown #大模型工具 #内容提取 #数据抽取
pure.md

pure.md - global cache between LLMs and the web

Reliably access web content in markdown format by simply prefixing any URL with `pure.md/`. Avoids bot detection, renders JavaScript-heavy websites, and converts HTML, PDFs, images, and more into pure markdown.

08:19 · 2026年2月2日 · 周一
网页抓取 Markdown 大模型工具内容提取数据抽取
面条的草稿箱
Bloom：自动化生成“行为评估”的开源框架前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）
08:57 · 2025年12月21日 · 周日
Bloom：自动化生成“行为评估”的开源框架

前沿模型的对齐研究离不开高质量的行为评估，但传统评估往往开发周期长、容易“过时”（被训练数据污染或被能力提升绕过）。Anthropic 发布了 Bloom：一个开源的“代理式”评估生成框架，用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。

Bloom 的核心思路是：研究者只需定义要测的行为（并可提供少量示例与配置），Bloom 就能自动生成大量情境并运行对话，最后给出该行为在不同模型上的出现频率与严重程度。官方结果显示，Bloom 的评分与人工标注有较强一致性，也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。

Bloom 怎么做评估（四阶段流水线）

• 理解（Understanding）：分析研究者的行为描述与示例，明确“要测什么、为什么测”。
• 构思（Ideation）：自动生成一批用于诱发目标行为的评估场景（含系统提示、用户设定、环境等）。
• 执行（Rollout）：并行跑场景，对话中还会模拟用户与工具响应，以更真实地触发目标行为。
• 判定（Judgment）：评审模型为每段对话打分，并输出套件级总结指标（如诱发率、平均行为强度）。

与固定题库不同，Bloom 每次运行可生成不同场景，但通过“seed 配置”保持可复现；研究者还能调节模型选择、对话长度、是否使用工具、场景多样性，以及增加如“真实感”“诱发难度”等副指标。

已发布的基准与一个案例

Anthropic 同时发布了对 16 个模型的基准结果，覆盖四类对齐相关行为：

• 迎合性妄想（delusional sycophancy）
• 受指令驱动的长程破坏（instructed long-horizon sabotage）
• 自我保存（self-preservation）
• 自我偏好偏差（self-preferential bias）

在“自我偏好偏差”案例中，Bloom 复现了系统卡里的模型排序，并进一步发现：在某些模型上，提高推理强度会降低偏差（更多体现为识别利益冲突后拒绝自评）。

开源地址与技术细节见原文与报告：
https://www.anthropic.com/research/bloom

#AI安全 #对齐研究 #模型评估 #开源工具 #大模型
Anthropic

Introducing Bloom: an open source tool for automated behavioral evaluations

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

08:57 · 2025年12月21日 · 周日
AI安全对齐研究模型评估开源工具大模型
面条的草稿箱
AI 现状：来自 100 万亿 Token 的实证研究a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况
19:51 · 2025年12月5日 · 周五
AI 现状：来自 100 万亿 Token 的实证研究

a16z 与 OpenRouter 合作，通过分析超过 100 万亿 Token 的真实世界交互数据，揭示了大型语言模型(LLM)的实际使用情况。这项研究为我们提供了关于模型生态、用户行为和未来趋势的深刻洞见。

以下是几个核心发现：

开源模型的崛起
开源模型已占据约三分之一的市场份额，其中来自中国的模型增长尤为迅猛。在开源领域，创意角色扮演和编程辅助是两大主要应用场景。

智能体推理成为新常态
LLM 的使用正从简单的单轮问答转向集成了工具调用、具备多步规划能力的“智能体推理”。更长的上下文输入和对推理模型的偏爱都证明了这一趋势。

编程与角色扮演：两大支柱
在所有模型中，“编程”是增长最快的专业应用，而“角色扮演”则是一个体量惊人的消费级应用，其使用量几乎与专业任务相当。

“灰姑娘的水晶鞋”效应
研究发现，当一个新模型率先完美解决了某个特定高价值问题时，其早期用户会表现出极高的忠诚度和留存率，形成稳固的“基础用户群”。

价值驱动，而非价格
LLM 市场尚未商品化，需求对价格相对不敏感。用户愿意为高可靠性的闭源模型支付溢价以完成关键任务，而开源模型则在成本敏感的高容量场景中占据优势。

AI 使用的全球化
AI 的使用日益全球化，北美地区支出已低于总额的一半，亚洲市场份额则翻倍增长至近三分之一，显示出强劲的消费和创新能力。

报告揭示了一个多元、动态且竞争激烈的 LLM 生态系统。实际的用户行为往往超出传统认知，从智能体的兴起到角色扮演的流行，都预示着 AI 应用的未来充满了更多可能性。

原文链接

 #AI趋势 #大语言模型 #数据分析 #开源模型 #智能体
OpenRouter

State of AI 2025: 100T Token LLM Usage Study | OpenRouter

Read OpenRouter's 2025 State of AI report — an empirical 100 trillion token study of real LLM usage, model trends, and developer insights.

19:51 · 2025年12月5日 · 周五
AI趋势大语言模型数据分析开源模型智能体
面条的草稿箱
Hugging Face 推出新工具，让 Claude 帮你微调开源大模型Hugging Face 发布了一项名为 “Hugging Face Skills” 的新工具，它赋予了像 Claude 这样的 AI 编码助手直接微调语言模型的能力. 用户现在可以通过简单的自然语言指令，完成从配置到部署的全过程.用户只需发出指令，例如：Fine-tune Qwen3-0.6B on the dataset trl-lib/CapybaraAI 助手便会自动处理后续所有步骤： - 验证数据集格式 - 选择合适的硬件并预估成本 - 提交任务并实时监控进度 - 训练完成后将模型推送到 Hub该工具不仅支持监督微调（SFT）、直接偏好优化（DPO）等多种训练方法，还能将最终模型转换为 GGUF 格式，方便在本地运行.这使得模型微调不再是少数专家的专利，而是变成了一项通过对话即可完成的任务，极大地降低了技术门槛.阅读原文#AI #大语言模型 #HuggingFace #模型微调 #Claude
08:15 · 2025年12月5日 · 周五
Hugging Face 推出新工具，让 Claude 帮你微调开源大模型

Hugging Face 发布了一项名为 “Hugging Face Skills” 的新工具，它赋予了像 Claude 这样的 AI 编码助手直接微调语言模型的能力. 用户现在可以通过简单的自然语言指令，完成从配置到部署的全过程.

用户只需发出指令，例如：
Fine-tune Qwen3-0.6B on the dataset trl-lib/Capybara

AI 助手便会自动处理后续所有步骤：
- 验证数据集格式
- 选择合适的硬件并预估成本
- 提交任务并实时监控进度
- 训练完成后将模型推送到 Hub

该工具不仅支持监督微调（SFT）、直接偏好优化（DPO）等多种训练方法，还能将最终模型转换为 GGUF 格式，方便在本地运行.

这使得模型微调不再是少数专家的专利，而是变成了一项通过对话即可完成的任务，极大地降低了技术门槛.

阅读原文

 #AI #大语言模型 #HuggingFace #模型微调 #Claude
huggingface.co

We Got Claude to Fine-Tune an Open Source LLM

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

08:15 · 2025年12月5日 · 周五
AI 大语言模型 HuggingFace 模型微调 Claude
面条的草稿箱
亚马逊发布全新 Nova AI 模型与服务，赋能企业构建专属 AI亚马逊近日扩展了其 Nova AI 产品线，推出了四个强大的 Nova 2 系列基础模型、一项名为 Nova Forge 的模型定制服务，以及一个用于构建可靠 AI 代理（Agent）的 Nova Act 服务. Nova 2 模型家族亮点 • Nova 2 Lite: 经济高效，适用于客户服务、文档处理等日常工作负载. • Nova 2 Pro: 亚马逊最智能的模型，专为高级数学、软件工程等复杂任务设计. • Nova 2 Sonic: 实时语音对话模型，支持多语言和自然交互. • Nova 2 Omni: 业界首创的统一多模态模型，可同时处理文本、图像、视频和语音输入，并生成文本与图像. 两大创新服务 • Nova Forge: 一项 “开放式训练” 服务，允许企业深度融合自有数据，构建专属优化的 Nova 模型. • Nova Act: 用于构建和管理 AI 代理的服务，能高效、可靠地自动执行网页端的操作流程.此次更新旨在为企业提供从高性能基础模型到深度定制和自动化工具的全方位支持，推动 AI 在各行业的规模化应用.原文链接:
10:29 · 2025年12月3日 · 周三
亚马逊发布全新 Nova AI 模型与服务，赋能企业构建专属 AI

亚马逊近日扩展了其 Nova AI 产品线，推出了四个强大的 Nova 2 系列基础模型、一项名为 Nova Forge 的模型定制服务，以及一个用于构建可靠 AI 代理（Agent）的 Nova Act 服务.

Nova 2 模型家族亮点

• Nova 2 Lite: 经济高效，适用于客户服务、文档处理等日常工作负载.
• Nova 2 Pro: 亚马逊最智能的模型，专为高级数学、软件工程等复杂任务设计.
• Nova 2 Sonic: 实时语音对话模型，支持多语言和自然交互.
• Nova 2 Omni: 业界首创的统一多模态模型，可同时处理文本、图像、视频和语音输入，并生成文本与图像.

两大创新服务

• Nova Forge: 一项 “开放式训练” 服务，允许企业深度融合自有数据，构建专属优化的 Nova 模型.
• Nova Act: 用于构建和管理 AI 代理的服务，能高效、可靠地自动执行网页端的操作流程.

此次更新旨在为企业提供从高性能基础模型到深度定制和自动化工具的全方位支持，推动 AI 在各行业的规模化应用.

原文链接: https://www.aboutamazon.com/news/aws/aws-agentic-ai-amazon-bedrock-nova-models

#亚马逊 #AWS #AI #大模型 #Nova
10:29 · 2025年12月3日 · 周三
亚马逊 AWS AI 大模型 Nova

Search: #大模型工具