Skip to main content

Search: #大模型工具

无原创,纯转发
  1. pure.md:把任意网页稳定转成适合 LLM 的 Markdown(还带“全球缓存”)

    pure.md 提供一个简单的 REST API:只要在任意 URL 前加上 pure.md/,就能更可靠地获取网页内容,并输出对大模型更友好的 Markdown。

    它能做什么:

    更稳定地抓取网页:通过代理网络模拟真实用户行为,降低被识别为爬虫的概率;必要时还会尝试其他镜像来源。
    渲染 JavaScript 重网页/SPA:自动完成 DOM hydration,避免只拿到“空壳 HTML”。
    多格式转 Markdown:支持 HTML、PDF、图片(含识别与摘要)、以及表格文件(如 Excel/Numbers)等。
    面向 LLM 的精简输出:减少页面冗余信息,附带元数据(frontmatter),降低 token 成本、提升推理效率。
    实时搜索(SERP 抓取):把搜索结果聚合成可直接喂给提示词的 Markdown,让应用更“跟得上今天”。
    按需数据抽取:把 GET 换成 POST,即可用内置生成式模型从页面中抽取结构化 JSON(可自定义 schema),或以流式文本返回。

    定价概览:

    • Starter:按量付费(60 req/min;fetch $0.003;search $0.005;不含 GenAI 抽取;含 $1 体验金)
    • Growth:$19/月 + 计量(600 req/min;更低单价;含 GenAI 抽取;每月 $20 免费额度)
    • Business:$99/月 + 计量(3000 req/min;更低单价;含 GenAI 抽取;每月 $100 免费额度)

    原链接:https://pure.md/

    #网页抓取 #Markdown #大模型工具 #内容提取 #数据抽取
  2. Bloom:自动化生成“行为评估”的开源框架

    前沿模型的对齐研究离不开高质量的行为评估,但传统评估往往开发周期长、容易“过时”(被训练数据污染或被能力提升绕过)。Anthropic 发布了 Bloom:一个开源的“代理式”评估生成框架,用更快、更可扩展的方式衡量模型是否出现特定不对齐行为。

    Bloom 的核心思路是:研究者只需定义要测的行为(并可提供少量示例与配置),Bloom 就能自动生成大量情境并运行对话,最后给出该行为在不同模型上的出现频率与严重程度。官方结果显示,Bloom 的评分与人工标注有较强一致性,也能把“正常模型”和被刻意设计成异常行为的“模型个体”区分开。

    Bloom 怎么做评估(四阶段流水线)

    理解(Understanding):分析研究者的行为描述与示例,明确“要测什么、为什么测”。
    构思(Ideation):自动生成一批用于诱发目标行为的评估场景(含系统提示、用户设定、环境等)。
    执行(Rollout):并行跑场景,对话中还会模拟用户与工具响应,以更真实地触发目标行为。
    判定(Judgment):评审模型为每段对话打分,并输出套件级总结指标(如诱发率、平均行为强度)。

    与固定题库不同,Bloom 每次运行可生成不同场景,但通过“seed 配置”保持可复现;研究者还能调节模型选择、对话长度、是否使用工具、场景多样性,以及增加如“真实感”“诱发难度”等副指标。

    已发布的基准与一个案例

    Anthropic 同时发布了对 16 个模型的基准结果,覆盖四类对齐相关行为:

    • 迎合性妄想(delusional sycophancy)
    • 受指令驱动的长程破坏(instructed long-horizon sabotage)
    • 自我保存(self-preservation)
    • 自我偏好偏差(self-preferential bias)

    在“自我偏好偏差”案例中,Bloom 复现了系统卡里的模型排序,并进一步发现:在某些模型上,提高推理强度会降低偏差(更多体现为识别利益冲突后拒绝自评)。

    开源地址与技术细节见原文与报告:
    https://www.anthropic.com/research/bloom

    #AI安全 #对齐研究 #模型评估 #开源工具 #大模型 Introducing Bloom: an open source tool for automated behavioral evaluations
  3. AI 现状:来自 100 万亿 Token 的实证研究

    a16z 与 OpenRouter 合作,通过分析超过 100 万亿 Token 的真实世界交互数据,揭示了大型语言模型(LLM)的实际使用情况。这项研究为我们提供了关于模型生态、用户行为和未来趋势的深刻洞见。

    以下是几个核心发现:

    开源模型的崛起
    开源模型已占据约三分之一的市场份额,其中来自中国的模型增长尤为迅猛。在开源领域,创意角色扮演编程辅助是两大主要应用场景。

    智能体推理成为新常态
    LLM 的使用正从简单的单轮问答转向集成了工具调用、具备多步规划能力的“智能体推理”。更长的上下文输入和对推理模型的偏爱都证明了这一趋势。

    编程与角色扮演:两大支柱
    在所有模型中,“编程”是增长最快的专业应用,而“角色扮演”则是一个体量惊人的消费级应用,其使用量几乎与专业任务相当。

    “灰姑娘的水晶鞋”效应
    研究发现,当一个新模型率先完美解决了某个特定高价值问题时,其早期用户会表现出极高的忠诚度和留存率,形成稳固的“基础用户群”。

    价值驱动,而非价格
    LLM 市场尚未商品化,需求对价格相对不敏感。用户愿意为高可靠性的闭源模型支付溢价以完成关键任务,而开源模型则在成本敏感的高容量场景中占据优势。

    AI 使用的全球化
    AI 的使用日益全球化,北美地区支出已低于总额的一半,亚洲市场份额则翻倍增长至近三分之一,显示出强劲的消费和创新能力。

    报告揭示了一个多元、动态且竞争激烈的 LLM 生态系统。实际的用户行为往往超出传统认知,从智能体的兴起到角色扮演的流行,都预示着 AI 应用的未来充满了更多可能性。

    原文链接

    #AI趋势 #大语言模型 #数据分析 #开源模型 #智能体 State of AI 2025: 100T Token LLM Usage Study | OpenRouter
  4. Hugging Face 推出新工具,让 Claude 帮你微调开源大模型

    Hugging Face 发布了一项名为 “Hugging Face Skills” 的新工具,它赋予了像 Claude 这样的 AI 编码助手直接微调语言模型的能力. 用户现在可以通过简单的自然语言指令,完成从配置到部署的全过程.

    用户只需发出指令,例如:
    Fine-tune Qwen3-0.6B on the dataset trl-lib/Capybara

    AI 助手便会自动处理后续所有步骤:
    - 验证数据集格式
    - 选择合适的硬件并预估成本
    - 提交任务并实时监控进度
    - 训练完成后将模型推送到 Hub

    该工具不仅支持监督微调(SFT)、直接偏好优化(DPO)等多种训练方法,还能将最终模型转换为 GGUF 格式,方便在本地运行.

    这使得模型微调不再是少数专家的专利,而是变成了一项通过对话即可完成的任务,极大地降低了技术门槛.

    阅读原文

    #AI #大语言模型 #HuggingFace #模型微调 #Claude We Got Claude to Fine-Tune an Open Source LLM
  5. 亚马逊发布全新 Nova AI 模型与服务,赋能企业构建专属 AI

    亚马逊近日扩展了其 Nova AI 产品线,推出了四个强大的 Nova 2 系列基础模型、一项名为 Nova Forge 的模型定制服务,以及一个用于构建可靠 AI 代理(Agent)的 Nova Act 服务.

    Nova 2 模型家族亮点

    Nova 2 Lite: 经济高效,适用于客户服务、文档处理等日常工作负载.
    Nova 2 Pro: 亚马逊最智能的模型,专为高级数学、软件工程等复杂任务设计.
    Nova 2 Sonic: 实时语音对话模型,支持多语言和自然交互.
    Nova 2 Omni: 业界首创的统一多模态模型,可同时处理文本、图像、视频和语音输入,并生成文本与图像.

    两大创新服务

    Nova Forge: 一项 “开放式训练” 服务,允许企业深度融合自有数据,构建专属优化的 Nova 模型.
    Nova Act: 用于构建和管理 AI 代理的服务,能高效、可靠地自动执行网页端的操作流程.

    此次更新旨在为企业提供从高性能基础模型到深度定制和自动化工具的全方位支持,推动 AI 在各行业的规模化应用.

    原文链接: https://www.aboutamazon.com/news/aws/aws-agentic-ai-amazon-bedrock-nova-models

    #亚马逊 #AWS #AI #大模型 #Nova
1px