Skip to main content

Search: #内容付费

无原创,纯转发
  1. pure.md:把任意网页稳定转成适合 LLM 的 Markdown(还带“全球缓存”)

    pure.md 提供一个简单的 REST API:只要在任意 URL 前加上 pure.md/,就能更可靠地获取网页内容,并输出对大模型更友好的 Markdown。

    它能做什么:

    更稳定地抓取网页:通过代理网络模拟真实用户行为,降低被识别为爬虫的概率;必要时还会尝试其他镜像来源。
    渲染 JavaScript 重网页/SPA:自动完成 DOM hydration,避免只拿到“空壳 HTML”。
    多格式转 Markdown:支持 HTML、PDF、图片(含识别与摘要)、以及表格文件(如 Excel/Numbers)等。
    面向 LLM 的精简输出:减少页面冗余信息,附带元数据(frontmatter),降低 token 成本、提升推理效率。
    实时搜索(SERP 抓取):把搜索结果聚合成可直接喂给提示词的 Markdown,让应用更“跟得上今天”。
    按需数据抽取:把 GET 换成 POST,即可用内置生成式模型从页面中抽取结构化 JSON(可自定义 schema),或以流式文本返回。

    定价概览:

    • Starter:按量付费(60 req/min;fetch $0.003;search $0.005;不含 GenAI 抽取;含 $1 体验金)
    • Growth:$19/月 + 计量(600 req/min;更低单价;含 GenAI 抽取;每月 $20 免费额度)
    • Business:$99/月 + 计量(3000 req/min;更低单价;含 GenAI 抽取;每月 $100 免费额度)

    原链接:https://pure.md/

    #网页抓取 #Markdown #大模型工具 #内容提取 #数据抽取
  2. RSL 1.0:让 AI 公司为内容付费的开放许可标准正式发布

    一项旨在让 AI 公司为其在网络上抓取的内容付费的开放许可标准现已正式成为规范。Really Simple Licensing 1.0(简称 RSL)允许出版商向访问其网站的网络爬虫规定许可和补偿规则。

    RSL Collective 于今年 9 月宣布该标准,获得 Yahoo、Ziff Davis 和 O'Reilly Media 的支持。它是对 robots.txt 文件的扩展,后者规定了网络爬虫可以访问网站的哪些部分。虽然 RSL 本身无法阻止不付费的 AI 爬虫,但支持该标准的网络基础设施提供商可以——目前名单已包括 Cloudflare 和 Akamai(此前还有 Fastly)。

    RSL 1.0 的一个重要功能是:允许出版商阻止其内容出现在 AI 驱动的搜索功能中(如 Google 的 AI Mode),同时保留在传统搜索结果中的存在。目前 Google 并未提供单独选项让网站退出 AI 功能而不影响传统搜索。

    RSL Collective 联合创始人 Doug Leeds 和 Eckart Walther 表示:"使用 RSL,Google 可以在用例级别尊重出版商的偏好,这意味着出版商可以完全保留在传统搜索中,同时选择退出 AI 训练、接地或生成式回答。"

    🔗 阅读原文

    #RSL #AI许可 #内容付费 #网络爬虫 #出版商权益 A pay-to-scrape AI licensing standard is now official
1px