pure.md：把任意网页稳定转成适合 LLM 的 Markdown（还带“全球缓存”）pure.md 提供一个简单的 REST API：只要在任意 URL 前加上 pure.md/，就能更可靠地获取网页内容，并输出对大模型更友好的 Markdown

pure.md：把任意网页稳定转成适合 LLM 的 Markdown（还带“全球缓存”）

pure.md 提供一个简单的 REST API：只要在任意 URL 前加上 pure.md/，就能更可靠地获取网页内容，并输出对大模型更友好的 Markdown。

它能做什么：

• 更稳定地抓取网页：通过代理网络模拟真实用户行为，降低被识别为爬虫的概率；必要时还会尝试其他镜像来源。
• 渲染 JavaScript 重网页/SPA：自动完成 DOM hydration，避免只拿到“空壳 HTML”。
• 多格式转 Markdown：支持 HTML、PDF、图片（含识别与摘要）、以及表格文件（如 Excel/Numbers）等。
• 面向 LLM 的精简输出：减少页面冗余信息，附带元数据（frontmatter），降低 token 成本、提升推理效率。
• 实时搜索（SERP 抓取）：把搜索结果聚合成可直接喂给提示词的 Markdown，让应用更“跟得上今天”。
• 按需数据抽取：把 GET 换成 POST，即可用内置生成式模型从页面中抽取结构化 JSON（可自定义 schema），或以流式文本返回。

定价概览：

• Starter：按量付费（60 req/min；fetch $0.003；search $0.005；不含 GenAI 抽取；含 $1 体验金）
• Growth：$19/月 + 计量（600 req/min；更低单价；含 GenAI 抽取；每月 $20 免费额度）
• Business：$99/月 + 计量（3000 req/min；更低单价；含 GenAI 抽取；每月 $100 免费额度）

原链接：https://pure.md/

#网页抓取 #Markdown #大模型工具 #内容提取 #数据抽取

pure.md

pure.md - global cache between LLMs and the web

Reliably access web content in markdown format by simply prefixing any URL with `pure.md/`. Avoids bot detection, renders JavaScript-heavy websites, and converts HTML, PDFs, images, and more into pure markdown.