pure.md:把任意网页稳定转成适合 LLM 的 Markdown(还带“全球缓存”)
pure.md 提供一个简单的 REST API:只要在任意 URL 前加上
它能做什么:
• 更稳定地抓取网页:通过代理网络模拟真实用户行为,降低被识别为爬虫的概率;必要时还会尝试其他镜像来源。
• 渲染 JavaScript 重网页/SPA:自动完成 DOM hydration,避免只拿到“空壳 HTML”。
• 多格式转 Markdown:支持 HTML、PDF、图片(含识别与摘要)、以及表格文件(如 Excel/Numbers)等。
• 面向 LLM 的精简输出:减少页面冗余信息,附带元数据(frontmatter),降低 token 成本、提升推理效率。
• 实时搜索(SERP 抓取):把搜索结果聚合成可直接喂给提示词的 Markdown,让应用更“跟得上今天”。
• 按需数据抽取:把 GET 换成 POST,即可用内置生成式模型从页面中抽取结构化 JSON(可自定义 schema),或以流式文本返回。
定价概览:
• Starter:按量付费(60 req/min;fetch $0.003;search $0.005;不含 GenAI 抽取;含 $1 体验金)
• Growth:$19/月 + 计量(600 req/min;更低单价;含 GenAI 抽取;每月 $20 免费额度)
• Business:$99/月 + 计量(3000 req/min;更低单价;含 GenAI 抽取;每月 $100 免费额度)
原链接:https://pure.md/
#网页抓取 #Markdown #大模型工具 #内容提取 #数据抽取
pure.md 提供一个简单的 REST API:只要在任意 URL 前加上
pure.md/,就能更可靠地获取网页内容,并输出对大模型更友好的 Markdown。它能做什么:
• 更稳定地抓取网页:通过代理网络模拟真实用户行为,降低被识别为爬虫的概率;必要时还会尝试其他镜像来源。
• 渲染 JavaScript 重网页/SPA:自动完成 DOM hydration,避免只拿到“空壳 HTML”。
• 多格式转 Markdown:支持 HTML、PDF、图片(含识别与摘要)、以及表格文件(如 Excel/Numbers)等。
• 面向 LLM 的精简输出:减少页面冗余信息,附带元数据(frontmatter),降低 token 成本、提升推理效率。
• 实时搜索(SERP 抓取):把搜索结果聚合成可直接喂给提示词的 Markdown,让应用更“跟得上今天”。
• 按需数据抽取:把 GET 换成 POST,即可用内置生成式模型从页面中抽取结构化 JSON(可自定义 schema),或以流式文本返回。
定价概览:
• Starter:按量付费(60 req/min;fetch $0.003;search $0.005;不含 GenAI 抽取;含 $1 体验金)
• Growth:$19/月 + 计量(600 req/min;更低单价;含 GenAI 抽取;每月 $20 免费额度)
• Business:$99/月 + 计量(3000 req/min;更低单价;含 GenAI 抽取;每月 $100 免费额度)
原链接:https://pure.md/
#网页抓取 #Markdown #大模型工具 #内容提取 #数据抽取