Skip to main content

Search: #网页抓取

无原创,纯转发
  1. pure.md:把任意网页稳定转成适合 LLM 的 Markdown(还带“全球缓存”)

    pure.md 提供一个简单的 REST API:只要在任意 URL 前加上 pure.md/,就能更可靠地获取网页内容,并输出对大模型更友好的 Markdown。

    它能做什么:

    更稳定地抓取网页:通过代理网络模拟真实用户行为,降低被识别为爬虫的概率;必要时还会尝试其他镜像来源。
    渲染 JavaScript 重网页/SPA:自动完成 DOM hydration,避免只拿到“空壳 HTML”。
    多格式转 Markdown:支持 HTML、PDF、图片(含识别与摘要)、以及表格文件(如 Excel/Numbers)等。
    面向 LLM 的精简输出:减少页面冗余信息,附带元数据(frontmatter),降低 token 成本、提升推理效率。
    实时搜索(SERP 抓取):把搜索结果聚合成可直接喂给提示词的 Markdown,让应用更“跟得上今天”。
    按需数据抽取:把 GET 换成 POST,即可用内置生成式模型从页面中抽取结构化 JSON(可自定义 schema),或以流式文本返回。

    定价概览:

    • Starter:按量付费(60 req/min;fetch $0.003;search $0.005;不含 GenAI 抽取;含 $1 体验金)
    • Growth:$19/月 + 计量(600 req/min;更低单价;含 GenAI 抽取;每月 $20 免费额度)
    • Business:$99/月 + 计量(3000 req/min;更低单价;含 GenAI 抽取;每月 $100 免费额度)

    原链接:https://pure.md/

    #网页抓取 #Markdown #大模型工具 #内容提取 #数据抽取
  2. Open Scouts:AI 驱动的网页监控平台

    Open Scouts 是一个开源的 AI 网页监控工具,让你创建自动化的"侦察兵"持续搜索网络,并在发现目标信息时发送邮件通知\。无论是追踪附近的新餐厅、监控 AI 资讯,还是其他内容,侦察兵都会 24/7 为你工作.

    核心特性
    • AI 智能代理:基于 OpenAI GPT-4,自动配置搜索策略
    • 灵活调度:支持每日、每 3 天、每周执行频率
    • 邮件通知:发现结果时自动推送到邮箱
    • 语义搜索:使用 pgvector 向量嵌入生成智能摘要
    • 用户隔离:通过 Supabase Auth 实现安全的多用户支持

    技术栈
    采用 Next.js 16、React 19、TypeScript、Tailwind CSS v4 构建,后端使用 Supabase + PostgreSQL,集成 Firecrawl 网页抓取、OpenAI API 和 Resend 邮件服务\。

    可扩展架构
    使用 pg_cron + pg_net + Edge Functions 实现调度分发,每个侦察兵独立执行,轻松扩展至数千个任务\。

    查看项目

    #AI智能体 #网页监控 #自动化工具 #开源项目 #Supabase GitHub - firecrawl/open-scouts: 🔥 AI-powered web monitoring platform. Create automated scouts that search the web and send email…
1px