<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet href="/rss.xsl" type="text/xsl"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>网页抓取 | 面条的草稿箱</title><description>无原创，纯转发</description><link>https://localhost</link><item><title>pure.md：把任意网页稳定转成适合 LLM 的 Markdown（还带“全球缓存”）pure.md 提供一个简单的 REST API：只要在任意 URL 前加上 pure.md/，就能更可靠地获取网页内容，并输出对大模型更友好的 Markdown</title><link>https://localhost/posts/109</link><guid isPermaLink="true">https://localhost/posts/109</guid><pubDate>Mon, 02 Feb 2026 00:19:08 GMT</pubDate><content:encoded>&lt;b&gt;pure.md：把任意网页稳定转成适合 LLM 的 Markdown（还带“全球缓存”）&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;http://pure.md/&quot; target=&quot;_blank&quot;&gt;pure.md&lt;/a&gt; 提供一个简单的 REST API：&lt;b&gt;只要在任意 URL 前加上 &lt;/b&gt;&lt;code&gt;pure.md/&lt;/code&gt;，就能更可靠地获取网页内容，并输出对大模型更友好的 Markdown。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;它能做什么：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;更稳定地抓取网页&lt;/b&gt;：通过代理网络模拟真实用户行为，降低被识别为爬虫的概率；必要时还会尝试其他镜像来源。&lt;br /&gt;•   &lt;b&gt;渲染 JavaScript 重网页/SPA&lt;/b&gt;：自动完成 DOM hydration，避免只拿到“空壳 HTML”。&lt;br /&gt;•   &lt;b&gt;多格式转 Markdown&lt;/b&gt;：支持 HTML、PDF、图片（含识别与摘要）、以及表格文件（如 Excel/Numbers）等。&lt;br /&gt;•   &lt;b&gt;面向 LLM 的精简输出&lt;/b&gt;：减少页面冗余信息，附带元数据（frontmatter），降低 token 成本、提升推理效率。&lt;br /&gt;•   &lt;b&gt;实时搜索（SERP 抓取）&lt;/b&gt;：把搜索结果聚合成可直接喂给提示词的 Markdown，让应用更“跟得上今天”。&lt;br /&gt;•   &lt;b&gt;按需数据抽取&lt;/b&gt;：把 GET 换成 POST，即可用内置生成式模型从页面中抽取结构化 JSON（可自定义 schema），或以流式文本返回。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;定价概览：&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;•   Starter：按量付费（60 req/min；fetch $0.003；search $0.005；不含 GenAI 抽取；含 $1 体验金）&lt;br /&gt;•   Growth：$19/月 + 计量（600 req/min；更低单价；含 GenAI 抽取；每月 $20 免费额度）&lt;br /&gt;•   Business：$99/月 + 计量（3000 req/min；更低单价；含 GenAI 抽取；每月 $100 免费额度）&lt;br /&gt;&lt;br /&gt;原链接：&lt;a href=&quot;https://pure.md/&quot; target=&quot;_blank&quot;&gt;https://pure.md/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23%E7%BD%91%E9%A1%B5%E6%8A%93%E5%8F%96&quot;&gt;#网页抓取&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Markdown&quot;&gt;#Markdown&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%B7%A5%E5%85%B7&quot;&gt;#大模型工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%86%85%E5%AE%B9%E6%8F%90%E5%8F%96&quot;&gt;#内容提取&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%95%B0%E6%8D%AE%E6%8A%BD%E5%8F%96&quot;&gt;#数据抽取&lt;/a&gt;&lt;a href=&quot;https://pure.md/&quot; target=&quot;_blank&quot;&gt;
  &lt;i&gt;&lt;/i&gt;
  &lt;div&gt;pure.md&lt;/div&gt;
  
  &lt;div&gt;pure.md - global cache between LLMs and the web&lt;/div&gt;
  &lt;div&gt;Reliably access web content in markdown format by simply prefixing any URL with `pure.md/`. Avoids bot detection, renders JavaScript-heavy websites, and converts HTML, PDFs, images, and more into pure markdown.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Open Scouts：AI 驱动的网页监控平台Open Scouts 是一个开源的 AI 网页监控工具，让你创建自动化的&quot;侦察兵&quot;持续搜索网络，并在发现目标信息时发送邮件通知\</title><link>https://localhost/posts/57</link><guid isPermaLink="true">https://localhost/posts/57</guid><pubDate>Sun, 07 Dec 2025 01:39:08 GMT</pubDate><content:encoded>Open Scouts：AI 驱动的网页监控平台&lt;br /&gt;&lt;br /&gt;Open Scouts 是一个开源的 AI 网页监控工具，让你创建自动化的&quot;侦察兵&quot;持续搜索网络，并在发现目标信息时发送邮件通知\。无论是追踪附近的新餐厅、监控 AI 资讯，还是其他内容，侦察兵都会 24/7 为你工作.&lt;br /&gt;&lt;br /&gt;核心特性&lt;br /&gt;• AI 智能代理：基于 OpenAI GPT-4，自动配置搜索策略&lt;br /&gt;• 灵活调度：支持每日、每 3 天、每周执行频率&lt;br /&gt;• 邮件通知：发现结果时自动推送到邮箱&lt;br /&gt;• 语义搜索：使用 pgvector 向量嵌入生成智能摘要&lt;br /&gt;• 用户隔离：通过 Supabase Auth 实现安全的多用户支持&lt;br /&gt;&lt;br /&gt;技术栈&lt;br /&gt;采用 Next.js 16、React 19、TypeScript、Tailwind CSS v4 构建，后端使用 Supabase + PostgreSQL，集成 Firecrawl &lt;mark&gt;网页抓取&lt;/mark&gt;、OpenAI API 和 Resend 邮件服务\。&lt;br /&gt;&lt;br /&gt;可扩展架构&lt;br /&gt;使用 pg_cron + pg_net + Edge Functions 实现调度分发，每个侦察兵独立执行，轻松扩展至数千个任务\。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/firecrawl/open-scouts&quot; target=&quot;_blank&quot;&gt;查看项目&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E6%99%BA%E8%83%BD%E4%BD%93&quot;&gt;#AI智能体&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E7%BD%91%E9%A1%B5%E7%9B%91%E6%8E%A7&quot;&gt;#网页监控&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E8%87%AA%E5%8A%A8%E5%8C%96%E5%B7%A5%E5%85%B7&quot;&gt;#自动化工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E9%A1%B9%E7%9B%AE&quot;&gt;#开源项目&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Supabase&quot;&gt;#Supabase&lt;/a&gt;&lt;a href=&quot;https://github.com/firecrawl/open-scouts&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - firecrawl/open-scouts: 🔥 AI-powered web monitoring platform. Create automated scouts that search the web and send email…&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/JS9mUPUjKy-W6raaVe_GoQ6Q8phC6fSfqVxTeRVrht_JNboknoPV6y58C9_ByZNHfg177XDOE3k9bJFjVBYoZvRxMtU2dd5hSA01TSKE8TYT9wPb5MqlpIKFMGXSPcS8lgJYxwa8Tj2E1hIjjQFCeu8vj2-VBn5b34BOA5YZRz_oZjFPRw_XYyUuJi5Av6-OY_qhlbjf01Pbh2rG1Fl5fdNOtseZ1tYYJ8co3fFlvePUEG_iIxdMWxfHTv1T0iejRF2zdXPhVXuyuD8mu9LI0fKmQpWDgqCMnLisQx64LH-W7uboOPH78GGkFI7vhkd84Eg6QVleHz8YRnMlDY7Vcg.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;GitHub - firecrawl/open-scouts: &lt;i&gt;&lt;b&gt;🔥&lt;/b&gt;&lt;/i&gt; AI-powered web monitoring platform. Create automated scouts that search the web and send email…&lt;/div&gt;
  &lt;div&gt;&lt;i&gt;&lt;b&gt;🔥&lt;/b&gt;&lt;/i&gt; AI-powered web monitoring platform. Create automated scouts that search the web and send email alerts when they find what you&apos;re looking for.  - firecrawl/open-scouts&lt;/div&gt;
&lt;/a&gt;</content:encoded></item></channel></rss>