Skip to main content

Search: #数据抽取

无原创,纯转发
  1. pure.md:把任意网页稳定转成适合 LLM 的 Markdown(还带“全球缓存”)

    pure.md 提供一个简单的 REST API:只要在任意 URL 前加上 pure.md/,就能更可靠地获取网页内容,并输出对大模型更友好的 Markdown。

    它能做什么:

    更稳定地抓取网页:通过代理网络模拟真实用户行为,降低被识别为爬虫的概率;必要时还会尝试其他镜像来源。
    渲染 JavaScript 重网页/SPA:自动完成 DOM hydration,避免只拿到“空壳 HTML”。
    多格式转 Markdown:支持 HTML、PDF、图片(含识别与摘要)、以及表格文件(如 Excel/Numbers)等。
    面向 LLM 的精简输出:减少页面冗余信息,附带元数据(frontmatter),降低 token 成本、提升推理效率。
    实时搜索(SERP 抓取):把搜索结果聚合成可直接喂给提示词的 Markdown,让应用更“跟得上今天”。
    按需数据抽取:把 GET 换成 POST,即可用内置生成式模型从页面中抽取结构化 JSON(可自定义 schema),或以流式文本返回。

    定价概览:

    • Starter:按量付费(60 req/min;fetch $0.003;search $0.005;不含 GenAI 抽取;含 $1 体验金)
    • Growth:$19/月 + 计量(600 req/min;更低单价;含 GenAI 抽取;每月 $20 免费额度)
    • Business:$99/月 + 计量(3000 req/min;更低单价;含 GenAI 抽取;每月 $100 免费额度)

    原链接:https://pure.md/

    #网页抓取 #Markdown #大模型工具 #内容提取 #数据抽取
  2. AntV Infographic:面向 AI 时代的声明式信息图引擎

    AntV Infographic 是一个“声明式”的信息图生成与渲染框架(npm:@antv/infographic),目标是把文字和结构化内容快速变成可视化信息图,降低制作门槛、提升表达效率。

    它解决什么问题

    • 用更接近“写文档”的方式描述信息图:通过简洁语法定义标题、描述、数据项、布局与主题
    • 适配 AI 生成:语法容错、配置完整,并支持流式输出与分段渲染,适合大模型逐步生成内容
    • 从 0 到 1 更快:内置约 200+ 模板与组件(时间线、思维导图、流程、金字塔等)

    核心能力

    • 声明式渲染:用配置描述信息图结构与样式,而不是手工拖拽绘制
    • AI 一键生成:AI 理解文本→抽取关键信息→生成配置→渲染成专业信息图
    • 主题与风格:一键切换暗色等风格,也支持自定义主题体系
    • 在线 Playground:浏览器内编辑语法、实时预览,配套示例便于上手

    快速上手入口

    • 学习与文档:/learn
    • AI 生成入口:/ai
    • 示例库:/examples
    • GitHub:antvis/infographic

    原链接:https://infographic.antv.vision/

    #信息图 #数据可视化 #AntV #前端工程 #AIGC
1px