Skip to main content

Search: #Cursor

无原创,纯转发
  1. CursorBench:Cursor 如何更贴近真实开发来评估模型质量

    开发者正在把更长、更复杂的编程任务交给智能体:跨多个文件、工具和步骤。Cursor 认为,评测方式也必须随之升级,才能真实反映“好用与否”。

    Cursor 的做法是 线上 + 线下 的混合评测闭环:

    线下:CursorBench(内部基准)
    基于工程团队的真实 Cursor 会话构建,而不是从公开代码库抽题。因为更贴近实际工作流、信息更不充分且常带歧义,CursorBench 往往能更好地区分前沿模型,并衡量多维能力(正确性、代码质量、效率、交互行为等)。

    线上:真实流量的受控实验
    用于捕捉线下评测遗漏的退化:例如线下评分器判“正确”,但开发者实际体验变差。Cursor 会用多类代理指标(交互信号 + 输出质量信号)综合观察,并通过消融实验归因(如移除语义搜索工具来定位其关键场景)。

    为什么不太依赖公开基准?Cursor 指出三类常见问题:

    1. 任务不匹配:许多基准仍偏向“修 bug”或“解谜题”,与真实开发请求脱节。
    2. 评分困难:真实请求常有多种正确解,固定答案容易误伤合理方案。
    3. 数据污染:公开仓库题目容易进入训练数据,分数被抬高;甚至出现“记忆补丁”与测试缺陷等问题。

    下一步,Cursor 预计开发会更多转向“长时运行智能体”。他们也计划让 CursorBench 适配更长任务,并解决成本、可复现性、以及离线结果与真实体验之间的差距。

    原文链接:https://cursor.com/cn/blog/cursorbench

    #模型评测 #编程智能体 #基准测试 #Cursor #开发者体验 How we compare model quality in Cursor · Cursor
  2. Coding Agents 与复杂度预算

    Lee Robinson(Cursor 工程师)分享了一次惊人的迁移经历:仅用 3 天时间$260 token 费用 和数百个 AI Agent,就把 cursor.com 从 CMS 迁回纯代码和 Markdown。

    为什么要抛弃 CMS?

    CMS 带来的隐性复杂度超乎想象:
    • 多系统用户管理
    • 预览变更的繁琐流程
    • 国际化翻译的插件地狱
    • CDN 费用暴涨(上线后花了 $56,848)
    • 代码库的依赖和抽象膨胀

    AI 时代的关键洞察

    抽象的代价从未如此之高。当内容变成代码后:
    • Agent 可以直接 grep 和编辑
    • PR 链接无需登录即可分享预览
    • 所有变更通过 git 追踪,Agent 能自主挖掘历史

    迁移成果

    • 344 次 Agent 请求
    • 67 次 commit(+43K / -322K 行代码)
    • 构建速度提升 2 倍
    • 节省数千美元 CDN 费用
    • 第二天就能在手机上通过 cloud agent 合并修复

    核心观点

    "过度抽象一直是代码异味,现在有了简单的解决方案:花 token 删除复杂度。" 编程 Agent 正在帮助团队尝试疯狂想法、清理深埋的技术债。

    🔗 原文链接

    #CodingAgent #AI编程 #技术债务 #Cursor #开发效率
1px