<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet href="/rss.xsl" type="text/xsl"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>编程智能体 | 面条的草稿箱</title><description>无原创，纯转发</description><link>https://localhost</link><item><title>omp：直接集成 IDE 能力的终端 AI 编码助手oh my pi (omp) 是一个专为终端设计的开源 AI 编码智能体</title><link>https://localhost/posts/138</link><guid isPermaLink="true">https://localhost/posts/138</guid><pubDate>Mon, 15 Jun 2026 15:52:13 GMT</pubDate><content:encoded>omp：直接集成 IDE 能力的终端 AI 编码助手&lt;br /&gt;&lt;br /&gt;oh my pi (omp) 是一个专为终端设计的开源 AI 编码智能体。它不仅是一个代码生成器，更是一个深度集成 IDE 工具的“全能型选手”，旨在为开发者提供开箱即用、无缝连接的终端开发体验。&lt;br /&gt;&lt;br /&gt;核心亮点：&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;深度集成 IDE 工具链&lt;/b&gt;：内置 LSP（Language Server Protocol），AI 能够像在 IDE 中一样精准进行跨文件重命名与格式化；同时支持 DAP（Debug Adapter Protocol），可以直接启动调试器（如 lldb, dlv, debugpy）进行单步调试和堆栈排查。&lt;br /&gt;•   &lt;b&gt;创新的 Snapcompact 图像压缩&lt;/b&gt;：当对话历史过长时，omp 不使用 LLM 进行文本总结，而是将历史记录渲染成极其微小的像素字体 PNG 图像，并发送给多模态模型读取。这一技术能够确保上下文细节不丢失，且仅消耗约 1/3 的 Token 成本。&lt;br /&gt;•   &lt;b&gt;强悍的 Rust 原生引擎&lt;/b&gt;：核心由约 5.5 万行 Rust 代码构建，搜索、shell、AST 分析等高频操作均在进程内完成，避免频繁 fork 子进程，效率极高。&lt;br /&gt;•   &lt;b&gt;本地化记忆与离线整理&lt;/b&gt;：使用本地 SQLite 矢量记忆库，并使用本地的小模型（如 Qwen-1.7B / Gemma-1B）在本地整理记忆与会话标题，数据不离设备。&lt;br /&gt;•   &lt;b&gt;强大的协作与扩展性&lt;/b&gt;：支持通过 &lt;code&gt;/collab&lt;/code&gt; 实现端到端加密的实时会话共享；兼容多种主流编辑器规则（如 Cursor, Cline, Copilot），甚至可以通过 ACP 协议直接在 Zed 编辑器中驱动终端中的同一个 omp 实例。&lt;br /&gt;&lt;br /&gt;原链接：&lt;a href=&quot;https://omp.sh/&quot; target=&quot;_blank&quot;&gt;https://omp.sh/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI%E7%BC%96%E7%A0%81%E5%8A%A9%E6%89%8B&quot;&gt;#AI编码助手&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E7%BC%96%E7%A8%8B%E5%B7%A5%E5%85%B7&quot;&gt;#编程工具&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Rust&quot;&gt;#Rust&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E6%BA%90%E9%A1%B9%E7%9B%AE&quot;&gt;#开源项目&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%99%BA%E8%83%BD%E5%BC%80%E5%8F%91&quot;&gt;#智能开发&lt;/a&gt;&lt;a href=&quot;https://omp.sh/&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;omp&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;omp — a coding agent with the IDE wired in&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/OIp_uPjy8j57e8jFQ1EAHhDS4v_1ipZ5Hr_c3LzsU_WeVFLL0_N2oOCfVHMaFEy7q363DDSN-TkFGJ6K1cJNzemHtQtxCtEses5g2rTtw3vct34VT0BQwiYlR6wxHDS5LSOiWujruVXiBtCa5P-X5RNdpHgWwgAoIqKLkuSYE58adDMmTqIEV-xW3lSaGS3MdMLtnX22Hps3Ztzieaih_UfI05kKrw0ikTtMuWsyiHnNQMXwv5Ec2iRaQl0MtuJyCTFCXlihL8kVRKVJVcH-SrS_fCiwI_PMaV7IZWmpK1KPdoeIZy0_C8J1dUZTbAQpVtpZseIWUh54kj0ZerxGZw.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;omp — a coding agent with the IDE wired in&lt;/div&gt;
  &lt;div&gt;Subagents, plan mode, LSP, DAP, hindsight memory, hashline edits, time-traveling rules — with a native Rust engine doing the heavy lifting.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>CursorBench：Cursor 如何更贴近真实开发来评估模型质量开发者正在把更长、更复杂的编程任务交给智能体：跨多个文件、工具和步骤</title><link>https://localhost/posts/120</link><guid isPermaLink="true">https://localhost/posts/120</guid><pubDate>Fri, 13 Mar 2026 06:03:11 GMT</pubDate><content:encoded>&lt;b&gt;CursorBench：Cursor 如何更贴近真实开发来评估模型质量&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;开发者正在把更长、更复杂的编程任务交给智能体：跨多个文件、工具和步骤。Cursor 认为，评测方式也必须随之升级，才能真实反映“好用与否”。&lt;br /&gt;&lt;br /&gt;Cursor 的做法是 &lt;b&gt;线上 + 线下&lt;/b&gt; 的混合评测闭环：&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;线下：CursorBench（内部基准）&lt;/b&gt;&lt;br /&gt;    基于工程团队的真实 Cursor 会话构建，而不是从公开代码库抽题。因为更贴近实际工作流、信息更不充分且常带歧义，CursorBench 往往能更好地区分前沿模型，并衡量多维能力（正确性、代码质量、效率、交互行为等）。&lt;br /&gt;&lt;br /&gt;•   &lt;b&gt;线上：真实流量的受控实验&lt;/b&gt;&lt;br /&gt;    用于捕捉线下评测遗漏的退化：例如线下评分器判“正确”，但开发者实际体验变差。Cursor 会用多类代理指标（交互信号 + 输出质量信号）综合观察，并通过消融实验归因（如移除语义搜索工具来定位其关键场景）。&lt;br /&gt;&lt;br /&gt;为什么不太依赖公开基准？Cursor 指出三类常见问题：&lt;br /&gt;&lt;br /&gt;1.  &lt;b&gt;任务不匹配&lt;/b&gt;：许多基准仍偏向“修 bug”或“解谜题”，与真实开发请求脱节。&lt;br /&gt;2.  &lt;b&gt;评分困难&lt;/b&gt;：真实请求常有多种正确解，固定答案容易误伤合理方案。&lt;br /&gt;3.  &lt;b&gt;数据污染&lt;/b&gt;：公开仓库题目容易进入训练数据，分数被抬高；甚至出现“记忆补丁”与测试缺陷等问题。&lt;br /&gt;&lt;br /&gt;下一步，Cursor 预计开发会更多转向“长时运行智能体”。他们也计划让 CursorBench 适配更长任务，并解决成本、可复现性、以及离线结果与真实体验之间的差距。&lt;br /&gt;&lt;br /&gt;原文链接：&lt;a href=&quot;https://cursor.com/cn/blog/cursorbench&quot; target=&quot;_blank&quot;&gt;https://cursor.com/cn/blog/cursorbench&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23%E6%A8%A1%E5%9E%8B%E8%AF%84%E6%B5%8B&quot;&gt;#模型评测&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E7%BC%96%E7%A8%8B%E6%99%BA%E8%83%BD%E4%BD%93&quot;&gt;#编程智能体&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%9F%BA%E5%87%86%E6%B5%8B%E8%AF%95&quot;&gt;#基准测试&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Cursor&quot;&gt;#Cursor&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E5%BC%80%E5%8F%91%E8%80%85%E4%BD%93%E9%AA%8C&quot;&gt;#开发者体验&lt;/a&gt;&lt;a href=&quot;https://cursor.com/cn/blog/cursorbench&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;Cursor&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;How we compare model quality in Cursor · Cursor&quot; src=&quot;https://memo.miantiao.me/static/https://cdn4.telesco.pe/file/QRvICVn9snfzukg82oFNZXywk4nurNWHeEwJrrPLmFAO7IZZHlo7sEP_qI_acKG1_RPMpo7Lfm88ritWi6KP78DNBgac4qbTzAiVDEtUTR_7NEL6WmTe2O8lmNRtdhifXCW31XhvLvk8X8jHBOycBh1ztir-qVYthNrpbL1DYK4UMtpJhYHAfb4N_hH7EO3NmZQ2n_YNq9KDTRVyocV4ORVIPzFwoynkGakSxLab1gFHzk860MJ_JmRhC47fVUVijcu3bswc_P62gdWXIUfGd-WCCiZiQVLxKMZxq061REs2e5Ts1omkAiPEOMcwXWhhUsUjBB2BBMWBWn7ugDTCzA.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;How we compare model quality in Cursor · Cursor&lt;/div&gt;
  &lt;div&gt;We use a hybrid online-offline eval process to keep our understanding of model quality aligned with what developers actually do.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item></channel></rss>