Skip to main content

Search: #开发技巧

无原创,纯转发
  1. Gemma 4 图解指南:Google DeepMind 开源模型家族全面解析

    Google DeepMind 发布了 Gemma 4 系列模型,作者 Maarten Grootendorst(刚入职 Google DeepMind)以丰富的可视化方式详细拆解了这一系列模型的架构设计。

    四款模型,覆盖多种场景

    Gemma 4 E2B — 密集模型,等效 20 亿参数,适合端侧部署
    Gemma 4 E4B — 密集模型,等效 40 亿参数,适合端侧部署
    Gemma 4 31B — 310 亿参数的密集模型
    Gemma 4 26B A4B — MoE 架构,总参数 260 亿,推理时仅激活 40 亿参数,兼顾性能与效率

    所有模型均为多模态,支持图像输入;小模型(E2B/E4B)还额外支持音频输入

    核心架构亮点

    注意力机制优化:

    • 局部注意力(滑动窗口)与全局注意力交替堆叠(5:1 或 4:1),最后一层始终为全局注意力
    • 全局注意力层采用 8 个 Query 共享 1 个 KV 头的分组查询注意力(GQA)
    K=V 技巧:全局注意力层中 Key 等于 Value,进一步压缩 KV 缓存
    p-RoPE:仅对前 25% 维度施加旋转位置编码,避免低频维度引入噪声,提升长上下文处理能力

    视觉编码器:

    • 基于 Vision Transformer(ViT),支持可变宽高比和可变分辨率
    • 通过 2D RoPE 编码 patch 的二维位置信息
    • 引入 soft token budget(70/140/280/560/1120),用户可按任务需求灵活选择分辨率

    MoE 架构(26B A4B):

    • 128 个专家中每次激活 8 个 + 1 个始终激活的共享专家(3 倍大小)
    • 虽然总参数 260 亿,推理速度接近 40 亿参数模型

    Per-Layer Embeddings(E2B/E4B):

    • 每一层都有独立的 token embedding 查找表,存储在闪存而非显存中
    • 让小模型在有限 RAM 下也能获得更强的表达能力,非常适合手机等端侧设备

    音频编码器(E2B/E4B):

    • 基于 Conformer 架构,通过梅尔频谱图提取特征并下采样为 soft token
    • 支持语音识别和翻译等任务

    🔗 https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4

    #Gemma4 #GoogleDeepMind #多模态 #MoE #开源模型 A Visual Guide to Gemma 4
  2. Moltbook:面向 AI Agent 的“社交广场”

    Moltbook 把“社交网络”做成了 AI Agent 的主场:Agent 在这里发布内容、讨论、点赞投票;人类也可以围观、了解它们都在做什么。

    你能在 Moltbook 看到什么?

    海量 Agent 与社区分区(Submolts):按主题聚合讨论与内容流
    动态广场(Posts):从自动化工作流、工具技巧,到各类实验与想法分享
    人机配对(Top Pairings):展示 Agent 与其绑定的人类账号/身份影响力(平台内视角)

    如果你想“把 Agent 送进去”

    • 官方给了一个简单的上手方式:把指令发给你的 Agent,让它按说明注册并生成认领链接,再通过社交平台验证归属。

    面向开发者

    • Moltbook 也在推进开发者平台:允许应用通过 Moltbook 身份与 Agent 做认证与集成(当前以申请早期访问为主)。

    链接:https://www.moltbook.com/

    #AI智能体 #社交网络 #开发者平台 #AI应用 #社区观察 moltbook - the front page of the agent internet
  3. 如何让 Claude Code Skills 可靠激活

    Claude Code 的 Skills 功能理论上会根据描述自动激活,但实际测试发现激活率仅约 20%,跟抛硬币差不多。作者通过 200+ 次测试,找到了两种有效方案。

    测试结果对比:

    Simple 简单指令:整体成功率仅 20%
    Forced Eval 强制评估:成功率 84%,最稳定
    LLM Eval 预评估:成功率 80%,更快更省钱

    核心发现

    强制评估之所以有效,在于它创建了「承诺机制」:

    1. Claude 必须逐一评估每个 Skill 并给出 YES/NO
    2. 明确表态后才能继续实现
    3. 使用 "MANDATORY"、"CRITICAL" 等强硬措辞增加执行力

    如何选择

    Forced Eval:追求稳定性,不介意输出冗长
    LLM Eval:追求速度和成本,适合单一技能场景

    使用方法:在 .claude/hooks/ 创建对应脚本,并在 settings.json 中配置 hook。如果用 claude-skills-cli,可直接运行:

    pnpm exec claude-skills-cli add-hook
    


    🔗 原文链接

    #ClaudeCode #Skills #开发技巧 #Anthropic #AI工具
  4. Claude Code Skills 不会自动激活?这有个解决方案

    Claude Code 的 Skills 功能号称是"自主激活"的——只要你的请求匹配技能描述,Claude 就会自动使用。但现实很骨感:它根本不会

    作者创建了一个 research 技能,用于验证信息来源。每当说"research this",Claude 应该自动调用该技能。结果呢?Claude 每次都无视技能,直接蛮干。

    问题根源

    Claude 太过专注于完成任务,会直接跳过检查可用工具的步骤。即使 Hook 提醒"检查一下 skills",Claude 也当成背景噪音忽略。

    解决方案:用 Hook 强制激活

    核心思路:不要依赖"自主激活",而是通过 UserPromptSubmit Hook 检测触发词,显式命令 Claude 使用技能。

    # 温柔提醒(无效)
    echo '💡 Check skills for relevant skills'
    
    # 强制指令(有效)
    echo "🔍 INSTRUCTION: Use Skill(research) to handle this"
    


    区别在于:一个是"请考虑一下",另一个是"闭嘴听令"!

    更简洁的通用方案

    后来作者发现了更简单的方式——一条通用 Hook 指令适用于所有技能:

    "command": "echo 'INSTRUCTION: If prompt matches any skill keywords, use Skill(skill-name) to activate it.'"
    


    无需维护关键词脚本,无需处理冲突。

    实测结果

    20 次测试,成功率约 50%——基本靠运气。但比维护复杂脚本省心多了。

    结论:官方说 Skills 会自动激活,实际不会。用简单 Hook 碰碰运气,重要任务还是显式调用 Skill(skill-name) 最靠谱。

    🔗 原文链接

    #ClaudeCode #AI工具 #开发技巧 #Hooks #编程 Claude Code Skills Don't Auto-Activate (a workaround) - Scott Spence
1px