<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet href="/rss.xsl" type="text/xsl"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>技术科普 | 面条的草稿箱</title><description>无原创，纯转发</description><link>https://localhost</link><item><title>大语言模型（LLM）是如何运作的？一文拆解它的底层逻辑从 GPT、Claude 到 LLaMA，大语言模型看似无所不知，但其背后的技术大多高度收敛于 Transformer 架构</title><link>https://localhost/posts/133</link><guid isPermaLink="true">https://localhost/posts/133</guid><pubDate>Mon, 08 Jun 2026 09:59:52 GMT</pubDate><content:encoded>大语言模型（LLM）是如何运作的？一文拆解它的底层逻辑&lt;br /&gt;&lt;br /&gt;从 GPT、Claude 到 LLaMA，大语言模型看似无所不知，但其背后的技术大多高度收敛于 Transformer 架构。本文为你快速拆解 LLM 运行的 6 个核心步骤：&lt;br /&gt;&lt;br /&gt;1.  &lt;b&gt;分词与嵌入（Tokenization &amp;amp; Embeddings）&lt;/b&gt;&lt;br /&gt;    模型不直接阅读文本。你的输入首先会被拆解为子词 Token，并转化为数字 ID。随后，这些 ID 通过“嵌入矩阵”变成高维向量。在向量空间中，语义相近的词（如“猫”和“狗”）会被分配到相邻的位置，从而获得“语义”。&lt;br /&gt;&lt;br /&gt;2.  &lt;b&gt;位置编码（Positional Encoding）&lt;/b&gt;&lt;br /&gt;    普通的注意力机制无法分辨词序。现代模型主要使用 &lt;b&gt;RoPE（旋转位置编码）&lt;/b&gt;，通过旋转向量来标记 Token 之间的相对距离，让模型知道哪个词在前，哪个词在后。&lt;br /&gt;&lt;br /&gt;3.  &lt;b&gt;注意力机制（Attention &amp;amp; Multi-Head）&lt;/b&gt;&lt;br /&gt;    这是 Transformer 的灵魂。每个 Token 会通过 Query（寻找什么）、Key（匹配什么）和 Value（传递什么）三种角色与其他 Token 进行信息交互。为了同时捕捉语法、代词指代等多种关系，模型会并行运行多个注意力“头”。现代模型多采用 &lt;b&gt;GQA（分组查询注意力）&lt;/b&gt; 来大幅降低显存占用。&lt;br /&gt;&lt;br /&gt;4.  &lt;b&gt;前馈网络（FFN &amp;amp; MoE）&lt;/b&gt;&lt;br /&gt;    如果说注意力机制是 Token 之间的“对话”，前馈网络就是 Token 的“自我思考”。模型的大部分 factual 记忆都存储在这里。为了在不增加计算成本的前提下扩大参数量，现代大模型（如 Mixtral）常使用 &lt;b&gt;MoE（混合专家模型）&lt;/b&gt;，每次只激活部分网络来处理 Token。&lt;br /&gt;&lt;br /&gt;5.  &lt;b&gt;残差流与归一化（Residual Stream &amp;amp; RMSNorm）&lt;/b&gt;&lt;br /&gt;    随着网络层数变深，信号容易衰减或爆炸。残差连接允许原始信息绕过部分计算直接向后传递，而 &lt;b&gt;RMSNorm&lt;/b&gt; 则在每层计算前对数据进行重缩放，确保数百层的网络能够稳定训练。&lt;br /&gt;&lt;br /&gt;6.  &lt;b&gt;预测下一个 Token（Next-Token Prediction）&lt;/b&gt;&lt;br /&gt;    LLM 的本质是一个“词语接龙”游戏。模型在最后一层输出所有候选词的概率分布，根据设定的“温度（Temperature）”等参数抽取下一个 Token，并将其拼回输入，循环往复，直到生成完整文本。&lt;br /&gt;&lt;br /&gt;总结来说，如今的 LLM 架构在工程上已经高度趋同（RoPE、GQA、SwiGLU、RMSNorm 的组合）。不同模型之间的差异，主要源于训练数据集、参数规模以及后期的对齐微调（RLHF）。&lt;br /&gt;&lt;br /&gt;阅读完整英文博文：&lt;a href=&quot;https://www.0xkato.xyz/how-llms-actually-work/&quot; target=&quot;_blank&quot;&gt;https://www.0xkato.xyz/how-llms-actually-work/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B&quot;&gt;#大语言模型&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Transformer&quot;&gt;#Transformer&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&quot;&gt;#人工智能&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&quot;&gt;#深度学习&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23%E6%8A%80%E6%9C%AF%E7%A7%91%E6%99%AE&quot;&gt;#技术科普&lt;/a&gt;&lt;a href=&quot;https://www.0xkato.xyz/how-llms-actually-work/&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;0xkato&lt;/div&gt;
  
  &lt;div&gt;How LLMs Actually Work&lt;/div&gt;
  &lt;div&gt;A from-the-ground-up walkthrough of how modern LLMs work, from tokens to transformer blocks to the next-token loop&lt;/div&gt;
&lt;/a&gt;</content:encoded></item></channel></rss>