Drew Jin's Slides – Beyond Heuristic Algorithm: dLLM Decoding Optimization

Learning to Parallel: Accelerating Diffusion Large Language Models via Learnable Parallel Decoding

Learn2PD: 数据构建 (Data Construction)

核心目标

学会判断「当前 Token 是否已经稳了」

数据来源

FLAN 数据集：66 类任务 × 40 样本 = 2,640 个训练样本
上帝视角解码：Prompt + 参考答案，用 EGP 并行解码 跑完整轨迹

特征与标签

特征：每步各 Token 的 置信度分布
标签：比对参考答案，对记 1（Unmask），错记 0（继续 Mask）

收集成本

4×A6000，约 3 小时 完成全部数据收集

要训练出一个能判断“当前 Token 是否已经稳了”的模型，我们首先需要收集高质量的训练数据。这个过程其实非常巧妙而且低成本：

样本选取： 作者选取了涵盖 66 种问题类型的 FLAN 数据集，每种类型挑 40 个样本，一共只用了 2,640 个样本来做训练集。
“上帝视角”跑数据： 给定这些样本的 Prompt 和真实参考答案（Reference Answer），强制开启前文提到的 EGP (Extremely Greedy Parallel) 策略 让大模型进行并行解码。
记录特征与打标签：
- 输入特征： 记录模型在每一步解码时，对各个 Token 预测所输出的 置信度 (Confidence Scores)。
- 目标标签（Ground Truth）： 拿着模型的预测词和真实答案比对。如果模型这步预测的是对的，对应的标签 \(y_i\) 就记为 \(1\)（表示应该 Unmask）；如果错了，\(y_i\) 就记为 \(0\)（表示需要继续 Mask）。

结论： 整个数据收集过程非常轻量，在 4 张 A6000 显卡上只花了约 3 个小时 就收集完毕了。

Learn2PD: 训练策略 (Training Strategy)

核心思想

不动 dLLM，只训练一个 2 层 MLP 作为过滤器

模型架构 (Filter Model \(f_\theta\))

输入：Token 的置信度
输出：该 Token「已正确」的概率 Logit
通过 Sigmoid 得到 \(\sigma(z_i)\)

损失函数 (BCE Loss)

\(L_{\text{BCE}} = -\frac{1}{m} \sum_{i=1}^m \left[ y_i \log \sigma(z_i) + (1 - y_i) \log(1 - \sigma(z_i)) \right]\)

\(y_i\)：数据标签（1=保留，0=重塑）
\(z_i\)：MLP 输出的 Logit

训练开销（极小）

Diffusion LLM 参数冻结，仅更新 MLP
Block Size 32 时，可训练参数仅约 2,112 个
单张 T4：6 分钟 / 5000 Epoch 即可收敛

一句话总结

把复杂的解码控制压缩成几千参数的 二分类小头，便宜又好训。

拿到数据后，我们怎么做训练呢？作者并没有去动庞大的 Diffusion 大模型本身，而是把这个问题转化成了一个超级轻量的二分类任务。

模型架构（Filter Model \(f_\theta\)）： 仅采用了一个两层结构的 MLP（多层感知机）。它的输入就是大模型输出的置信度，输出就是判定这个 Token 是不是已经正确的概率 Logit。
优化目标： 本质上是一个标准的二元交叉熵损失（Binary Cross-Entropy Loss, BCE Loss），公式如下：

\[\arg \min -\frac{1}{m} \sum_{i=1}^m \left[ y_i \log p_i + (1 - y_i) \log(1 - p_i) \right]\]

具体到网络中，为了保证输出在 \([0, 1]\) 的合法概率区间，我们在过滤器输出的 Logit（记为 \(z_i\)）外包裹一层 \(\sigma\)（Sigmoid 函数），最终使用的 Loss 公式为：

\[\mathcal{L}_{\text{BCE}} = -\frac{1}{m} \sum_{i=1}^m \left[ y_i \log \sigma(z_i) + (1 - y_i) \log(1 - \sigma(z_i)) \right]\]

公式参数拆解：
- \(m\)：当前迭代中处理的 Token 总数。
- \(y_i\)：我们在第一步利用上帝视角收集到的真实标签（\(1\) 为正确可保留，\(0\) 为错误需重塑）。
- \(z_i\)：我们的两层 MLP 模型 \(f_\theta\) 输出的判定值（Logit）。
- \(\sigma(z_i)\)：最终预测出“这个 Token 已经正确，可以直接 Unmask”的概率。
训练开销： 这也是这个方法最惊艳的地方。训练时，Diffusion LLM 的参数是完全冻结的，只需要更新这个 2 层 MLP。以 Block Size 为 32 为例，可训练参数量只有区区 2,112 个！在单张普通 T4 显卡上，只需 6 分钟 就能跑完 5000 个 Epoch 实现收敛。

Learn2PD: 推理执行 (Inference Process)

无参考答案场景

训练好的 MLP 过滤器 \(f_\theta\) 充当「裁判」

执行流程

并行生成：Diffusion LLM 生成整块 Token 及其置信度
快速裁决：置信度输入 2 层 MLP，零额外延迟 得到 \(\sigma(z_i)\)
阈值判定（\(\tau = 0.96\)）：
- \(\sigma(z_i) > \tau\)：Unmask，后续不再改动
- \(\sigma(z_i) \le \tau\)：置为 [MASK]，继续 refinement
Block 终止：所有 Token 都 Unmask 时，该 Block 解码完成

核心优势

高优策略造数据 → 超小 MLP 训裁判 → 毫秒级裁决，避免无意义反复解码

到了实际的推理（Inference）阶段，我们就没有正确答案可以参考了。这时候，刚才用 6 分钟训练出来的 MLP 过滤器 \(f_\theta\) 就会替补上场，充当“裁判”。

并行预测生成： Diffusion LLM 根据当前的输入（包含一堆 [MASK]）生成一组预测 Token 及其对应的置信度。
过滤器快速裁决： 我们将这组置信度直接喂给 MLP 过滤器 \(f_\theta\)。由于 MLP 只有两层，这步的计算延迟完全可以忽略不计（Negligible overhead）。MLP 会输出每个 Token 已经正确的概率 \(\sigma(z_i)\)。
引入阈值判定（Thresholding）： 模型设定了一个严谨的阈值 \(\tau\)（作者通过消融实验发现 \(\tau = 0.96\) 是速度和精度的黄金平衡点）：
- 如果 \(\sigma(z_i) > \tau\)：裁判判定该 Token 已经生成完美，直接 Unmask，在后面的解码步中不再对它做任何修改。
- 如果 \(\sigma(z_i) \leq \tau\)：裁判判定该 Token 还有不确定性，将其重新置为 [MASK]，交给下一轮去继续打磨。
循环退出： 当一个 Block 里的所有 Token 都成功超过阈值被 Unmask 时，这一区块解码完成。

总结陈词： 通过这一整套机制，Learn2PD 形成了一个完美的闭环：用高优策略造数据 -> 极低成本训裁判 -> 毫秒级延迟做拦截。它巧妙避开了模型无意义的重复猜测操作，直接带来了数倍乃至几十倍的有效加速！

Efficient Diffusion LLMs via Temporal-Spatial Parallel Decoding and Confidence Extrapolation

1. 时空并行解码 (TSPD)

痛点：传统方法只看「当前一步」的置信度是否超阈值，单步、静态判断脆弱，忽略了时间轨迹和位置差异（靠后的 token 稳定更晚）。
机制：lightweight 序列控制器（2 层 LSTM）综合时间轨迹特征（置信度、熵、动量）+ 空间相对位置，每步直接输出二元决策（固定/继续降噪）。
优势：决策更鲁棒，准确识别已收敛或延迟稳定的 token，减少重复计算。

2. 置信度外推 (CE)

痛点：现有加速多是「被动等待」，置信度不够就只能继续降噪。
机制：Training-free，利用状态空间模型（类似卡尔曼滤波）预测 token 未来几步置信度走向及不确定性。
风险控制 (Risk-aware Horizon)：根据左侧上下文完成度及预测不确定性，动态决定可预测多远，历史可靠时才启用外推。
优势：化被动为主动，趋势稳定即可提前固定（Look-ahead），砍掉多余等待步数。

图表内容解析 Figure 1 (Flip prob. vs. Step conf.)：展示内容：对比了在相同的局部置信度下，具有“稳定轨迹”和“不稳定轨迹”的 Token 最终发生值改变（Flip）的概率。核心结论：即使当前步的置信度完全一样，如果历史轨迹不稳定，该 Token 以后“翻脸”改值的概率会高出好几倍。 Figure 2 (Consistent steps vs. Token index)：展示内容：横轴是 Token 在序列中的位置，纵轴是该位置 Token 保持值不变的步骤比例（代表稳定性）。核心结论：越往右侧（序列后方）的 Token，稳定得越晚，保持一致性的步数越少。
复杂版本：学术深度总结论文引用这两张图是为了论证：传统的“步局部（Step-local）”和“空间均匀（Spatial-uniform）”的解码控制逻辑存在本质缺陷。

The authors focus on a fundamental problem: 扩散模型解码过程中的冗余计算。

通过这两张图，作者提出了两个关键洞察：

时间维度的非独立性（Fig. 1）：扩散模型的置信度并不是均匀校准的。单纯看某一步的置信度快照（Snapshot）会产生歧义，因为“看似自信”的 Token 可能正处于剧烈波动的轨迹中。必须引入时间轨迹特征（如动量、熵的变化趋势）来识别真正的收敛。空间维度的非均匀性（Fig. 2）：解码过程存在结构化的空间效应。右侧 Token 依赖左侧上下文的稳定，因此呈现延迟稳定（Delayed Stabilization）的特征。 The authors appear to assess a central concept: 将解码视为一个动态控制问题，而非一系列独立的阈值测试。

基于此，作者开发了 TSPD（时空并行解码）。它不再使用全局统一的静态阈值，而是利用一个轻量级控制器（LSTM）同时吸收时间轨迹信号（Fig. 1 的启示）和相对位置编码（Fig. 2 的启示），从而做出更鲁棒的“锁定（Fix）”决策。

简单版本：直白总结这两张图解释了为什么现在的加速方法“不够聪明”：

图 1 告诉我们：别只看现在，要看历史。就像判断一个学生能不能考好，不能只看他某一次模拟考的分数（当前置信度），还得看他最近几次考试是一直很稳还是忽高忽低（历史轨迹）。只看当前的加速方法容易“看走眼”，导致提前锁定错误的词。图 2 告诉我们：位置很重要。句子后面的词通常比前面的词更难确定，稳定得更慢。现在的加速方法对所有位置都用同一个标准，这显然不合理。总体总结：因为“只看当前步”和“不管位置”的方法不靠谱，所以作者发明了新招：TSPD 盯住每个词的动态变化趋势和它在句子里的位置，CE（置信度外推）则像天气预报一样预测这个词未来稳不稳定。两招结合，让模型不用跑完全部流程就能提前知道哪些词已经算对了，从而实现巨大的提速（最高 58 倍）。

问题所在：为什么不理解“轨迹”会出事？论文中提到的问题在于，如果你只设定一个简单的规则（例如：置信度达到 0.9 就停止计算并锁定）：

对于“摇摆者”：有些 Token 可能会偶然冲到 0.9，但它的轨迹显示它并不稳定。如果你此时把它“锁死”，它就失去了在后续步骤中修正回正确答案的机会。这就是过早提交（Premature Commitment）导致的质量下降。对于“潜力股”：有些正确的词，其置信度上升得非常稳，但爬得慢（比如一直维持在 0.7-0.8）。传统的规则会一直让它“重算、重算、重算”，直到它磨叽到 0.9。但如果看轨迹，我们其实早就能预测它肯定会赢。如果不提前锁定它，就会造成冗余计算（Redundant Denoising）。论文的研究发现 The authors focus on a fundamental problem: 扩散模型中“置信度”与“稳定性”的不匹配。

在 Figure 1 中，作者展示了一个令人惊讶的事实：

两个 Token 现在的置信度都是 0.7。如果一个是“稳定爬升”的，它以后改主意的概率（Flip prob.）接近 0。如果一个是“震荡不安”的，它以后改主意的概率可能高达 40%。 The authors appear to assess a central concept: 利用时间维度的“动量（Momentum）”和“熵（Entropy）”的变化，来提供比单一置信度更可靠的信号。

总结一句话： “Stable Trace”的问题就在于：置信度的高低（海拔）不代表它是否已经安全（是否已经收敛）。只有观察它走过来的路径（轨迹），我们才能区分谁是真的“学会了”，谁只是“碰巧猜对了一瞬间”。

现有启发式方案的不足

被动等待

不要死等：趋势一致时置信度可预测，外推法能提前锁定；“Potential to save”即死等 0.9 的浪费
并非个例：约 44.9% 的步骤里 Token 已定型，模型仍在反复确认

其他关键不足

太死板（阈值脆弱）：固定 \(\tau\) 缺乏输入自适应性，A 任务好用换 B 任务可能过激或过保守
没耐心（延迟稳定）：无法区分“大器晚成”与“彻底错误”，低置信度直接重算导致不必要重复掩码
不合群（系统兼容）：与 KV Cache 结合差，打破缓存连续性反而增加单步延迟

总结

现有方案将扩散解码视为独立阈值测试，而非动态控制问题；在处理非对齐置信度与位置异质性时乏力。

Fig 3：置信度曲线，外推法提前预测达标；Standard thres 死等 0.9
Fig 4：44.9% 步骤已定型仍反复确认
CE 动机：State-space model 预测置信度+不确定性；Fig 4 揭示加速上限
直白版：太死板 / 没耐心 / 不合群

（以下为原详细笔记，可删） Figure 3 (Missed acceleration opportunity)：展示内容：一个 Token 置信度随时间变化的曲线。图中显示，Token 的置信度在很早的时候就开始稳定上升（Real）。传统的策略（Standard thres）必须等到它跨过 0.9 那条红线才停止；而作者提出的外推法（Extrapolated）能提前预测它会达标。核心结论：如果只是“被动”等待置信度达标，会浪费大量已经可以预测的步骤。 Figure 4 (Distribution of consistent steps ratio)：展示内容：统计了有多少比例的 Token 在最终确定前，已经表现出了长时间的“值不再改变”。图中显示平均有 44.9% 的步骤，Token 其实已经算对了，但模型还在反复确认。核心结论：解码过程中存在巨大的“提前预测”空间。 2. 文中引用部分讨论的问题在论文的 3.1.2 节，作者引用这两张图重点讨论了一个观点：“被动等待错失了可预测的加速机会（Passive Waiting Misses Forecastable Acceleration）”。