简介:将输入词的特征 $f_1$ 和 Origin LLM 预测的分布 $p_2$ 进行多次采样 $e_2$,分别输入到 draft model(自回归头),从而预测采样结果的特征 $f_2$,进而生成后续的 token。

作者提出了两个 motivation

  1. 特征级别的自回归(LM Head 前)比 token 级别的自回归(LM Head 后)更为直接
  2. 特征级别的自回归固有的不确定性限制了其性能

提到 Medusa 使用原始 LLM second-to-top-layer 的特征和一组 MLP 预测 token
在特征级别进行自回归预测

由于对预测的分布进行不同的 sample 会导致后续预测的不同,
所以 EAGLE 将原始特征和 sample 的结果同时输入到 draft model 中进行预测。
该方法天然产生树状结构,验证时采取 tree attention。

完整结构如下: