EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertaintyhttps://chlience.com/EAGLE 简介:在 EAGLE 的基础上,使用动态的 draft tree,去掉接受率较低的 token,从而减少浪费,使得 draft tree 更深。 作者发现,不同的 draft tree 上相同位置的节点的...

论文阅读

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

简介:将输入词的特征 $f_1$ 和 Origin LLM 预测的分布 $p_2$ 进行多次采样 $e_2$,分别输入到 draft model(自回归头),从而预测采样结果的特征 $f_2$,进而生成后续的 token。 作者提出了两个 motivation 特征级别的自回归(LM Head 前)比 token 级别的自回归(LM Head 后)更为直接 特征级别的自回归固有的不确定性限...

论文阅读