标签：Speculative Decoding

EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertaintyhttps://chlience.com/EAGLE EAGLE-2: Faster Inference of Language Models with Dynamic Draft Treeshttps://chlience.com/EAGLE-2 核心论点...

2025-03-30

EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertaintyhttps://chlience.com/EAGLE 简介：在 EAGLE 的基础上，使用动态的 draft tree，去掉接受率较低的 token，从而减少浪费，使得 draft tree 更深。作者发现，不同的 draft tree 上相同位置的节点的...

2024-10-21

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

简介：将输入词的特征 $f_1$ 和 Origin LLM 预测的分布 $p_2$ 进行多次采样 $e_2$，分别输入到 draft model（自回归头），从而预测采样结果的特征 $f_2$，进而生成后续的 token。作者提出了两个 motivation 特征级别的自回归（LM Head 前）比 token 级别的自回归（LM Head 后）更为直接特征级别的自回归固有的不确定性限...

2024-10-21