EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees
EAGLE: Speculative Sampling Requires Rethinking Feature Uncertaintyhttps://chlience.com/EAGLE 简介:在 EAGLE 的基础上,使用动态的 draft tree,去掉接受率较低的 token,从而减少浪费,使得 draft tree 更深。 作者发现,不同的 draft tree 上相同位置的节点的...