EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertaintyhttps://chlience.com/EAGLE

简介：在 EAGLE 的基础上，使用动态的 draft tree，去掉接受率较低的 token，从而减少浪费，使得 draft tree 更深。

作者发现，不同的 draft tree 上相同位置的节点的接受率不同，
这意味着 draft token 被接受的概率还和上下文相关，
这表示上下文感知的动态 draft tree 具有更大的潜力。

构建主要分为两个部分，分别是扩展 draft tree 和重排列 draft tokens。

扩展 draft tree

通过 tree attention，draft model 每次可以扩展当前层中的所有标记。
EAGLE-2 选择全局接受率最高的 k 个 token 进行扩展，
其中 token 的全局接受率定义为从根节点到当前节点路径上所有节点接受率的乘积。
节点接受率使用 draft model 的置信率近似。

重排列 draft tokens

对所有 draft token 重新排序，并选择具有最高值的前 m 个 token。
对于具有相同值的节点，我们优先选择较浅的节点。
这可确保在重排列后选择的前 m 个 token 仍会形成一个连通的树。

可作为基于 draft tree 的 speculative decoding 的即插即用配件

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。