核心论点:

  • 以 token prediction 为最终目标,freture prediction 可以看作是一个额外约束,这限制了 draft model 的表达能力,使其难以从增加的数据中受益
    • 去掉 feature prediction loss,只保留了 token prediction loss
  • 去掉 feature prediction loss 后,draft model output 不再和 verify model output(feature) 同分布,使得 step-2 使用 draft model 作为输入不再可靠
    • 训练时把每一步模型推理时产生的 feature,添加到下一步的输入中,类似于自回归
  • 去掉 feature prediction loss 后,可以使用中间层的 feature 作为 draft model 的输入
    • 此时 draft model output 应该和多层 feature 融合后的结果同分布

Scaling Law 下降低难度反而限制模型的表达能力。
这脸是打的真疼啊。