Mitchell Stern 等人于 2018 年提出了投机采样的原型概念。这种方法后来被各种工作进一步发展和完善,包括 Lookahead Decoding、REST、Medusa 和 EAGLE,投机采样显著加快了大型语言模型 (LLM) 的推理过程。 一个重要的问题是:LLM 中的投机采样会损害原始模型的准确性吗?先说答案:不会。 标准的投机采样算法是无损的,本文将通过数学分析和实验来证明这一点。 数学证明 投机采样公式可以定义如下: 其中: 𝑟 是从均匀分布中采样的实数。是要预测的下一个token。 𝑝(𝑥) 是草稿模型给出的下一个token分布。𝑞(𝑥) 是基础模型给出的下一个token分布。