【投机解码专题】核心论文: Speculative-Decoding-Fast-Inference-from-Transformers-via-Speculative-Decoding
投机解码(Speculative Decoding)的核心思想,在 2022–2023 年间由 Google Research 和 DeepMind 两个团队几乎同时独立提出,代表性工作分别是: “Fast Inference from Transformers via Speculative Decoding”(Leviathan et al., 2023) “Accelerating Lar