token,也就是那些一旦选错、整条推理就跑偏的关键位置。DeepSeek-R1-Distill-Llama-8B(后两个模型为早期推理模型,实验结果在论文附录)。不只是让某次推理更高效地探索,它还帮助模型学到了更好的策略。
2026-06-22