若天是西湖大學和浙江大學聯培博士生,任毅是不列顛哥倫比亞大學博士,郁晝亮是香港中文大學博士生,劉威楊是香港中文大學計算機系助理教授,溫研東是西湖大學人工智能系助理教授
隨著 Deepseek-R1,Kimi1.5 等模型展示了強化學習在提升大型語言模型復雜推理能力上的巨大潛力,使用可驗證強化學習(RLVR)在數學、邏輯與編程等領域進行訓練提升模型性能受到了廣泛關注。
然而,盡管現有 RLVR 方法在提升模型的 pass@1 性能(單次嘗試正確的概率)方面取得了顯著成果,但其在 pass@K(K 次嘗試中至少一次正確的概率,K>1)上的性能相比基礎模型卻下降了。
這一現象表明,雖然模型在「利用」(Exploitation)單一正確路徑的能力有所增強,但犧牲了對多樣化正確解的「探索」(Exploration)能力。
針對這一問題,研究團隊從「模型預測下一個詞的概率分布」這一新視角出發,深入研究了「探索」能力下降的內在機制。大量實驗發現,經過現有 RLVR 算法訓練后的模型,多數存在概率集中于單一推理路徑的問題。
受該現象啟發,研究團隊提出一種簡潔且高效的算法 ——SimKO (Simple Pass@K Optimization),顯著優化了 pass@K(K=1 及 K>1)性能。