DeepSeek-R1模型的訓練數據來源是什么？

sowang · 發表于 2025-2-16 14:33:31

DeepSeek-R1模型的訓練數據來源包括多種類型的數據集，主要用于模型的預訓練、監督微調和強化學習階段。

具體數據來源如下：

冷啟動數據：用于初始的監督微調（SFT），包括人工收集的高質量長鏈思維（CoT）數據，這些數據經過格式規范化和多語言對齊處理。

推理數據：通過拒絕采樣從強化學習階段生成，篩選出正確的推理軌跡，約60萬條，用于增強模型在數學、代碼等領域的推理能力。

非推理數據：復用DeepSeek-V3的監督微調數據集，包括寫作、事實問答等任務的數據，約20萬條，用于提升模型在非推理任務上的表現。

合成數據：DeepSeek團隊生成了60萬條推理數據，用于遷移學習，證明模型能夠將高級推理能力遷移到較小的模型中。

		自動登錄	找回密碼
密碼			禁止注冊