中文搜索引擎指南網

 找回密碼
 禁止注冊

QQ登錄

只需一步,快速開始

搜索
查看: 474|回復: 0
打印 上一主題 下一主題

DeepSeek-R1模型的訓練數據來源是什么?

[復制鏈接]
跳轉到指定樓層
1#
發表于 2025-2-16 14:33:31 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
DeepSeek-R1模型的訓練數據來源包括多種類型的數據集,主要用于模型的預訓練、監督微調和強化學習階段。

具體數據來源如下:

冷啟動數據:用于初始的監督微調(SFT),包括人工收集的高質量長鏈思維(CoT)數據,這些數據經過格式規范化和多語言對齊處理。

推理數據:通過拒絕采樣從強化學習階段生成,篩選出正確的推理軌跡,約60萬條,用于增強模型在數學、代碼等領域的推理能力。

非推理數據:復用DeepSeek-V3的監督微調數據集,包括寫作、事實問答等任務的數據,約20萬條,用于提升模型在非推理任務上的表現。

合成數據:DeepSeek團隊生成了60萬條推理數據,用于遷移學習,證明模型能夠將高級推理能力遷移到較小的模型中。
分享到:  QQ好友和群QQ好友和群 QQ空間QQ空間 騰訊微博騰訊微博 騰訊朋友騰訊朋友
收藏收藏

Archiver|手機版|小黑屋|教你搜 ( 魯ICP備16006309號

GMT+8, 2025-3-14 23:24 , Processed in 0.296041 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回復 返回頂部 返回列表