チームは初代推論モデル、DeepSeek-R1-ZeroとDeepSeek-R1を紹介します。DeepSeek-R1-Zeroは、SFTなしで大規模なRLを介して訓練され、顕著な推論能力を示しますが、終わりのない繰り返しなどの問題もあります。RL前にコールドスタートデータを組み込んだDeepSeek-R1は、これらの問題を解決し、OpenAI-o1と同等の性能を達成します。チームはこれらのモデルと6つの蒸留モデルをオープンソース化し、DeepSeek-R1-Distill-Qwen-32BはベンチマークでOpenAI-o1-miniを上回りました。
あなたの考えを共有してください。* の付いた項目は必須です。