Das Team stellt seine Modelle der ersten Generation für logisches Denken vor, DeepSeek - R1 - Zero und DeepSeek - R1. DeepSeek - R1 - Zero, das durch groß angelegtes RL ohne SFT trainiert wurde, zeigt bemerkenswerte Fähigkeiten im logischen Denken, hat aber auch Probleme wie endlose Wiederholungen. DeepSeek - R1, das Kaltstart-Daten vor RL einbezieht, löst diese Probleme und erreicht eine Leistung, die mit OpenAI - o1 vergleichbar ist. Das Team hat diese Modelle und sechs destillierte Versionen quelloffen gemacht, wobei DeepSeek - R1 - Distill - Qwen - 32B in Benchmarks besser abschneidet als OpenAI - o1 - mini.