팀은 첫 번째 세대 추론 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 소개합니다. SFT 없이 대규모 RL을 통해 훈련된 DeepSeek-R1-Zero는 놀라운 추론 능력을 보이지만 끝없는 반복과 같은 문제도 있습니다. RL 전에 콜드 스타트 데이터를 통합한 DeepSeek-R1은 이러한 문제를 해결하고 OpenAI-o1과 동등한 성능을 달성합니다. 팀은 이러한 모델과 6개의 증류된 모델을 오픈 소스로 공개했으며, DeepSeek-R1-Distill-Qwen-32B는 벤치마크에서 OpenAI-o1-mini를 능가하는 성능을 보입니다.
의견을 공유해주세요. * 표시가 있는 항목은 필수입니다.