L'équipe présente ses premiers modèles de raisonnement de première génération, DeepSeek - R1 - Zero et DeepSeek - R1. DeepSeek - R1 - Zero, formé via un apprentissage par renforcement à grande échelle sans SFT, montre une capacité de raisonnement remarquable mais présente également des problèmes comme des répétitions sans fin. DeepSeek - R1, qui intègre des données de démarrage à froid avant l'apprentissage par renforcement, résout ces problèmes et atteint des performances comparables à celles d'OpenAI - o1. L'équipe a rendu ces modèles open source ainsi que six autres modèles distillés, avec DeepSeek - R1 - Distill - Qwen - 32B surpassant OpenAI - o1 - mini dans les benchmarks.
Partagez vos pensées sur cette page. Tous les champs marqués d'un * sont obligatoires.