DeepSeek-R1

DeepSeek-R1

En ligne

L'équipe présente ses premiers modèles de raisonnement de première génération, DeepSeek - R1 - Zero et DeepSeek - R1. DeepSeek - R1 - Zero, formé via un apprentissage par renforcement à grande échelle sans SFT, montre une capacité de raisonnement remarquable mais présente également des problèmes comme des répétitions sans fin. DeepSeek - R1, qui intègre des données de démarrage à froid avant l'apprentissage par renforcement, résout ces problèmes et atteint des performances comparables à celles d'OpenAI - o1. L'équipe a rendu ces modèles open source ainsi que six autres modèles distillés, avec DeepSeek - R1 - Distill - Qwen - 32B surpassant OpenAI - o1 - mini dans les benchmarks.

Dernière mise à jour: 2025/5/29

Commentaires

Laisser un commentaire

Partagez vos pensées sur cette page. Tous les champs marqués d'un * sont obligatoires.

Nous ne partagerons jamais votre email.

Commentaires

0

Note du site

9

Lables

open source

Action rapide

一键轻松打造你的专属AI应用
Vidnoz Flex: Maximize the Power of Videos
搭建您的专属大模型主页