El equipo presenta sus modelos de razonamiento de primera generación, DeepSeek-R1-Zero y DeepSeek-R1. DeepSeek-R1-Zero, entrenado mediante RL a gran escala sin SFT, muestra una notable capacidad de razonamiento pero también tiene problemas como repetición sin fin. DeepSeek-R1, que incorpora datos de arranque en frío antes de RL, resuelve estos problemas y logra un rendimiento a la par con OpenAI-o1. El equipo ha liberado el código de estos modelos y seis destilados, con DeepSeek-R1-Distill-Qwen-32B superando a OpenAI-o1-mini en benchmarks.
Comparte tus pensamientos. Los campos marcados con * son obligatorios.