Команда представляет свои модели рассуждений первого поколения, DeepSeek - R1 - Zero и DeepSeek - R1. DeepSeek - R1 - Zero, обученная с помощью масштабного RL без SFT, демонстрирует замечательную способность к рассуждению, но также имеет проблемы, такие как бесконечное повторение. DeepSeek - R1, который включает данные холодного старта перед RL, решает эти проблемы и достигает производительности на уровне OpenAI - o1. Команда сделала эти модели и шесть дистиллированных открытыми, причем DeepSeek - R1 - Distill - Qwen - 32B превосходит OpenAI - o1 - mini в тестах.