DeepSeek-R1

DeepSeek-R1

Онлайн

Команда представляет свои модели рассуждений первого поколения, DeepSeek - R1 - Zero и DeepSeek - R1. DeepSeek - R1 - Zero, обученная с помощью масштабного RL без SFT, демонстрирует замечательную способность к рассуждению, но также имеет проблемы, такие как бесконечное повторение. DeepSeek - R1, который включает данные холодного старта перед RL, решает эти проблемы и достигает производительности на уровне OpenAI - o1. Команда сделала эти модели и шесть дистиллированных открытыми, причем DeepSeek - R1 - Distill - Qwen - 32B превосходит OpenAI - o1 - mini в тестах.

Последнее обновление: 2025/5/29

Связанные сайты

Комментарии

Оставить комментарий

Поделитесь своими мыслями об этой странице. Все поля, отмеченные *, обязательны для заполнения.

Мы никогда не будем делиться вашей электронной почтой.

Комментарии

0

Рейтинг сайта

9

Lables

open source

Быстрая действие

Посетить сайт
一键轻松打造你的专属AI应用
Vidnoz Flex: Maximize the Power of Videos
搭建您的专属大模型主页