DeepSeek-R1

DeepSeek-R1

En línea

El equipo presenta sus modelos de razonamiento de primera generación, DeepSeek-R1-Zero y DeepSeek-R1. DeepSeek-R1-Zero, entrenado mediante RL a gran escala sin SFT, muestra una notable capacidad de razonamiento pero también tiene problemas como repetición sin fin. DeepSeek-R1, que incorpora datos de arranque en frío antes de RL, resuelve estos problemas y logra un rendimiento a la par con OpenAI-o1. El equipo ha liberado el código de estos modelos y seis destilados, con DeepSeek-R1-Distill-Qwen-32B superando a OpenAI-o1-mini en benchmarks.

Última actualización: 2025/5/29

Sitios relacionados

Comentarios

Dejar un comentario

Comparte tus pensamientos. Los campos marcados con * son obligatorios.

Tu correo electrónico no se mostrará públicamente

Comentarios

0

Calificación

9

Lables

open source

Acción rápida

一键轻松打造你的专属AI应用
Vidnoz Flex: Maximize the Power of Videos
搭建您的专属大模型主页