DeepSeek-R1

DeepSeek-R1

在线

该团队推出了其第一代推理模型,DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通过大规模无监督强化学习(RL)训练,展现出卓越的推理能力,但也存在如无休止重复等问题。DeepSeek-R1在RL前加入了冷启动数据,解决了这些问题,并实现了与OpenAI-o1相媲美的性能。团队已开源这些模型及六个蒸馏版本,其中DeepSeek-R1-Distill-Qwen-32B在基准测试中超越了OpenAI-o1-mini。

最后更新: 2025/5/29

评论

发表评论

分享你的想法。带 * 的字段为必填项。

邮箱信息不会公开显示

评论

0

网站评分

9

网站标签

open source

快速操作

一键轻松打造你的专属AI应用
Vidnoz Flex: Maximize the Power of Videos
搭建您的专属大模型主页