该团队推出了其第一代推理模型,DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通过大规模无监督强化学习(RL)训练,展现出卓越的推理能力,但也存在如无休止重复等问题。DeepSeek-R1在RL前加入了冷启动数据,解决了这些问题,并实现了与OpenAI-o1相媲美的性能。团队已开源这些模型及六个蒸馏版本,其中DeepSeek-R1-Distill-Qwen-32B在基准测试中超越了OpenAI-o1-mini。
分享你的想法。带 * 的字段为必填项。
邮箱信息不会公开显示