DeepSeek-R1

DeepSeek-R1

オンライン

チームは初代推論モデル、DeepSeek-R1-ZeroとDeepSeek-R1を紹介します。DeepSeek-R1-Zeroは、SFTなしで大規模なRLを介して訓練され、顕著な推論能力を示しますが、終わりのない繰り返しなどの問題もあります。RL前にコールドスタートデータを組み込んだDeepSeek-R1は、これらの問題を解決し、OpenAI-o1と同等の性能を達成します。チームはこれらのモデルと6つの蒸留モデルをオープンソース化し、DeepSeek-R1-Distill-Qwen-32BはベンチマークでOpenAI-o1-miniを上回りました。

最終更新日: 2025/5/29

コメント

コメントを投稿

あなたの考えを共有してください。* の付いた項目は必須です。

メールアドレスは公開されません

コメント

0

評価

9

ラベル

open source

クイックアクション

一键轻松打造你的专属AI应用
Vidnoz Flex: Maximize the Power of Videos
搭建您的专属大模型主页