Deepseek-R1  介绍

Deepseek-R1 介绍

疯哥

1.介绍

DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,没有监督微调(SFT)作为初步步骤,在推理方面表现出了出色的表现。有了RL,DeepSeek-R1-Zero自然而然地出现了许多强大而有趣的推理行为。然而,DeepSeek-R1-Zero遇到了挑战,如无休止的重复、可读性差和语言混合。为了解决这些问题并进一步提高推理性能,我们引入了DeepSeek-R1,它包含RL之前的冷启动数据。DeepSeek-R1在数学、代码和推理任务方面实现了与OpenAI-o1相当的性能。为了支持研究界,我们开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Llama和Qwen的DeepSeek-R1提炼的六个密集模型。DeepSeek-R1-Distill-Qwen-32B在各种基准上都优于OpenAI-o1-mini,为密集模型实现了新的最先进的结果。

注意:在本地运行DeepSeek-R1系列模型之前,建议先查看建议部分。

使用建议

我们建议在使用DeepSeek-R1系列型号(包括基准测试)时坚持以下配置,以实现预期性能:

  1. 将温度设置在0.5-0.7(建议为0.6)的范围内,以防止无休止的重复或不连贯的输出。
  2. 避免添加系统提示;所有说明都应包含在用户提示中。
  3. 对于数学问题,建议在提示中包含一个指令,例如:“请一步一步地推理,并将最终答案放在\boxed{}中。”
  4. 在评估模型性能时,建议进行多次测试并平均结果。

此外,我们观察到,DeepSeek-R1系列模型在响应某些查询时往往会绕过思维模式(即输出“<think>\n\n</think>”),这可能会对模型的性能产生不利影响。为了确保模型参与彻底的推理,我们建议强制模型在每个输出的开头用“<think>\n”启动响应。

测试基准截图

Deepseek-R1  介绍
Deepseek-R1  介绍

2.模型总结


训练后:基础模型上的大规模强化学习

  • 我们直接将强化学习(RL)应用于基础模型,而不依赖监督微调(SFT)作为初步步骤。这种方法允许模型探索思想链(CoT)来解决复杂问题,从而开发了DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长CoT等功能,标志着研究界的一个重要里程碑。值得注意的是,这是第一项公开研究,验证了LLM的推理能力可以纯粹通过RL获得激励,而不需要SFT。这一突破为该领域未来的进步铺平了道路。
  • 我们介绍开发DeepSeek-R1的管道。该管道包含两个RL阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个SFT阶段,作为模型推理和非推理能力的种子。我们相信,管道将通过创造更好的模型来造福行业。

蒸馏:较小的模型也可以更强大

  • 我们证明,与通过RL在小型模型上发现的推理模式相比,大型模型的推理模式可以提炼成较小的模型,从而产生更好的性能。开源的DeepSeek-R1及其API将有利于研究界在未来提炼出更好的小型模型。
  • 使用DeepSeek-R1生成的推理数据,我们微调了几个在研究界广泛使用的密集模型。评估结果表明,蒸馏的较小密度模型在基准上表现特别好。我们基于Qwen2.5和Llama3系列向社区开源蒸馏了1.5B、7B、8B、14B、32B和70B检查点。

3.模型下载

DeepSeek-R1模型

模型#总参数#激活参数上下文长度下载
深度搜索-R1-零671B37B128K🤗HuggingFace
深度搜索-R1671B37B128K🤗HuggingFace

DeepSeek-R1-Zero和DeepSeek-R1是根据DeepSeek-V3-Base训练的。有关模型架构的更多详细信息,请参阅DeepSeek-V3存储库。

DeepSeek-R1-Distill Models

ModelBase ModelDownload
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8BLlama-3.1-8B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-Instruct🤗 HuggingFace

DeepSeek-R1-Distill模型根据开源模型进行微调,使用DeepSeek-R1生成的样本。我们稍微更改了他们的配置和令牌化器。请使用我们的设置来运行这些模型。

4.评估结果

DeepSeek-R1-评估

对于我们所有的型号,最大生成长度设置为32,768个代币。对于需要采样的基准,我们使用温度0.6,一个顶级p值0.95,每个查询生成64个响应,以估计pass@1。

CategoryBenchmark (Metric)Claude-3.5-Sonnet-1022GPT-4o 0513DeepSeek V3OpenAI o1-miniOpenAI o1-1217DeepSeek R1
ArchitectureMoEMoE
# Activated Params37B37B
# Total Params671B671B
EnglishMMLU (Pass@1)88.387.288.585.291.890.8
MMLU-Redux (EM)88.988.089.186.792.9
MMLU-Pro (EM)78.072.675.980.384.0
DROP (3-shot F1)88.383.791.683.990.292.2
IF-Eval (Prompt Strict)86.584.386.184.883.3
GPQA-Diamond (Pass@1)65.049.959.160.075.771.5
SimpleQA (Correct)28.438.224.97.047.030.1
FRAMES (Acc.)72.580.573.376.982.5
AlpacaEval2.0 (LC-winrate)52.051.170.057.887.6
ArenaHard (GPT-4-1106)85.280.485.592.092.3
CodeLiveCodeBench (Pass@1-COT)33.834.253.863.465.9
Codeforces (Percentile)20.323.658.793.496.696.3
Codeforces (Rating)7177591134182020612029
SWE Verified (Resolved)50.838.842.041.648.949.2
Aider-Polyglot (Acc.)45.316.049.632.961.753.3
MathAIME 2024 (Pass@1)16.09.339.263.679.279.8
MATH-500 (Pass@1)78.374.690.290.096.497.3
CNMO 2024 (Pass@1)13.110.843.267.678.8
ChineseCLUEWSC (EM)85.487.990.989.992.8
C-Eval (EM)76.776.086.568.991.8
C-SimpleQA (Correct)55.458.768.040.363.7

蒸馏模型评估

AIME 2024 pass@1AIME 2024 cons@64MATH-500 pass@1GPQA Diamond pass@1LiveCodeBench pass@1CodeForces rating
GPT-4o-05139.313.474.649.932.9759
Claude-3.5-Sonnet-102216.026.778.365.038.9717
o1-mini63.680.090.060.053.81820
QwQ-32B-Preview44.060.090.654.541.91316
DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954
DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189
DeepSeek-R1-Distill-Qwen-14B69.780.093.959.153.11481
DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691
DeepSeek-R1-Distill-Llama-8B50.480.089.149.039.61205
DeepSeek-R1-Distill-Llama-70B70.086.794.565.257.51633

5.聊天网站和API平台

您可以在DeepSeek的官方网站上与DeepSeek-R1聊天:chat.deepseek.com,并打开“DeepThink”按钮

我们还在DeepSeek平台上提供OpenAI兼容的API:platform.deepseek.com

6.如何在本地运行

DeepSeek-R1模型

有关本地运行DeepSeek-R1的更多信息,请访问DeepSeek-V3 repo。

注意:Hugging Face的变形金刚尚未得到直接支持。

DeepSeek-R1-蒸馏模型

DeepSeek-R1-Distill模型可以以与Qwen或Llama模型相同的方式使用。

例如,您可以使用vLLM轻松启动服务:

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

您还可以使用SGLang轻松启动服务

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

使用建议

我们建议在使用DeepSeek-R1系列型号(包括基准测试)时坚持以下配置,以实现预期性能:

  1. 将温度设置在0.5-0.7(建议为0.6)的范围内,以防止无休止的重复或不连贯的输出。
  2. 避免添加系统提示;所有说明都应包含在用户提示中。
  3. 对于数学问题,建议在提示中包含一个指令,例如:“请一步一步地推理,并将最终答案放在\boxed{}中。”
  4. 在评估模型性能时,建议进行多次测试并平均结果。

此外,我们观察到,DeepSeek-R1系列模型在响应某些查询时往往会绕过思维模式(即输出“<think>\n\n</think>”),这可能会对模型的性能产生不利影响。为了确保模型参与彻底的推理,我们建议强制模型在每个输出的开头用“<think>\n”启动响应。

(0)
上一篇 2025年2月10日 下午11:42
下一篇 2025年2月11日 下午7:22

更多相关内容

开始你的AI探索之旅,开启无限可能,学习AI道路上我们一起前进。