DeepSeek-R1(深度思考)

DeepSeek-R1的基础模型架构来自于DeepSeek-V3，可以说R1是具有推理（Reasoning）能力的V3，是以DeepSeek-V3作为基础模型的；

DeepSeek-R1完整版（671B）：需要至少 350GB 显存/内存，适合专业服务器部署

DeepSeek-R1训练大概流程

思维链模型的原理与应用

CoT能减少模型幻觉问题，如果推理过程不合理，那么答案大概率也存在问题，就像是RAG回答问题时，它会给出依据，可以根据依据判断回答的问题是否正确；

思维链模型（Chain-of-Thought, CoT）是一种提示工程技术，引导大语言模型通过逐步推理解决问题，通过显式地展示模型的推理过程，提升其在复杂任务中的表现，模仿人类逻辑思考过程，将问题分解为多个步骤，逐步推导出答案，具备更强的可解释性和回答准确性；特别适用于复杂任务如数学、逻辑推理等。它不仅是R1模型的核心技术之一，更是推动大模型实现复杂推理能力的关键。

思维链：推理型大模型的核心

思维链的核心原理是“分而治之”策略

应用技术原理

分布提示设计

在编写大模型应用时，通过特定格式的提示（prompt）要求模型展示思考过程
使用关键字，例如“Let’s think step by step”触发逐步推理
支持零样本（Zero-shot）和少样本（Few-shot）两种模式
- 零样本（Zero-shot）：模型在无特定任务训练数据的情况下，凭借预训练知识直接执行任务。
- 少样本（Few-shot）：模型在少量（通常几例）任务特定示例的指导下，快速适应并执行任务。

中间状态生成

模型生成中间推理步骤作为文本
每个步骤作为后续推理的上下文继承（context）
通过自回归方式逐步生成结果内容提取

监督微调 (Supervised Fine-Tuning)

一个大模型（例如语言模型）在训练后具备强大的通用能力，但可能不完全适合某些特定的任务。微调会让模型更贴合某个目标或某个领域的特定知识。监督学习使用“输入-输出”对（如问题和正确答案）来进行学习。

SFT是一种在大型语言模型训练过程中广泛使用的技术。它发生在模型经过大规模无监督预训练之后。在预训练阶段，模型学习了海量的文本数据，掌握了通用的语言知识、语法和世界常识。但预训练的模型可能在特定任务或遵循特定指令方面表现不佳。SFT正是为了解决这个问题而诞生的。它利用标注好的数据集对预训练模型进行进一步的训练。这些数据集包含了特定的输入（如用户的问题或指令）以及期望的输出（如模型应该生成的回答格式或完成的任务）。通过在这些有监督的数据上进行训练，模型学会如何根据具体的指令或上下文产生符合要求的回应。如果将预训练比作让模型学习了大量的课本知识，那么SFT就像是针对某个具体的考试（特定任务）进行有针对性的习题训练，让模型更好地掌握如何应用所学知识来解答 specific problems。

Group Relative Policy Optimization（群组相对策略优化）

GRPO 指的是 Group Relative Policy Optimization（群组相对策略优化）。是一种用于训练大型语言模型（LLMs）的强化学习（Reinforcement Learning, RL）算法。它通过创新的群组相对策略优化方法，为大型语言模型在复杂任务上实现高性能表现、提高训练效率以及更好地与人类期望对齐提供了一种有效途径。GRPO 是一种比较新的强化学习算法，它在大型语言模型的后训练（post-training）阶段被用于进一步优化模型的性能，在处理复杂任务和 improving alignment（改善对齐）方面表现突出。

与传统的强化学习算法（如 PPO - Proximal Policy Optimization）不同，GRPO 的一个核心特点是它不依赖于一个单独的“价值函数”（value function）来估计预期奖励。相反，GRPO 采用了一种基于“群组相对”的方法来计算优势函数（advantage function），从而指导策略的更新。

具体来说，对于一个给定的输入（prompt），GRPO 会让模型生成一组（一个群组）不同的响应。然后，使用一个奖励模型（reward model）对这些响应进行评分。每个响应的“优势”不是根据一个独立的价值函数来计算，而是与其所在群组中其他响应的奖励进行比较，通常是与群组的平均奖励进行比较。这种相对比较的方式有助于更稳定和高效地更新模型的策略。

优势

GRPO 被证明在提升模型处理复杂任务的能力方面非常有效，例如数学问题求解、代码生成以及需要复杂推理的场景。通过比较同一输入下不同生成结果的优劣，模型可以学习到更有效的解题思路或生成策略。
相较于一些需要训练独立价值函数的 RL 算法，GRPO 通过移除价值函数的需求，显著降低了训练所需的内存和计算资源。这使得在计算资源有限的环境下训练和优化大型模型成为可能。
促进 emergent reasoning abilities (涌现推理能力): 一些研究表明，使用 GRPO 进行后训练有助于激发模型更强的推理能力，即使在预训练阶段模型可能没有针对此类能力的明确培训。
优化模型对齐： GRPO 可以用于进一步调整模型与特定的目标或人类偏好。通过设计合适的奖励函数来评估生成内容的质量、安全性和实用程度，引导模型生成更符合期望的输出。