课程

课程介绍

本课程聚焦于 DeepSeek R1 模型蒸馏 Qwen2 1.5B 的实践操作,旨在让学员掌握模型蒸馏的全流程,包括环境部署、数据集准备、蒸馏过程及调用测试,提升学员在大模型应用与优化领域的实践能力。课程还包含DeepSeek V3 模型核心原理、整体架构、分布式基础概念、MLA嵌在注意力从自回归掩码看KV缓存机制,针对KV缓存的改进,DeepSeek MOE架构与创新介绍。

培训对象

从事相关工作及对课程内容感兴趣的人员。

课程收益

能够独立搭建 DeepSeek R1 模型蒸馏 Qwen2 1.5B 的实验环境,包括创建虚拟环境、安装相关依赖和工具;
熟悉多种可用于模型蒸馏的数据集,掌握数据集的清洗和准备方法,能根据需求筛选和处理数据;
理解并熟练执行模型蒸馏过程,运用 Llama - Factory 进行全量指令微调,优化模型性能;
学会对蒸馏前后的模型进行调用测试,准确评估模型在实际问题解决中的表现,分析模型的优势与不足。

知识概要

-- DeepSeek-R1蒸馏Qwen1.5B实战;
-- DeepSeek-V3模型核心原理与架构介绍;
-- DeepSeek v3 MLA 机制与混合专家模型介绍。 

课程大纲

模块

学习内容

第一天

DeepSeek-R1蒸馏Qwen1.5B实战

模型蒸馏环境部署

操作系统与配置说明

创建虚拟环境

创建 Jupyter Kernel

安装 wand

创建主目录与下载原始模型

安装 Llama - Factory

模型蒸馏数据集准备

主流推理数据集介绍

数据清洗过程

数据集下载与准备

模型蒸馏过程

上传微调脚本

执行微调

调用测试

测试问题设置

普通模型调用测试

蒸馏模型调用测试

第二天

DeepSeek-V3模型核心原理与架构介绍

DeepSeekv3 架构图解与基本参数配置

整体架构

不同规模模型参数

关键参数配置

分布式并行化嵌入与映射

ParallelEmbedding 层

线性层相关实现

行并行与列并行

RMS Norm 层

Layer Normalization 介绍

LN 与 BN、RMSNorm 的差别

RMSNorm 实现

旋转位置编码 ROPE

原理与优势

具体流程

相关代码实现

DeepSeek v3 的 KV 缓存机制

工作原理

类定义与初始化

forward 方法

第三天

DeepSeek v3 MLA 机制与混合专家模型介绍

DeepSeek v3 的 MOE 混合专家模型

与常见前馈网络对比

SwiGLU 激活函数

MoE 原理与优势

MoE 训练流程

专家选择机制

瓶颈问题与辅助损失

MoE 推理过程

相关类定义

DeepSeek v3 的 KV 缓存机制

自回归算法与 KV 缓存

注意力机制计算分析

KV 缓存工作流程

MLA 潜在注意力机制

相关类定义与初始化

认证过程

无认证考试

开班信息

暂无开班信息