课程介绍
本课程聚焦于 DeepSeek R1 模型蒸馏 Qwen2 1.5B 的实践操作,旨在让学员掌握模型蒸馏的全流程,包括环境部署、数据集准备、蒸馏过程及调用测试,提升学员在大模型应用与优化领域的实践能力。课程还包含DeepSeek V3 模型核心原理、整体架构、分布式基础概念、MLA嵌在注意力从自回归掩码看KV缓存机制,针对KV缓存的改进,DeepSeek MOE架构与创新介绍。
培训对象
从事相关工作及对课程内容感兴趣的人员。
课程收益
能够独立搭建 DeepSeek R1 模型蒸馏 Qwen2 1.5B 的实验环境,包括创建虚拟环境、安装相关依赖和工具;
熟悉多种可用于模型蒸馏的数据集,掌握数据集的清洗和准备方法,能根据需求筛选和处理数据;
理解并熟练执行模型蒸馏过程,运用 Llama - Factory 进行全量指令微调,优化模型性能;
学会对蒸馏前后的模型进行调用测试,准确评估模型在实际问题解决中的表现,分析模型的优势与不足。
知识概要
-- DeepSeek-R1蒸馏Qwen1.5B实战;
-- DeepSeek-V3模型核心原理与架构介绍;
-- DeepSeek v3 MLA 机制与混合专家模型介绍。
课程大纲
DeepSeek-R1蒸馏Qwen1.5B实战
模型蒸馏环境部署
操作系统与配置说明
创建虚拟环境
创建 Jupyter Kernel
安装 wand
创建主目录与下载原始模型
安装 Llama - Factory
模型蒸馏数据集准备
主流推理数据集介绍
数据清洗过程
数据集下载与准备
模型蒸馏过程
上传微调脚本
执行微调
调用测试
测试问题设置
普通模型调用测试
蒸馏模型调用测试
DeepSeek-V3模型核心原理与架构介绍
DeepSeekv3 架构图解与基本参数配置
整体架构
不同规模模型参数
关键参数配置
分布式并行化嵌入与映射
ParallelEmbedding 层
线性层相关实现
行并行与列并行
RMS Norm 层
Layer Normalization 介绍
LN 与 BN、RMSNorm 的差别
RMSNorm 实现
旋转位置编码 ROPE
原理与优势
具体流程
相关代码实现
DeepSeek v3 的 KV 缓存机制
工作原理
类定义与初始化
forward 方法
DeepSeek v3 MLA 机制与混合专家模型介绍
DeepSeek v3 的 MOE 混合专家模型
与常见前馈网络对比
SwiGLU 激活函数
MoE 原理与优势
MoE 训练流程
专家选择机制
瓶颈问题与辅助损失
MoE 推理过程
相关类定义
DeepSeek v3 的 KV 缓存机制
自回归算法与 KV 缓存
注意力机制计算分析
KV 缓存工作流程
MLA 潜在注意力机制
相关类定义与初始化
认证过程
无认证考试
开班信息
暂无开班信息