大模型（LLMs）微调面 PDF 下载-Python知识分享网

大模型（LLMs）微调面 PDF 下载

匿名网友发布于：2025-04-01 09:57:43

(侵权举报)

(假如点击没反应，多刷新两次就OK！)

大模型（LLMs）微调面 PDF 下载图1

资料内容：

1. 如果想要在某个模型基础上做全参数微调，究竟需要多少显

存？

一般 n B的模型，最低需要 16-20 n G的显存。（cpu offload基本不开的情况下）

vicuna-7B为例，官方样例配置为 4*A100 40G，测试了一下确实能占满显存。（global batch size

128，max length 2048）当然训练时用了FSDP、梯度累积、梯度检查点等方式降显存。

2. 为什么SFT之后感觉LLM傻了?

• 原版答案：

SFT的重点在于激发大模型的能力，SFT的数据量一般也就是万恶之源alpaca数据集的52k量级，

相比于预训练的数据还是太少了。

如果抱着灌注领域知识而不是激发能力的想法，去做SFT的话，可能确实容易把LLM弄傻。

• 新版答案：

指令微调是为了增强（或解锁）大语言模型的能力。

其真正作用：

指令微调后，大语言模型展现出泛化到未见过任务的卓越能力，即使在多语言场景下也能有不错表

现。