Python知识分享网 - 专业的Python学习网站 学Python,上Python222
大模型(LLMs)训练集面 PDF 下载
匿名网友发布于:2025-04-25 09:47:02
(侵权举报)
(假如点击没反应,多刷新两次就OK!)

大模型(LLMs)训练集面 PDF 下载 图1

 

 

资料内容:

 

 

1. SFT(有监督微调)的数据集格式?
一问一答
 
2. RM(奖励模型)的数据格式?
一个问题 + 一条好回答样例 + 一条差回答样例
 
3. PPO(强化学习)的数据格式?
理论上来说,不需要新增数据。需要提供一些prompt,可以直接用sft阶段的问。另外,需要限制
模型不要偏离原模型太远(ptx loss),也可以直接用sft的数据。
 
4. 找数据集哪里找?
推荐Alpaca-COT,数据集整理的非常全,眼花缭乱。
 
5. 微调需要多少条数据?
取决于预训练数据和微调任务的数据分布是否一致,分布一致,100条就够,分布差异大就需要多
些数据,千条或者万条以上为佳。
自己的任务复杂或者下游任务行业比较冷门,如药品名称识别任务,则需要较多监督数据。还有微
调大模型时,一遍是记不住的。100条的微调数据,epochs=20才能稳定拟合任务要求。
 
6. 有哪些大模型的训练集?
预训练数据集togethercomputer/RedPajama-Data-1T「红睡衣」开源计划总共包括三部分:
预训练数据集RedPajama-Data-1T已开源,包括七个子集,经过预处理后得到的token数量大致可
以匹配Meta在原始LLaMA论文中报告的数量,并且数据预处理相关脚本也已开源。
完整的RedPajama-Data-1T数据集需要的存储容量为压缩后3TB,解压后5TB
CoT微调数据集:Alpaca-CoT 里面包括常用的alpacaCoT等数据集,有中文的。
 
7. 进行领域大模型预训练应用哪些数据集比较好?
通过分析发现现有的开源大模型进行预训练的过程中会加入数据、论文等数据。主要是因为这些数
据的数据质量较高,领域相关性比较强,知识覆盖率(密度)较大,可以让模型更适应考试。给我
高质量、大规模、高覆盖度的预训练数据集;
在预训练数据集上训练出的基础模型;
指令调优数据集和模型,比基本模型更安全、可靠。
扫码加
查看更多们自己进行大模型预训练的时候提供了一个参考。同时领域相关的网站内容、新闻内容也是比较重
要的数据。