Python知识分享网 - 专业的Python学习网站 学Python,上Python222
大模型(LLMs)进阶面 PDF 下载
匿名网友发布于:2025-03-28 07:59:53
(侵权举报)
(假如点击没反应,多刷新两次就OK!)

 

一、什么是生成式大模型?
生成式大模型(一般简称大模型LLMs)是指能用于创作新内容,例如文本、图片、音频以及视频的一类深度学
习模型。相比普通深度学习模型,主要有两点不同:
二、大模型是怎么让生成的文本丰富而不单调的呢?
大模型(LLMs)进阶面
一、什么是生成式大模型?
二、大模型是怎么让生成的文本丰富而不单调的呢?
三、LLMs 复读机问题
3.1 什么是 LLMs 复读机问题?
3.2 为什么会出现 LLMs 复读机问题?
3.3 如何缓解 LLMs 复读机问题?
3.3.1 Unlikelihood Training
3.3.2 引入噪声
3.3.3 Repetition Penalty
3.3.4 Contrastive Search
3.3.5 Beam Search
3.3.6 TopK sampling
3.3.7 Nucleus sampler
3.3.8 Temperature
3.3.9 No repeat ngram size
3.3.10 重复率指标检测
3.3.11 后处理和过滤
3.3.12 人工干预和控制
四、llama 系列问题
4.1 llama 输入句子长度理论上可以无限长吗?
五、什么情况用Bert模型,什么情况用LLaMAChatGLM类大模型,咋选?
六、各个专业领域是否需要各自的大模型来服务?
七、如何让大模型处理更长的文本?
致谢
1. 模型参数量更大,参数量都在Billion级别;
2. 可通过条件或上下文引导,产生生成式的内容(所谓的prompt engineer就是由此而来)。
1. 从训练角度来看:
a. 基于Transformer的模型参数量巨大,有助于模型学习到多样化的语言模式与结构;
b. 各种模型微调技术的出现,例如P-TuningLora,让大模型微调成本更低,也可以让模型在垂直领域
有更强的生成能力;
扫码加
查看更多c. 在训练过程中加入一些设计好的loss,也可以更好地抑制模型生成单调内容;
2. 从推理角度来看:
a. 基于Transformer的模型可以通过引入各种参数与策略,例如temperaturenucleus samlper来改变每
次生成的内容。
三、LLMs 复读机问题
3.1 什么是 LLMs 复读机问题?
LLMs 复读机问题:
1. 字符级别重复,指大模型针对一个字或一个词重复不断的生成
例如在电商翻译场景上,会出现“steckdose steckdose steckdose steckdose steckdose steckdose steckdose
steckdose...”
1. 语句级别重复,大模型针对一句话重复不断的生成
例如在多模态大模型图片理解上,生成的结果可能会不断重复图片的部分内容,比如这是一个杯子,这是一个
杯子...”
1. 章节级别重复,多次相同的prompt输出完全相同或十分近似的内容,没有一点创新性的内容
比如你让大模型给你写一篇关于春天的小作文,结果发现大模型的生成结果千篇一律,甚至近乎一摸一样。
1. 大模型针对不同的prompt也可能会生成类似的内容,且有效信息很少、信息熵偏低