一、什么是生成式大模型?
生成式大模型(一般简称大模型LLMs)是指能用于创作新内容,例如文本、图片、音频以及视频的一类深度学
习模型。相比普通深度学习模型,主要有两点不同:
二、大模型是怎么让生成的文本丰富而不单调的呢?
• 大模型(LLMs)进阶面
• 一、什么是生成式大模型?
• 二、大模型是怎么让生成的文本丰富而不单调的呢?
• 三、LLMs 复读机问题
• 3.1 什么是 LLMs 复读机问题?
• 3.2 为什么会出现 LLMs 复读机问题?
• 3.3 如何缓解 LLMs 复读机问题?
• 3.3.1 Unlikelihood Training
• 3.3.2 引入噪声
• 3.3.3 Repetition Penalty
• 3.3.4 Contrastive Search
• 3.3.5 Beam Search
• 3.3.6 TopK sampling
• 3.3.7 Nucleus sampler
• 3.3.8 Temperature
• 3.3.9 No repeat ngram size
• 3.3.10 重复率指标检测
• 3.3.11 后处理和过滤
• 3.3.12 人工干预和控制
• 四、llama 系列问题
• 4.1 llama 输入句子长度理论上可以无限长吗?
• 五、什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型,咋选?
• 六、各个专业领域是否需要各自的大模型来服务?
• 七、如何让大模型处理更长的文本?
• 致谢
1. 模型参数量更大,参数量都在Billion级别;
2. 可通过条件或上下文引导,产生生成式的内容(所谓的prompt engineer就是由此而来)。
1. 从训练角度来看:
a. 基于Transformer的模型参数量巨大,有助于模型学习到多样化的语言模式与结构;
b. 各种模型微调技术的出现,例如P-Tuning、Lora,让大模型微调成本更低,也可以让模型在垂直领域
有更强的生成能力;
扫码加
查看更多c. 在训练过程中加入一些设计好的loss,也可以更好地抑制模型生成单调内容;
2. 从推理角度来看:
a. 基于Transformer的模型可以通过引入各种参数与策略,例如temperature,nucleus samlper来改变每
次生成的内容。
三、LLMs 复读机问题
3.1 什么是 LLMs 复读机问题?
LLMs 复读机问题:
1. 字符级别重复,指大模型针对一个字或一个词重复不断的生成
例如在电商翻译场景上,会出现“steckdose steckdose steckdose steckdose steckdose steckdose steckdose
steckdose...”;
1. 语句级别重复,大模型针对一句话重复不断的生成
例如在多模态大模型图片理解上,生成的结果可能会不断重复图片的部分内容,比如“这是一个杯子,这是一个
杯子...”;
1. 章节级别重复,多次相同的prompt输出完全相同或十分近似的内容,没有一点创新性的内容
比如你让大模型给你写一篇关于春天的小作文,结果发现大模型的生成结果千篇一律,甚至近乎一摸一样。
1. 大模型针对不同的prompt也可能会生成类似的内容,且有效信息很少、信息熵偏低