Python知识分享网 - 专业的Python学习网站 学Python,上Python222
大模型(LLMs)基础面试题 PDF 下载
匿名网友发布于:2025-03-24 10:08:04
(侵权举报)
(假如点击没反应,多刷新两次就OK!)

大模型(LLMs)基础面试题  PDF 下载 图1

 

 

资料内容:

 

4涌现能力是啥原因?

根据前人分析和论文总结,大致是2个猜想:·任务的评价指标不够平滑;

·复杂任务vs子任务,这个其实好理解,比如我们假设某个任务T有5个子任务Sub-T构成,每个sub-T随着模型增长,指标从40%提升到60%,但是最终任务的指标只从1.1%提升到了7%,也就是说宏观上看到了涌现现象,但是了任务效果其实是平滑增长的。

 

5为何现在的大模型大部分是Decoder only结构?

因为decoder-only结构模型在没有任何微调数据的情况下,zeroshot的表现能力最好。而encoder-decoder则需要在一定量的标注数据上做multitask-finetuning才能够激发最佳性能。

目前的Large LM的训练范式还是在大规模语料shang做自监督学习,很显然zero-hot性能更好的decoder-only架构才能更好的利用这些无标主的数据。

大模型使用decoder-only架构除了训练效率和工程实现上的优势外,在理论上因为Encoder的双向注意力会存在低秩的问题,这可能会削弱模型的表达能力。就生成任务而言,引入双向注意力并无实质的好处。而Encoder-decoder模型架构之所以能够在某些场景下表现更好,大概是因为它多了一倍参数。所以在同等参数量、同等推理成本下,Decoder-only架构就是最优的选择了。