大模型（LLMs）基础面试题 PDF 下载-Python知识分享网

大模型（LLMs）基础面试题 PDF 下载

匿名网友发布于：2025-03-24 10:08:04

(侵权举报)

(假如点击没反应，多刷新两次就OK！)

大模型（LLMs）基础面试题 PDF 下载图1

资料内容：

4涌现能力是啥原因?

根据前人分析和论文总结，大致是2个猜想:·任务的评价指标不够平滑;

·复杂任务vs子任务，这个其实好理解，比如我们假设某个任务T有5个子任务Sub-T构成，每个sub-T随着模型增长，指标从40%提升到60%，但是最终任务的指标只从1.1%提升到了7%，也就是说宏观上看到了涌现现象，但是了任务效果其实是平滑增长的。

5为何现在的大模型大部分是Decoder only结构?

因为decoder-only结构模型在没有任何微调数据的情况下，zeroshot的表现能力最好。而encoder-decoder则需要在一定量的标注数据上做multitask-finetuning才能够激发最佳性能。

目前的Large LM的训练范式还是在大规模语料shang做自监督学习，很显然zero-hot性能更好的decoder-only架构才能更好的利用这些无标主的数据。

大模型使用decoder-only架构除了训练效率和工程实现上的优势外，在理论上因为Encoder的双向注意力会存在低秩的问题，这可能会削弱模型的表达能力。就生成任务而言，引入双向注意力并无实质的好处。而Encoder-decoder模型架构之所以能够在某些场景下表现更好，大概是因为它多了一倍参数。所以在同等参数量、同等推理成本下，Decoder-only架构就是最优的选择了。

热门帖子推荐

相关帖子推荐

热门标签推荐