资料内容:
4涌现能力是啥原因?
根据前人分析和论文总结,大致是2个猜想:·任务的评价指标不够平滑;
·复杂任务vs子任务,这个其实好理解,比如我们假设某个任务T有5个子任务Sub-T构成,每个sub-T随着模型增长,指标从40%提升到60%,但是最终任务的指标只从1.1%提升到了7%,也就是说宏观上看到了涌现现象,但是了任务效果其实是平滑增长的。
5为何现在的大模型大部分是Decoder only结构?
因为decoder-only结构模型在没有任何微调数据的情况下,zeroshot的表现能力最好。而encoder-decoder则需要在一定量的标注数据上做multitask-finetuning才能够激发最佳性能。
目前的Large LM的训练范式还是在大规模语料shang做自监督学习,很显然zero-hot性能更好的decoder-only架构才能更好的利用这些无标主的数据。
大模型使用decoder-only架构除了训练效率和工程实现上的优势外,在理论上因为Encoder的双向注意力会存在低秩的问题,这可能会削弱模型的表达能力。就生成任务而言,引入双向注意力并无实质的好处。而Encoder-decoder模型架构之所以能够在某些场景下表现更好,大概是因为它多了一倍参数。所以在同等参数量、同等推理成本下,Decoder-only架构就是最优的选择了。