Python知识分享网 - 专业的Python学习网站 学Python,上Python222
通向AGI之路:大型语言模型(LLM)技术精要 PDF 下载
匿名网友发布于:2026-01-20 11:39:35
(侵权举报)
(假如点击没反应,多刷新两次就OK!)

通向AGI之路:大型语言模型(LLM)技术精要 PDF 下载 图1

 

 

资料内容:

 

求知之路:LLM学到了什么知识
 

[LM从海量自由文本中学习了大量知识,如果把这些知识做粗路分类的话,可以分为语言类知识和
世界知识两大类。

 

语言类知识指的是词法、词性、句法、语义等有助于人类或机器理解自然语言的知识。关于LLM能
否捕获语言知识有较长研究历史,自从Bert出现以来就不断有相关研究,很早就有结论,各种实验
充分证明LLM可以学习各种层次类型的语言学知识,这也是为何使用预训练模型后,各种语言理解
类自然语言任务获得大幅效果提升的最重要原因之一。另外,各种研究也证明了浅层语言知识比如
词法、词性、句法等知识存储在Transformer的低层和中层,而抽象的语言知识比如语义类知识,
广泛分布在Transformer的中层和高层结构中。

 

世界知识指的是在这个世界上发生的一些真实事件(事实型知识,FadualKnowledge),以及一
些常识性知识(Common Sense Knowledge)。比如“拜登是现任美国总统”、“拜登是美国
人“、“乌克兰总统泽连斯基与美国总统拜登举行会晤”,这些都是和拜登相关的事实类知识;而
“人有两只眼睛”、“太阳从东方升起”这些属于常识性知识关于LLM模型能否学习世界知识的
研究也有很多,结仑也比较一致:LLM确实从训练数据中吸收了大量世界知识,而这类知识主要分
布在Transformer的中层和高层,尤其聚集在中层而且,随着Transformer模型层深增加,能够
学习到的知识数量逐渐以指数级增加(可参考:BERTnesia: Investigating the capture and
forgetting of knowledge in BERT)。其实,你把LLM看作是一种以模型参数体现的隐式知识图
谱,如果这么理解,我认为是一点问题也没有的。

 

"When Do You Need Bilons of Words of Pre-training Data?”这篇文章研究了预il练模型学
习到的知识量与训陈数据量的关系,它的结论是:对于Bert类型的语言模型来说,只用1000万到1
亿单词的语料,就能学好句法语义等语言学知识,但是要学习事实类知识,则要更多的训练数据。
这个结论其实也是在意料中的,毕竟语言学知识相对有限且静态,而事实类知识则数量巨大,且处
于不断变化过程中而目前研究证明了陈着增加训练数据量,预训练模型在各种下游任务中效果越
好,这说明了从增量的训练数据中学到的更主要是世界知识。

 

记忆之地:LLM如何存取知识
 

由上可知,LLM确实从数据中学到了很多语言类及世界知识。那么,对于某条具体的知识,LLM把
它存储到了哪里?又是如何提取出来的?这也是一个有意思的问题。

 

显然,知识一定存储在Transfomer的模型参数里从Transfomer的结构看,模型参数由两部分
构成:多头注意力(MHA)部分占了大约参数总体的三分之一,三分之二的参数集中在FFN结构
中,MHA主要用于计算单词或知识间的相关强度,并对全局信息进行集成,更可能是在建立知识
之间的联系,大概率不会存储具体知识点,那么很容易推论出LLM模型的知识主体是存储在
Transfomer的FFN结构里。