资料内容:
数据决定人工智能高度。
大模型三要素是数据、算力和算法。随着AI技术快速成熟,各企业所使用的算力已逐渐趋同;各企业采用的算法也同样逐渐收敛,大多依托Transformer模型基础架构和以Pytorch、TensorFlow等为代表的开发框架;因此真正体现大模型差异性的要素是数据,根据公开数据显示,Meta开发的LLaMA3拥有700亿参数和15TB训练数据,而OpenAl的GPT-3.5拥有1750亿参数和570GB训练数据,尽管LLaMA3在参数规模上还不到GPT-3.5的一半,但其表现能力在大部分基准上均超过后者。不难看出,除了模型参数规模以外,训练数据的体量对提升大模型的效果具有显著作用。此外数据的质量同样重要,大模型需要规范性、完整性、时效性的高质量数据支撑。对于基础大模型,其数据质量主要基于厂商从公开渠道所获取数据的整体质量。而对于行业大模型的训练及细分场景推理应用,模型效果取决于行业专属的私域数据的质量,其中包含了企业原有数据和行业知识库等,如图2。