埃隆·马斯克说到做到,开源了他家的大模型Glock。与其他基于Transformer架构的大模型相比,Glock有何独特之处呢?本文将深入解析Glock的架构设计,并与其他模型进行比较。
一、Glock的积木块:MOE架构所有的大模型都构建于Transformer架构之上,Glock也不例外。在代码的1292行,定义了一个Transformer模块。
Glock的核心在于其混合专家(Mixture of Experts,MOE)架构。Glock使用了八专家两活跃的MOE模型,与之前开源的Mistral AI的八专家七活跃的7B模型类似,GPT-4的架构推测也与此类似。
这意味着在每个Transformer层中,只有两个专家会被激活进行计算,从而显著降低了计算成本。
二、参数规模与层数对比Glock的八专家两活跃MOE架构堆叠了64层,均为MOE模块。相比之下,GPT-4堆叠了96层,参数量达到了惊人的3140亿。
三、深入Glock的Transformer模块从数据入口的词嵌入层开始,Glock的词汇量为32072。嵌入层的目的是将词转换为高维向量,Glock将每个词转换为一个6144维的向量。
之后,数据进入多头注意力机制。Glock使用了48头注意力,将6144维的向量切分为48份,每份128维。
为了节省算力和提高速度,只有查询向量(Q)被切分为48头,键向量(K)和值向量(V)则被分成六组,每组共享八个头进行自注意力计算。多头注意力机制之后是密集的前馈神经网络,将隐藏层规模放大八倍,达到8乘以6144的规模,参数量大幅增加。Glock单次最多可以处理8192个token,这意味着一次处理8192乘以6144个数字的庞大数据流。
四、Glock的开源与未来展望以上就是马斯克开源大模型Glock的总体框架解析。尽管开源,但马斯克仍然可能面临批评:不开源被指责“卡脖子”,开源后又可能被诟病“数据处理方式不当”。
接下来将进行实际部署测试,评估Glock的生产能力。