为什么Pytorch Changeer模块1536中的多头脑投入规模?
原文:Why is the input size of the MultiheadAttention in Pytorch Transformer module 1536?
原文:Why is the input size of the MultiheadAttention in Pytorch Transformer module 1536?
在使用rch.nn.modules.transformer.Transformer模块/object时,第一层是 en-layers.0. 本身_attn上层,即多头脑层。