transformer详细解释

encoder

单词被向量化,相似语义的词,向量较近
然后位置编码
最后词义向量+位置向量组合成一个token

前馈神经网络

自注意力机制

decoder