Transformer 结构分析

Input Embedding将 token 转化为向量 Positional Encoding网络结构不包含位置信息,编码引入 Scaled Dot-Product & Multi-Head Attention $$Q=W^QX,K=W^KX,V=W^VX$$ Scaled Dot-Product Attention$$\text{Atten...

技术实践