标签：机器学习

Transformer 结构分析

Input Embedding将 token 转化为向量 Positional Encoding网络结构不包含位置信息，编码引入 Scaled Dot-Product & Multi-Head Attention $$Q=W^QX,K=W^KX,V=W^VX$$ Scaled Dot-Product Attention$$\text{Atten...

2023-06-27