「技术」Torch 相关资料

Profiler Sample

发布于 技术实践

「技术」Pytorch 并行训练

介绍 常用术语 worker:常指 CPU node:节点,通常对应一台完整的机器 nnodes:节点数量 node_rank:节点序号 nproc_per_node:节点上的进程数量,通常一个进程对应一个 GPU,故也表示 GPU 的数量 master_addr:master 的 IP 地址,也就是 rank=0 的 IP 地址 RANK:进程的序号,通常一个进程对应一个 GPU,全局,...

发布于 技术实践

「技术」Transformer 结构分析

Input Embedding 将 token 转化为向量 Positional Encoding 网络结构不包含位置信息,编码引入 Scaled Dot-Product & Multi-Head Attention \[ Q=W^QX,K=W^KX,V=W^VX \] Scaled Dot-Product Attention \[ \text{Attention}(Q, K...

发布于 技术实践