Megatron 源码分析

程序启动 /Megatron-LM/examples/pretrain_gpt_distributed.sh 使用 torchrun 启动多进程 pretrain_gpt.py torchrun 预训练 pretrain_gpt.py 调用 pretrain 函数进行预训练。 123456if __name__ == "__main__": pretrain(tra...

发布于 

「随笔」乡村婚事-卡夫卡

一位小姑娘在向前伸出的双手里捧着一只疲倦的小狗。两位先生相互交换着信息。其中一个手心向上,有节奏的摆动着双手,仿佛拖着什么悬空的重物。这时,走来了一位女士,她的帽子上饰有许多缎带、别针和花朵,一个挂着细手杖的年轻人匆匆而过,他那似乎瘫痪的左手平放于胸前。不时走来一些男人,他们抽着烟,嘴里冒出一缕缕直而长的小烟云。有三位先生——其中的两个把轻便的外衣搭在屈伸的下臂上——多次从房屋墙根走到人行...

发布于 胡思乱想

「技术」Torch 相关资料

Profiler Sample

发布于 技术实践

「算法」主定理

主定理 在演算法分析中,主定理提供了用渐近符号\(\Theta\) 表示许多由分治法得到的递推关系式的方法。 假设有递推关系式 \[ T(n)=aT(\frac{n}{b})+f(n) \] 那么有 \[ T(n)=\begin{cases} \Theta(f(n)) & f(n)=\Omega(n^{\log_b{a+\epsilon}})\ \&\&\ af(\f...

发布于 算法

「操作系统」BUAA-OS-2023

浅浅放个 github 仓库以供参考,后期可能会完善(鸽),并写一些 OS 比赛的东西

发布于 课程备忘

「技术」PostgreSQL 使用小结

用了多年 MySQL,想尝试一下新鲜事物 PostgreSQL,过程中踩了不少坑,于是便有了这篇文章 安装 环境 Ubuntu-18.04 官方 apt 仓库安装,但由于服务器在国外速度过慢,弃置 从源码编译安装 官方文档 Chapter 17. Installation from Source Code,本文与其的一切差异以官方文档为准 在官方 ftp 找到需要的版本 1wget ...

发布于 技术实践

「编译原理」文法

文法 \(G=(V_n, V_t, P, Z)\) \(G\) 文法 \(V_n\) 非终结符号集 \(V_t\) 终结符号集 \(P\) 产生式或规则的集合 \(Z\) 开始符号(识别符号) \(V\) 词汇表,\(V=V_n\cup V_t\) 规则是一个有序对,通常写为 \(U\rightarrow x\),其中 \(U\in V_n,x\in V^{*}\) 类...

发布于 课程备忘

「技术」Pytorch 并行训练

介绍 常用术语 worker:常指 CPU node:节点,通常对应一台完整的机器 nnodes:节点数量 node_rank:节点序号 nproc_per_node:节点上的进程数量,通常一个进程对应一个 GPU,故也表示 GPU 的数量 master_addr:master 的 IP 地址,也就是 rank=0 的 IP 地址 RANK:进程的序号,通常一个进程对应一个 GPU,全局,...

发布于 技术实践

「技术」Transformer 结构分析

Input Embedding 将 token 转化为向量 Positional Encoding 网络结构不包含位置信息,编码引入 Scaled Dot-Product & Multi-Head Attention \[ Q=W^QX,K=W^KX,V=W^VX \] Scaled Dot-Product Attention \[ \text{Attention}(Q, K...

发布于 技术实践

「面向对象」Unit-4

最折磨的一集 建模 为了完成作业,我采取了先写代码再反向完成类图的方式。 架构思想 这几次代码我都是按照生活中的常识进行的架构设计, 但是在后期发现了许多的冗余类,于是进行了简化设计。 迭代过程中基本上没有进行大的架构变革, 而是基于几次测试新增的要求进行更新。 与设计要求不太相同的是, 我设计中的「书」更像是单纯的实体, 它本身没有状态, 所谓的「状态」由书在前所在的位置决定。 这样的...

发布于 课程备忘
13