在 win11 上为 WSL2 配置桥接网络

WSL2 默认使用 NAT 网络,无法直接访问局域网内的设备。 本文介绍如何配置 WSL2 使用桥接网络,使 WSL2 能够直接访问局域网内的设备。 首先,需要在 Windows 上安装 Hyper-V。 注意,只有 Windows 专业版才支持 Hyper-V。 安装完成后,打开 Hyper-V 管理器,点击虚拟交换机管理器,创建一个新的虚拟交换机 <yourNewEthernet&...

发布于 

Megatron 源码分析

程序启动 /Megatron-LM/examples/pretrain_gpt_distributed.sh 使用 torchrun 启动多进程 pretrain_gpt.py torchrun 预训练 pretrain_gpt.py 调用 pretrain 函数进行预训练。 123456if __name__ == "__main__": pretrain(tra...

发布于 

「随笔」乡村婚事-卡夫卡

一位小姑娘在向前伸出的双手里捧着一只疲倦的小狗。两位先生相互交换着信息。其中一个手心向上,有节奏的摆动着双手,仿佛拖着什么悬空的重物。这时,走来了一位女士,她的帽子上饰有许多缎带、别针和花朵,一个挂着细手杖的年轻人匆匆而过,他那似乎瘫痪的左手平放于胸前。不时走来一些男人,他们抽着烟,嘴里冒出一缕缕直而长的小烟云。有三位先生——其中的两个把轻便的外衣搭在屈伸的下臂上——多次从房屋墙根走到人行...

发布于 胡思乱想

「技术」Torch 相关资料

Profiler Sample

发布于 技术实践

「算法」主定理

主定理 在演算法分析中,主定理提供了用渐近符号\(\Theta\) 表示许多由分治法得到的递推关系式的方法。 假设有递推关系式 \[ T(n)=aT(\frac{n}{b})+f(n) \] 那么有 \[ T(n)=\begin{cases} \Theta(f(n)) & f(n)=\Omega(n^{\log_b{a+\epsilon}})\ \&\&\ af(\f...

发布于 算法

「操作系统」BUAA-OS-2023

浅浅放个 github 仓库以供参考,后期可能会完善(鸽),并写一些 OS 比赛的东西

发布于 课程备忘

「技术」PostgreSQL 使用小结

用了多年 MySQL,想尝试一下新鲜事物 PostgreSQL,过程中踩了不少坑,于是便有了这篇文章 安装 环境 Ubuntu-18.04 官方 apt 仓库安装,但由于服务器在国外速度过慢,弃置 从源码编译安装 官方文档 Chapter 17. Installation from Source Code,本文与其的一切差异以官方文档为准 在官方 ftp 找到需要的版本 1wget ...

发布于 技术实践

「编译原理」文法

文法 \(G=(V_n, V_t, P, Z)\) \(G\) 文法 \(V_n\) 非终结符号集 \(V_t\) 终结符号集 \(P\) 产生式或规则的集合 \(Z\) 开始符号(识别符号) \(V\) 词汇表,\(V=V_n\cup V_t\) 规则是一个有序对,通常写为 \(U\rightarrow x\),其中 \(U\in V_n,x\in V^{*}\) 类...

发布于 课程备忘

「技术」Pytorch 并行训练

介绍 常用术语 worker:常指 CPU node:节点,通常对应一台完整的机器 nnodes:节点数量 node_rank:节点序号 nproc_per_node:节点上的进程数量,通常一个进程对应一个 GPU,故也表示 GPU 的数量 master_addr:master 的 IP 地址,也就是 rank=0 的 IP 地址 RANK:进程的序号,通常一个进程对应一个 GPU,全局,...

发布于 技术实践

「技术」Transformer 结构分析

Input Embedding 将 token 转化为向量 Positional Encoding 网络结构不包含位置信息,编码引入 Scaled Dot-Product & Multi-Head Attention \[ Q=W^QX,K=W^KX,V=W^VX \] Scaled Dot-Product Attention \[ \text{Attention}(Q, K...

发布于 技术实践
13