这里记录我对 RL 后训练、推理基础设施和私有化部署的长期拆解:读论文,做实验,复盘工程取舍,把快速变化里的问题沉淀成可回看的判断。
从论文、系统瓶颈或部署约束开始,拆到可以复用的判断。
对程序员、大学生和产品经理来说,真正重要的不是“AI 会不会替代我”,而是它能不能逼我们更清楚地提出问题、看见盲点,并把模糊的想法整理成可行动的下一步。
我长期追踪的几个慢变量。
从 GRPO、PPO、DPO 到 RFT,关注训练信号、采样策略、奖励建模和稳定性。
推理引擎、batching、KV cache、路由、观测和吞吐成本。
把模型部署到真实约束里,处理数据边界、成本预算、GPU 利用率和运维路径。