Too Fast：快时代里的慢思考档案。

这里记录我对 RL 后训练、推理基础设施和私有化部署的长期拆解：读论文，做实验，复盘工程取舍，把快速变化里的问题沉淀成可回看的判断。

主题索引

我长期追踪的几个慢变量。

从 GRPO、PPO、DPO 到 RFT，关注训练信号、采样策略、奖励建模和稳定性。

推理引擎、batching、KV cache、路由、观测和吞吐成本。

把模型部署到真实约束里，处理数据边界、成本预算、GPU 利用率和运维路径。