关于 — Too Fast

CHL

你好，我是曹宏墚，MS @Beihang1952。我的定位是 RL Native · LLM Serving/Infra · OPC & Private Deployment · Ultra-Cheap Inference · Coffee-fueled Builder。

我专注 RL 后训练优化，关心一条路径如何从训练信号、采样和奖励建模，走到可部署、可观测、可负担的推理系统。

Too Fast 现在主要记录 RL 后训练、LLM Serving/Infra、OPC 与私有化部署、低成本推理，以及我从论文和工程实践里拆出来的判断。

我长期关注的事情

反复出现的问题。

01 / RL

关注 GRPO、PPO、DPO、RFT、奖励建模、采样策略和稳定性问题。

02 / SERVE

推理吞吐、KV cache、batching、路由、观测、成本模型，以及生产环境里的 trade-off。

03 / DEPLOY

面向真实组织约束做模型部署，覆盖数据边界、GPU 利用率、成本预算和运维交付。