CHL

你好,我是曹宏墚,MS @Beihang1952。我的定位是 RL Native · LLM Serving/Infra · OPC & Private Deployment · Ultra-Cheap Inference · Coffee-fueled Builder。

我专注 RL 后训练优化,关心一条路径如何从训练信号、采样和奖励建模,走到可部署、可观测、可负担的推理系统。

Too Fast 现在主要记录 RL 后训练、LLM Serving/Infra、OPC 与私有化部署、低成本推理,以及我从论文和工程实践里拆出来的判断。

我长期关注的事情

反复出现的问题。

01 / RL

RL 后训练优化

关注 GRPO、PPO、DPO、RFT、奖励建模、采样策略和稳定性问题。

02 / SERVE

LLM Serving / Infra

推理吞吐、KV cache、batching、路由、观测、成本模型,以及生产环境里的 trade-off。

03 / DEPLOY

OPC 与私有化部署

面向真实组织约束做模型部署,覆盖数据边界、GPU 利用率、成本预算和运维交付。