关于
专注 RL 后训练优化,连接训练策略、Serving/Infra、私有化部署和低成本推理。
我长期关注的事情
反复出现的问题。
01 / RL
RL 后训练优化
关注 GRPO、PPO、DPO、RFT、奖励建模、采样策略和稳定性问题。
02 / SERVE
LLM Serving / Infra
推理吞吐、KV cache、batching、路由、观测、成本模型,以及生产环境里的 trade-off。
03 / DEPLOY
OPC 与私有化部署
面向真实组织约束做模型部署,覆盖数据边界、GPU 利用率、成本预算和运维交付。