跳转至

大模型系统层

系统层关心“模型怎么训得动、跑得快、服务得稳”。

判断标准:如果一个概念主要解决算力、显存、通信、吞吐、延迟、稳定性、部署和服务问题,就放在这里。

子目录 关注点
01_训练系统 DDP、FSDP、ZeRO、Tensor Parallel、Pipeline Parallel、Checkpoint
02_推理系统 KV Cache、PagedAttention、Continuous Batching、量化、Speculative Decoding
03_服务系统 API、流式输出、限流、缓存、监控、日志、灰度发布
04_硬件与通信 GPU、HBM、NVLink、PCIe、RDMA、存储与网络瓶颈
05_框架与引擎 PyTorch、DeepSpeed、Megatron、vLLM、SGLang、TGI

一句话:系统层解决“模型能力如何被高效稳定地运行出来”。