CUDA / KERNEL / COMPILER 단권화 시리즈 · 18권 · A4 LANDSCAPE

18권 단권화

HW · ISA · Kernel 패턴 · 수치 · Compiler · 분산/서빙 · 방법론
총 페이지 약 320p
Tier T1~T6
기준 Ampere sm_80 · Hopper sm_90 · Blackwell
용도 보고 떠올릴 지도 (체화 후 인출 트리거)

목차 (Tier별)

T1 V01 — PMPP Core18p
T1 V02 — GPU Arch Quantitative20p
T1 V03 — PTX ISA (Ampere)18p
T1 V04 — PTX Hopper + SASS18p
T2 V05 — 병렬 Primitive 고급15p
T2 V06 — GEMM (CUTLASS·CuTe)22p
T2 V07 — Attention 계보20p
T2 V08 — 기타 LLM 커널16p
T3 V09 — Mixed Precision14p
T3 V10 — 양자화14p
T4 V11 — Triton Compiler 내부18p
T4 V12 — MLIR & LLVM for GPU18p
T4 V13 — TorchInductor18p
T4 V14 — XLA · TVM · Polyhedral18p
T5 V15 — 분산 통신 · 병렬화20p
T5 V16 — Inference Serving22p
T5 V17 — Training System18p
T6 V18 — Roofline · Profiling14p

범례

핵심 용어 (노랑)
매우 중요 · 표 헤더
정의 · 수식 박스
예시 박스
빨강주의 · 실수 지점
시리즈 핵심 권
(!)니모닉
타권 cross-ref
설계 원칙 밀도 ≥80% · 3열 · 수식/표/의사코드 우선 · 실측 감각 배제
18 volumes · ~320 pages · ctrl+P

1 Tier 체계 6-tier

Tier주제p/권
T1HW & ISA
실리콘→instruction
V01~V0415~20
T2Kernel 패턴
알고리즘→GPU
V05~V0815~22
T3수치
bit→양자화
V09~V1014~18
T4Compiler
source→PTX
V11~V1418~24
T5분산/서빙
multi-GPU→engine
V15~V1718~22
T6방법론
프로파일링
V1814~16

2 T1 — HW & ISA

V01PMPP Core18p
V02GPU Arch 정량20p
V03PTX Ampere18p
V04Hopper PTX + SASS18p

3 T2 — Kernel 패턴

V05병렬 Primitive15p
V06GEMM CUTLASS22p
V07Attention 계보20p
V08LLM 커널16p

4 T3 — 수치

V09Mixed Precision14p
V10Quantization14p

5 T4 — Compiler

V11Triton 내부18p
V12MLIR & LLVM18p
V13TorchInductor18p
V14XLA · TVM18p

6 T5 — 분산/서빙

V15분산 통신20p
V16Inference Serving22p
V17Training System18p

7 T6 — 방법론

V18Roofline · Profiling14p

8 의존성 지도 권 간 선행

        V01 (PMPP)
         │
    ┌────┼──────────────┐
    ▼    ▼              ▼
   V02  V05            V09
   (HW) (prim)       (numerics)
    │    │              │
    ▼    │              ▼
   V03   │             V10
   (PTX) │            (quant)
    │    │
    ▼    │
   V04   │
   (Hop) │
    │    │
    └──┬─┘
       ▼
      V06 → V07 → V08
      GEMM  attn   LLM
       │     │     │
       └──┬──┴─────┘
          ▼
    V11→V12→V13→V14
    Triton MLIR Ind XLA/TVM
          │
          └→ V15 (분산)
              │
              ├→ V16 (infer)
              └→ V17 (train)

V18 — 모든 권 뒤에

9 학습 경로

정규 경로 V01→V02→V05→V03→V04→V06→V07→V08→V09→V10→V11→V12→V13→V14→V15→V17→V16→V18
최단 경로 vLLM 컨트리뷰션 목표:
V01→V02→V03→V04→V06→V07→V15→V16→V18 9권 완성 후 나머지 확장

10 기존 두 권과의 관계

기존18권 내 매핑
pmpponebook.html
17p
V01이 확장 대체
cudalearning_단권화_v2.html
20p
V02/V03/V04/V06/V07/V11/V15/V18에 분산

기존 두 권은 "프론티어 스냅샷"으로 보존.

단권화 제외 원칙: Nsight UI 조작법, 벤더 기술 마케팅, 실측 벤치마크(whitepaper 제외), 튜닝 사례, 디버깅 수법, CI/CD 세팅, API reference, 저자 개인 의견 — 모두 out-of-scope.
∵ 단권화는 정지된 지도, 이 항목들은 움직이는 영토.