CUDA / KERNEL / COMPILER 단권화 시리즈 · 18권 · A4 LANDSCAPE

18권 단권화

HW · ISA · Kernel 패턴 · 수치 · Compiler · 분산/서빙 · 방법론

총 페이지 약 320p

Tier T1~T6

기준 Ampere sm_80 · Hopper sm_90 · Blackwell

용도 보고 떠올릴 지도 (체화 후 인출 트리거)

목차 (Tier별)

T1 V01 — PMPP Core18p

T1 V02 — GPU Arch Quantitative20p

T1 V03 — PTX ISA (Ampere)18p

T1 V04 — PTX Hopper + SASS18p

T2 V05 — 병렬 Primitive 고급15p

T2 V06 — GEMM (CUTLASS·CuTe)22p

T2 V07 — Attention 계보20p

T2 V08 — 기타 LLM 커널16p

T3 V09 — Mixed Precision14p

T3 V10 — 양자화14p

T4 V11 — Triton Compiler 내부18p

T4 V12 — MLIR & LLVM for GPU18p

T4 V13 — TorchInductor18p

T4 V14 — XLA · TVM · Polyhedral18p

T5 V15 — 분산 통신 · 병렬화20p

T5 V16 — Inference Serving22p

T5 V17 — Training System18p

T6 V18 — Roofline · Profiling14p

범례

핵심 용어 (노랑)

매우 중요 · 표 헤더

정의 · 수식 박스

예시 박스

빨강주의 · 실수 지점

★시리즈 핵심 권

(!)니모닉

↗타권 cross-ref

설계 원칙 밀도 ≥80% · 3열 · 수식/표/의사코드 우선 · 실측 감각 배제

18 volumes · ~320 pages · ctrl+P

1 Tier 체계 6-tier

Tier	주제	권	p/권
T1	HW & ISA 실리콘→instruction	V01~V04	15~20
T2	Kernel 패턴 알고리즘→GPU	V05~V08	15~22
T3	수치 bit→양자화	V09~V10	14~18
T4	Compiler source→PTX	V11~V14	18~24
T5	분산/서빙 multi-GPU→engine	V15~V17	18~22
T6	방법론 프로파일링	V18	14~16

2 T1 — HW & ISA

V01PMPP Core18p

V02GPU Arch 정량20p

V03PTX Ampere18p

V04Hopper PTX + SASS18p

3 T2 — Kernel 패턴

V05병렬 Primitive15p

V06GEMM CUTLASS22p

V07Attention 계보20p

V08LLM 커널16p

4 T3 — 수치

V09Mixed Precision14p

V10Quantization14p

5 T4 — Compiler

V11Triton 내부18p

V12MLIR & LLVM18p

V13TorchInductor18p

V14XLA · TVM18p

6 T5 — 분산/서빙

V15분산 통신20p

V16Inference Serving22p

V17Training System18p

7 T6 — 방법론

V18Roofline · Profiling14p

8 의존성 지도 권 간 선행

        V01 (PMPP)
         │
    ┌────┼──────────────┐
    ▼    ▼              ▼
   V02  V05            V09
   (HW) (prim)       (numerics)
    │    │              │
    ▼    │              ▼
   V03   │             V10
   (PTX) │            (quant)
    │    │
    ▼    │
   V04   │
   (Hop) │
    │    │
    └──┬─┘
       ▼
      V06 → V07 → V08
      GEMM  attn   LLM
       │     │     │
       └──┬──┴─────┘
          ▼
    V11→V12→V13→V14
    Triton MLIR Ind XLA/TVM
          │
          └→ V15 (분산)
              │
              ├→ V16 (infer)
              └→ V17 (train)

V18 — 모든 권 뒤에

9 학습 경로

정규 경로 V01→V02→V05→V03→V04→V06→V07→V08→V09→V10→V11→V12→V13→V14→V15→V17→V16→V18

최단 경로 vLLM 컨트리뷰션 목표:
V01→V02→V03→V04→V06→V07→V15→V16→V18 9권 완성 후 나머지 확장

10 기존 두 권과의 관계

기존	18권 내 매핑
`pmpponebook.html` 17p	V01이 확장 대체
`cudalearning_단권화_v2.html` 20p	V02/V03/V04/V06/V07/V11/V15/V18에 분산

기존 두 권은 "프론티어 스냅샷"으로 보존.

단권화 제외 원칙: Nsight UI 조작법, 벤더 기술 마케팅, 실측 벤치마크(whitepaper 제외), 튜닝 사례, 디버깅 수법, CI/CD 세팅, API reference, 저자 개인 의견 — 모두 out-of-scope.
∵ 단권화는 정지된 지도, 이 항목들은 움직이는 영토.