《GPU Mode》 L069 2025 · IST-DASLab High priority transcript · failed

Quartet — Native 4-bit training that actually trains

FP16/BF16 학습은 oversize 인지 모르는 채로 우리가 사용 중인 대역폭. 진짜 question 은 — 학습 자체를 4-bit 로 끝까지 갈 수 있는가? Quartet (IST-DASLab) 의 답은 “예, 단 outlier 를 rotation 으로 흩고, forward/backward 의 정밀도를 분리하고, hardware 가속을 직접 짜면” 이다. arXiv 2505.14669 의 결과를 hardware-systems 시각으로 풀어낸다.

4-bit training MXFP4 / NVFP4 Hadamard rotation outlier suppression QuTLASS Blackwell forward/backward split stochastic rounding

Speaker

Roberto Castro · Andrei Panferov

IST-DASLab · Quartet / QuTLASS 저자

강의 번호

L069

스피커

Castro · Panferov

학습 우선순위

High · 정독

코드

Quartet · QuTLASS

하위 목차 · 12개 섹션↓ 클릭해서 이동

01강의가 풀려는 문제why 4-bit training 024-bit 학습의 어려움three failure modes 03outlier 처리 (rotation)Hadamard transform 04forward/backward 정밀도 분리heterogeneous precision 05학습 안정성stochastic rounding · stability 06hardware 가속QuTLASS · Blackwell 07실측 결과scaling laws 08다른 4-bit 방법과 비교FP4 · INT4 · NVFP4 09다음 단계2-bit · sub-bit? 10기억할 메모와 코드key takeaways 11다른 강의로 이어지는 길connections 12열린 질문open questions

§ 01강의가 풀려는 문제· Why 4-bit training

“추론은 4-bit, 학습은 BF16” — 이 비대칭이 정말 필연인가

2024-2025 의 LLM 추론은 INT4 / FP4 가 거의 표준이 됐다. GPTQ, AWQ, SmoothQuant 가 inference cost 를 4× 깎았다. 그런데 학습은 여전히 BF16 — 같은 모델을 같은 hardware 위에서 학습할 때만 4× 더 큰 메모리를 쓴다. 이 비대칭의 합리화가 어디에 있는가? Quartet 은 그 합리화의 핵심 — “학습은 4-bit 으로 안 됨” — 을 정면으로 깬다.

강의의 출발 질문 셋.

학습이 추론보다 본질적으로 더 정밀해야 하는가 — 부분적으로 yes (gradient의 dynamic range 가 큼). 그러나 핵심은 “어디까지” 정밀해야 하는가.
4-bit 학습이 현재 어디서 깨지는가 — outlier, gradient signal-to-noise, hardware support 셋. §02 에서 분리.
이 셋을 동시에 풀 수 있는가 — Quartet 의 답은 yes — 단 forward/backward 의 정밀도를 분리하고 rotation 으로 outlier 를 흩으면.

강의의 인지적 frame

Quartet 의 입장 — “4-bit 학습은 단일 trick 이 아니라 systemic redesign 이다”. (a) numerical (rotation), (b) algorithmic (heterogeneous precision), (c) systems (custom kernel). 셋 중 하나만 풀면 안 된다. 그래서 paper 와 코드가 같이 있고, 이 강의가 GPU Mode 에 등장하는 이유.

“학습을 4-bit 로 끝까지 가는 건 trick 의 합이 아니라 numerical · algorithmic · hardware 의 동시 재설계다.”강의 §1 재구성 · paper Abstract

§ 024-bit 학습의 어려움· Three failure modes

BF16 → INT4 사이에서 무엇이 정확히 깨지는가

학습 quantization 의 실패 모드 셋. 강의의 첫 본격 본론.

FIG · 4-bit 학습 실패 모드 분류3 차원 분리

모드현상원인치료난이도

outlier blow-uploss spikeactivation 분포의 long tailrotation중간

gradient SNR 하락학습 멈춤small gradient 양자화 noisestochastic rounding중간

scale instabilitydivergenceblock-scale 가 갑자기 큼/작음smooth scale tracking중간

precision asymmetryaccuracy 손실backward 의 dynamic range 가 큼FP4 fwd / FP8 bwd큼

hardware 부재실측 느림GPU 가 4-bit op 미지원custom kernel큼

중요한 사실 — 같은 “4-bit 학습 실패” 라도 원인이 다르고 치료가 다르다. paper 의 ablation 이 정확히 이 5개 모드 위에서 진행됨.

outlier 의 본질

LLM activation 분포는 대부분 작고 몇 개가 매우 크다 — log-scale 분포. INT4 의 16 bin 으로 mapping 하면 outlier 가 max 를 정의해서 작은 값들이 모두 0 으로 round. 정보 손실이 catastrophic.

FIG · activation 분포before rotation

맨 오른쪽의 단일 큰 값(빨강) 이 outlier. 이 하나가 전체 양자화 grid 를 결정.

“outlier 한 개가 1024 token 의 정보를 모두 0 으로 round 시킨다 — 작은 token 의 차이를 전부 잃는다.”학습 노트

§ 03outlier 처리 (rotation)· Hadamard transform

Hadamard 회전으로 outlier 를 흩는다 — magnitude 는 보존된 채로

Quartet 의 첫 핵심 — Hadamard rotation. activation 에 직교 (orthogonal) 행렬 H 를 곱하면 vector norm 이 보존되면서 분포가 평탄화된다. outlier 가 흩어진다. 그리고 H 의 inverse 를 weight 에 흡수하면 결과는 정확히 같다.

핵심 식.

y = x · W
  = (x · H) · (Hᵀ · W)
  = x_rot     · W_rot

여기서 H 는 Hadamard 행렬 — 모든 원소가 ±1, 직교. x_rot 의 각 차원은 원래 x 의 모든 차원의 mixing — outlier 가 다른 차원에 흩어짐.

norm 보존 — orthogonal 이므로 ‖x_rot‖ = ‖x‖. 정보 무손실.
분포 평탄화 — central limit 에 의해 mixing 결과는 더 Gaussian 에 가까워짐. outlier 의 영향이 분산.
online 가능 — H 가 ±1 만 쓰는 fast Hadamard transform 으로 O(n log n) 에 구현. forward 한 번에 추가.

FIG · rotation 전후 분포flat 으로

같은 vector 의 크기 분포 — rotation 후. outlier 가 사라지고 거의 Gaussian. INT4 16 bin 이 모든 값을 잘 분리.

SpinQuant / QuaRot 와의 관계

Hadamard rotation 자체는 새로운 idea 가 아니다. QuaRot (Ashkboos et al., 2024) 가 weight-only 양자화에서 처음 도입, SpinQuant (Liu et al., 2024) 가 학습된 rotation 으로 확장. Quartet 의 기여는 — 학습 자체에서 rotation 을 forward/backward 모두에 적용하면서 안정적으로 도는 형태로 정리한 것. 학습 중에 rotation matrix 를 어떻게 업데이트할지가 추가 question.

실전 트릭

Hadamard 의 사이즈는 보통 head_dim 단위 (보통 128) 로 적용. 모델 전체에 한 번에 큰 H 를 적용하지 않고, 각 layer/head 단위로 작은 H. 이렇게 해야 inverse 를 weight 에 흡수하기 쉬움. 확인 필요.

§ 04forward/backward 정밀도 분리· Heterogeneous precision

학습은 한 색이 아니다 — pass 마다 dynamic range 가 다르다

학습은 forward + backward + weight update 의 세 pass. 각자 dynamic range 가 다르다. 모두 같은 4-bit 으로 강제하면 가장 까다로운 pass 가 전체를 망친다. Quartet 의 두 번째 핵심 — pass 별로 다른 정밀도.

FIG · Quartet 의 학습 pass 정밀도 매트릭스fwd / bwd / opt

F forward — activation 위에서 matmul x_rot · W_rot → y. activation 도 weight 도 4-bit (MXFP4) FP4 memory + speed 둘 다 wins

B1 backward to activation — dy · W_rotᵀ → dx weight 는 4-bit, gradient 는 좀 더 큼 FP4 / FP8 중요한 직선

B2 backward to weight — x_rotᵀ · dy → dW activation 4-bit, gradient 8-bit. 결과 dW 가 weight 업데이트에 들어감 — 정밀도 ↑ FP8 정밀도 우선

O optimizer state — Adam 의 m, v 모멘트 정밀도가 가장 중요. 일반적으로 FP16/BF16 유지 또는 FP8 BF16 변경 안함

W master weight copy — high-precision BF16 master 가 따로. 4-bit 은 forward 용 cast BF16 QAT 의 표준

핵심 — “4-bit training” 이라고 하지만 실제로는 forward 와 첫 backward 만 4-bit. weight gradient 와 master weight 는 더 높은 정밀도를 유지. 이게 “native 4-bit training” 의 정확한 의미.

왜 두 backward 가 다른 정밀도

B1 (dx) 은 activation 의 gradient — chain 안의 중간 단계. 다음 layer 의 backward 에 들어가므로 중간 정밀도면 충분. B2 (dW) 는 optimizer 가 직접 받는 값 — 작은 noise 가 누적되면 학습 collapse. 더 높은 정밀도 필수.

이 분리가 Quartet 의 정수. paper 의 ablation — “forward 만 FP4, backward 도 FP4” vs “forward FP4, backward FP8” — 후자가 BF16 baseline 의 accuracy 를 거의 그대로 따라잡는다. 전자는 1-3 % 떨어짐 (확인 필요).

§ 05학습 안정성· Stochastic rounding · scale tracking

“같은 코드를 100 번 돌려도 같은 곡선” — 안정성을 만드는 트릭

4-bit 학습의 가장 위험한 사건은 loss spike → divergence. 한 step 에서 큰 spike 가 나면 회복 못한다. 안정성 트릭 셋이 강의의 §05 의 핵심.

stochastic rounding

round-to-nearest 가 아니라 거리에 비례한 확률로 양 끝 값 중 선택. 예 — 0.3 을 양자화하면 RTN 은 0, SR 은 70% 확률로 0, 30% 확률로 1. 기댓값이 정확. gradient 의 작은 평균 신호를 보존.

이게 backward 에서 결정적. RTN 으로 작은 gradient 가 0 으로 round 되면 학습이 멈춘다. SR 은 적어도 비편향.

block-scale tracking

MXFP4 는 32-element block 마다 scale 1 개. 이 scale 이 step 사이에 갑자기 변하면 양자화 distribution 이 흔들림. EMA 로 smooth tracking — 그러나 over-smooth 하면 outlier 가 다시 살아남.

Quartet 의 결정 — per-block scale 는 매 step 새로 계산하되, 전체 layer 의 max-scale 은 EMA. 두 시간 척도의 hybrid.

spike monitoring

학습 코드에 loss spike detector 를 박는다. window N step 의 평균 vs 현재 step. 임계 (보통 5σ) 를 넘으면 — 마지막 안전한 checkpoint 로 rollback + learning rate ×0.5. 이게 production scale 의 표준 패턴.

왜 이게 4-bit 학습에서 더 중요한가

BF16 학습은 spike 가 가끔. 4-bit 은 numerical noise 가 본질적으로 더 커서 spike 빈도 ↑. spike detection 자체가 학습 인프라의 일부로 들어와야 한다. 옵션이 아니라 default.

“stochastic rounding 이 없으면 작은 gradient 가 0 으로 round — 학습이 그 자리에서 멈춘다. 가장 trivial 한 트릭이 가장 결정적이다.”강의 §5 재구성

§ 06hardware 가속· QuTLASS · Blackwell

“알고리즘은 됐는데 GPU 가 4-bit 을 안 한다” — 그래서 직접 짠다

알고리즘이 정해져도 hardware 가 4-bit GEMM 을 native 로 지원해야 빠르다. H100 은 FP8 까지, Blackwell (B200) 부터 FP4 (NVFP4 / MXFP4) native 지원. Quartet 의 GPU systems 부분은 QuTLASS — CUTLASS 위에 layer 된 4-bit GEMM 라이브러리.

FIG · GPU 세대별 4-bit 지원FP8 → FP4

GPUFP8FP4scale type비고

A100 (sm_80)없음없음N/AINT8 까지

H100 (sm_90)native없음E5M2/E4M3FP4 는 SW emul

B200 (sm_100)nativenativeMXFP4/NVFP4block-scale

GB200 NVL72nativenative동일scale + rack

Quartet 의 ablation 의 “speedup” 은 B200 에서만 정확히 측정 가능. H100 위에서는 software emulation 이라 느림. 4-bit training 의 의미가 hardware 세대와 묶여있다.

QuTLASS — 4-bit GEMM 의 CUTLASS 확장

QuTLASS 는 Quartet 팀이 별도로 공개한 라이브러리. CUTLASS 의 GEMM 추상에 MXFP4/NVFP4 input + FP16/FP32 accumulator 를 직접 묶음. 핵심 contributions.

fused rotation — Hadamard rotation 이 GEMM 직전에 fused 됨. 별도 kernel launch 없음.
online quantization — block-scale 계산이 GEMM 의 epilogue/prologue 에 들어감. activation 이 FP4 로 출력.
stochastic rounding kernel — backward 의 SR 양자화가 GPU 위에서 직접.
numerics flexibility — 같은 GEMM 에서 forward FP4, backward FP8 의 dual 정밀도를 한 호출로.

왜 CUTLASS 위에

cuBLAS 는 closed-source. 4-bit 의 사용자 정의 epilogue (rotation, scale tracking) 가 cuBLAS 위에서는 표현 불가. CUTLASS 의 template GEMM 추상이 그 자리. L037 CUTLASS 가 본격 다룸.

§ 07실측 결과· Scaling laws

같은 token 수, 같은 step 수, 4-bit 이 BF16 의 곡선을 따라간다

paper 의 핵심 plot — 모델 사이즈 ×4, 학습 token 수 ×8 spectrum 위에서 BF16 baseline 과 Quartet 의 loss curve. 마지막 1-2% 의 gap 만 남음.

FIG · scaling laws — Quartet vs BF16paper Fig. 2 재구성

naive INT4 (rotation 없음) 은 학습이 빨리 발산. Quartet 은 BF16 의 1% 안쪽으로 따라감. 같은 hardware 위에서 메모리 4×, throughput 약 2-3× 개선 (확인 필요, B200 측정).

paper 의 주요 결과 (단순화).

Llama 7B class — perplexity gap < 1%, 1.5T token 학습 후.
scaling consistency — 모델 사이즈가 커져도 gap 이 더 늘어나지 않음. “4-bit 이 큰 모델에서 더 안 통한다” 의 가설을 깸.
throughput — B200 위에서 BF16 대비 ~2.5× 빠름 (확인 필요). FP8 대비 ~1.5×.
memory — 4× 절약. 같은 GPU 위에서 더 큰 batch.

scaling 의 의미

가장 큰 contribution 은 single point 가 아니라 “scaling law 가 평행” 이라는 사실. 즉, 같은 compute 예산으로 4-bit 학습이 BF16 학습과 거의 같은 frontier loss 에 도달하지만 4× 메모리 와 2-3× wall clock 으로.

§ 08다른 4-bit 방법과 비교· FP4 · INT4 · NVFP4 · QAT

같은 “4-bit 학습” 이라도 약속이 다르다

최근 1-2년 사이의 4-bit 학습 시도들. Quartet 과 어떻게 다른가.

FIG · 4-bit 학습 방법 비교같은 목표, 다른 trade-off

방법formatrotationfwd/bwdHW

FP4 fine-tune (LoRA)FP4없음FP4 / BF16post-train

INT4 QATINT4없음INT4 / FP32A100+

FP8 training (TE)FP8없음FP8 / FP8H100

QuartetMXFP4/NVFP4HadamardFP4 / FP8B200

SwitchBackINT8없음INT8 / BF16fp16 시대

DeepSeek FP8FP8 (E4M3)부분FP8 / FP8H800

Quartet 의 unique combination — 4-bit forward + Hadamard rotation + heterogeneous backward + Blackwell native. 기존 방법들은 이 4 요소 중 1-2 개만 충족.

가장 가까운 비교군은 NVIDIA TransformerEngine 의 FP8 학습. 둘 다 “native low-bit training” 의 예 — 차이는 정밀도 (FP8 vs FP4) 와 rotation 유무. TE 는 production-ready, Quartet 은 frontier research. 미래의 표준이 어디로 모일지는 §09.

§ 09다음 단계· 2-bit · sub-bit?

한계는 어디까지 — frontier 의 다음 질문

Quartet 이 4-bit 학습을 “가능” 으로 옮겼다면, 자연스러운 다음 질문은 — 2-bit 학습이 가능한가? 같은 framework 가 적용되는지, 아니면 새 trick 이 필요한지.

2-bit forward — 4-bit 보다 16배 적은 bin. outlier 가 한 번 더 심각해짐. rotation 만으로 부족할 수 있음.
1.58-bit (BitNet 1.58b) — Microsoft 의 ternary {-1, 0, 1} weight. inference 위주. training 적용은 active research.
sub-bit hybrid — 일부 layer 만 2-bit, 나머지는 4-bit. 양자화에 대한 sensitivity-aware mixed precision.
activation-only 4-bit — weight 는 BF16, activation 만 4-bit. memory bandwidth bound layer 에 효과.
Hadamard 의 일반화 — random orthogonal, learned orthogonal. SpinQuant 의 학습된 rotation 이 4-bit 학습에서도 더 좋을 수 있음.

하드웨어 종속

2-bit native 가 GPU 에 들어오기 전까지 (B200 의 다음 세대 또는 그 이후) 는 SW emulation. 그래서 2-bit training 은 알고리즘 검증 단계. 4-bit training 은 hardware support 가 있어 production path 가 보임.

“2-bit 학습은 알고리즘 question 이고, 4-bit 학습은 systems question 이다 — Quartet 은 후자를 풀었다.”학습 노트 · §9

§ 10기억할 메모와 코드· Key takeaways

다시 열었을 때 5분 안에 잡혀야 할 것

three failure modes

outlier · gradient SNR · scale instability. 각자 다른 치료.

Hadamard rotation

orthogonal mixing 으로 outlier 흩기. norm 보존, inverse 를 weight 에 흡수.

heterogeneous precision

forward FP4, dx FP4-FP8, dW FP8, optimizer BF16. 한 색 아님.

stochastic rounding

backward 에서 결정적. 작은 gradient 가 0 으로 round 되는 것 방지.

QuTLASS

CUTLASS 위 4-bit GEMM. fused rotation + online quantization.

Blackwell 의존

FP4 native 는 B200+ 만. H100 은 SW emulation, 의미적으로만.

scaling parallel

BF16 와 거의 평행한 loss curve. 4-bit 이 큰 모델에서 더 안 통한다는 가설 깸.

spike detector

학습 인프라의 일부. window σ 임계 + checkpoint rollback + LR ×0.5.

YouTube youtube.com/watch?v=XVo17Q7YapA

Paper arxiv.org/abs/2505.14669 · Quartet 4-bit training

Code IST-DASLab/Quartet · IST-DASLab/qutlass

관련 QuaRot, SpinQuant, GPTQ, AWQ — 모두 IST-DASLab / 동료 그룹 work

손에 새기기 — 실습 시퀀스

Hadamard rotation 직접 구현 — fast Walsh-Hadamard transform 을 PyTorch 로 짜고, 임의의 outlier 가 있는 vector 의 분포 변화 시각화.
SR vs RTN ablation — 작은 MLP 를 INT4 weight 로 양자화 학습. RTN 으로 수렴 안 됨, SR 은 수렴 — 직접 재현.
QuTLASS hello world — 4-bit GEMM 한 호출. 같은 사이즈의 BF16 cuBLAS 와 throughput 비교 (B200 가 있다면).
FP8 baseline — TransformerEngine 의 FP8 학습을 small Llama 위에서 돌려본다. Quartet 의 결과와 비교 위치 잡기.
spike detector — train loop 에 window 5σ 임계 spike 검출 + LR halving rollback. spike injection 으로 동작 검증.
scaling sweep — 같은 small model 을 BF16, FP8, naive INT4, Quartet-style 4-bit 으로 1k step 씩 학습. loss curve 직접 plot.

§ 11다른 강의로 이어지는 길· Connections

quantization / kernel / training 의 교차로

L007

Advanced quantization

GPTQ / AWQ — inference quantization 의 가족

L073

Quantization in LMs

SmoothQuant / SpinQuant — rotation 의 다른 활용

L034

Low-bit Triton kernels

QuTLASS 의 Triton 버전 사례

L037

CUTLASS

QuTLASS 의 base — template GEMM 추상

L001

profile CUDA kernels

QuTLASS 의 fused kernel 검증 도구

L018

Fusing kernels

rotation + GEMM + quantize 의 fusion 본격

§ 12열린 질문· Open questions

이 노트가 의도적으로 비워둔 자리들

정확한 throughput 수치 — “2-3× over BF16, 1.5× over FP8” 는 일반론에 가까운 추정. paper의 정확한 표 + B200 hardware 환경 명시 필요.
rotation matrix 의 학습된 형태 — fixed Hadamard vs learned orthogonal. paper §3 의 ablation 확인.
activation 의 EMA scale tracking 의 정확한 hyperparameter — momentum, warmup. 본문은 일반화된 표현.
QuTLASS 의 backward kernel — forward 와 backward 가 같은 라이브러리에서 어떻게 분리되는지. repo 코드 직접 read 권장.
다른 backbone (Mamba, Diffusion) 적용 — 강의가 transformer 위주. Mamba 의 SSM 등 다른 구조에서 같은 가능한지는 후속 질문.

검증 메모

본문의 정량 수치는 모두 paper Abstract / Figures 의 정성 패턴에서 재구성한 것. 정확한 ablation 표는 paper §4 Tables 에서 직접 확인 필요. 강의 transcript 가 복원되면 Castro / Panferov 가 인용한 정확한 표현으로 교체.

← Lecture 068 Landscape of GPU-centric communication Lecture 070 → PCCL Fault-tolerant collectives — mike64t