Quartet — Native 4-bit training that actually trains
FP16/BF16 학습은 oversize 인지 모르는 채로 우리가 사용 중인 대역폭. 진짜 question 은 — 학습 자체를 4-bit 로 끝까지 갈 수 있는가? Quartet (IST-DASLab) 의 답은 “예, 단 outlier 를 rotation 으로 흩고, forward/backward 의 정밀도를 분리하고, hardware 가속을 직접 짜면” 이다. arXiv 2505.14669 의 결과를 hardware-systems 시각으로 풀어낸다.
2024-2025 의 LLM 추론은 INT4 / FP4 가 거의 표준이 됐다. GPTQ, AWQ, SmoothQuant 가 inference cost 를 4× 깎았다. 그런데 학습은 여전히 BF16 — 같은 모델을 같은 hardware 위에서 학습할 때만 4× 더 큰 메모리를 쓴다. 이 비대칭의 합리화가 어디에 있는가? Quartet 은 그 합리화의 핵심 — “학습은 4-bit 으로 안 됨” — 을 정면으로 깬다.
강의의 출발 질문 셋.
학습이 추론보다 본질적으로 더 정밀해야 하는가 — 부분적으로 yes (gradient의 dynamic range 가 큼). 그러나 핵심은 “어디까지” 정밀해야 하는가.
4-bit 학습이 현재 어디서 깨지는가 — outlier, gradient signal-to-noise, hardware support 셋. §02 에서 분리.
이 셋을 동시에 풀 수 있는가 — Quartet 의 답은 yes — 단 forward/backward 의 정밀도를 분리하고 rotation 으로 outlier 를 흩으면.
강의의 인지적 frame
Quartet 의 입장 — “4-bit 학습은 단일 trick 이 아니라 systemic redesign 이다”. (a) numerical (rotation), (b) algorithmic (heterogeneous precision), (c) systems (custom kernel). 셋 중 하나만 풀면 안 된다. 그래서 paper 와 코드가 같이 있고, 이 강의가 GPU Mode 에 등장하는 이유.
“학습을 4-bit 로 끝까지 가는 건 trick 의 합이 아니라 numerical · algorithmic · hardware 의 동시 재설계다.”강의 §1 재구성 · paper Abstract
§ 024-bit 학습의 어려움· Three failure modes
BF16 → INT4 사이에서 무엇이 정확히 깨지는가
학습 quantization 의 실패 모드 셋. 강의의 첫 본격 본론.
FIG · 4-bit 학습 실패 모드 분류3 차원 분리
모드현상원인치료난이도
outlier blow-uploss spikeactivation 분포의 long tailrotation중간
scale instabilitydivergenceblock-scale 가 갑자기 큼/작음smooth scale tracking중간
precision asymmetryaccuracy 손실backward 의 dynamic range 가 큼FP4 fwd / FP8 bwd큼
hardware 부재실측 느림GPU 가 4-bit op 미지원custom kernel큼
중요한 사실 — 같은 “4-bit 학습 실패” 라도 원인이 다르고 치료가 다르다. paper 의 ablation 이 정확히 이 5개 모드 위에서 진행됨.
outlier 의 본질
LLM activation 분포는 대부분 작고 몇 개가 매우 크다 — log-scale 분포. INT4 의 16 bin 으로 mapping 하면 outlier 가 max 를 정의해서 작은 값들이 모두 0 으로 round. 정보 손실이 catastrophic.
FIG · activation 분포before rotation
맨 오른쪽의 단일 큰 값(빨강) 이 outlier. 이 하나가 전체 양자화 grid 를 결정.
“outlier 한 개가 1024 token 의 정보를 모두 0 으로 round 시킨다 — 작은 token 의 차이를 전부 잃는다.”학습 노트
§ 03outlier 처리 (rotation)· Hadamard transform
Hadamard 회전으로 outlier 를 흩는다 — magnitude 는 보존된 채로
Quartet 의 첫 핵심 — Hadamard rotation. activation 에 직교 (orthogonal) 행렬 H 를 곱하면 vector norm 이 보존되면서 분포가 평탄화된다. outlier 가 흩어진다. 그리고 H 의 inverse 를 weight 에 흡수하면 결과는 정확히 같다.
핵심 식.
y = x · W
= (x · H) · (Hᵀ · W)
= x_rot · W_rot
여기서 H 는 Hadamard 행렬 — 모든 원소가 ±1, 직교. x_rot 의 각 차원은 원래 x 의 모든 차원의 mixing — outlier 가 다른 차원에 흩어짐.
norm 보존 — orthogonal 이므로 ‖x_rot‖ = ‖x‖. 정보 무손실.
분포 평탄화 — central limit 에 의해 mixing 결과는 더 Gaussian 에 가까워짐. outlier 의 영향이 분산.
online 가능 — H 가 ±1 만 쓰는 fast Hadamard transform 으로 O(n log n) 에 구현. forward 한 번에 추가.
FIG · rotation 전후 분포flat 으로
같은 vector 의 크기 분포 — rotation 후. outlier 가 사라지고 거의 Gaussian. INT4 16 bin 이 모든 값을 잘 분리.
SpinQuant / QuaRot 와의 관계
Hadamard rotation 자체는 새로운 idea 가 아니다. QuaRot (Ashkboos et al., 2024) 가 weight-only 양자화에서 처음 도입, SpinQuant (Liu et al., 2024) 가 학습된 rotation 으로 확장. Quartet 의 기여는 — 학습 자체에서 rotation 을 forward/backward 모두에 적용하면서 안정적으로 도는 형태로 정리한 것. 학습 중에 rotation matrix 를 어떻게 업데이트할지가 추가 question.
실전 트릭
Hadamard 의 사이즈는 보통 head_dim 단위 (보통 128) 로 적용. 모델 전체에 한 번에 큰 H 를 적용하지 않고, 각 layer/head 단위로 작은 H. 이렇게 해야 inverse 를 weight 에 흡수하기 쉬움. 확인 필요.
학습은 forward + backward + weight update 의 세 pass. 각자 dynamic range 가 다르다. 모두 같은 4-bit 으로 강제하면 가장 까다로운 pass 가 전체를 망친다. Quartet 의 두 번째 핵심 — pass 별로 다른 정밀도.
FIG · Quartet 의 학습 pass 정밀도 매트릭스fwd / bwd / opt
Fforward — activation 위에서 matmul x_rot · W_rot → y. activation 도 weight 도 4-bit (MXFP4)FP4memory + speed 둘 다 wins
B1backward to activation — dy · W_rotᵀ → dx weight 는 4-bit, gradient 는 좀 더 큼FP4 / FP8중요한 직선
B2backward to weight — x_rotᵀ · dy → dW activation 4-bit, gradient 8-bit. 결과 dW 가 weight 업데이트에 들어감 — 정밀도 ↑FP8정밀도 우선
Ooptimizer state — Adam 의 m, v 모멘트 정밀도가 가장 중요. 일반적으로 FP16/BF16 유지 또는 FP8BF16변경 안함
Wmaster weight copy — high-precision BF16 master 가 따로. 4-bit 은 forward 용 castBF16QAT 의 표준
핵심 — “4-bit training” 이라고 하지만 실제로는 forward 와 첫 backward 만 4-bit. weight gradient 와 master weight 는 더 높은 정밀도를 유지. 이게 “native 4-bit training” 의 정확한 의미.
왜 두 backward 가 다른 정밀도
B1 (dx) 은 activation 의 gradient — chain 안의 중간 단계. 다음 layer 의 backward 에 들어가므로 중간 정밀도면 충분. B2 (dW) 는 optimizer 가 직접 받는 값 — 작은 noise 가 누적되면 학습 collapse. 더 높은 정밀도 필수.
이 분리가 Quartet 의 정수. paper 의 ablation — “forward 만 FP4, backward 도 FP4” vs “forward FP4, backward FP8” — 후자가 BF16 baseline 의 accuracy 를 거의 그대로 따라잡는다. 전자는 1-3 % 떨어짐 (확인 필요).
§ 05학습 안정성· Stochastic rounding · scale tracking
“같은 코드를 100 번 돌려도 같은 곡선” — 안정성을 만드는 트릭
4-bit 학습의 가장 위험한 사건은 loss spike → divergence. 한 step 에서 큰 spike 가 나면 회복 못한다. 안정성 트릭 셋이 강의의 §05 의 핵심.
stochastic rounding
round-to-nearest 가 아니라 거리에 비례한 확률로 양 끝 값 중 선택. 예 — 0.3 을 양자화하면 RTN 은 0, SR 은 70% 확률로 0, 30% 확률로 1. 기댓값이 정확. gradient 의 작은 평균 신호를 보존.
이게 backward 에서 결정적. RTN 으로 작은 gradient 가 0 으로 round 되면 학습이 멈춘다. SR 은 적어도 비편향.
block-scale tracking
MXFP4 는 32-element block 마다 scale 1 개. 이 scale 이 step 사이에 갑자기 변하면 양자화 distribution 이 흔들림. EMA 로 smooth tracking — 그러나 over-smooth 하면 outlier 가 다시 살아남.
Quartet 의 결정 — per-block scale 는 매 step 새로 계산하되, 전체 layer 의 max-scale 은 EMA. 두 시간 척도의 hybrid.
spike monitoring
학습 코드에 loss spike detector 를 박는다. window N step 의 평균 vs 현재 step. 임계 (보통 5σ) 를 넘으면 — 마지막 안전한 checkpoint 로 rollback + learning rate ×0.5. 이게 production scale 의 표준 패턴.
왜 이게 4-bit 학습에서 더 중요한가
BF16 학습은 spike 가 가끔. 4-bit 은 numerical noise 가 본질적으로 더 커서 spike 빈도 ↑. spike detection 자체가 학습 인프라의 일부로 들어와야 한다. 옵션이 아니라 default.
“stochastic rounding 이 없으면 작은 gradient 가 0 으로 round — 학습이 그 자리에서 멈춘다. 가장 trivial 한 트릭이 가장 결정적이다.”강의 §5 재구성
§ 06hardware 가속· QuTLASS · Blackwell
“알고리즘은 됐는데 GPU 가 4-bit 을 안 한다” — 그래서 직접 짠다
알고리즘이 정해져도 hardware 가 4-bit GEMM 을 native 로 지원해야 빠르다. H100 은 FP8 까지, Blackwell (B200) 부터 FP4 (NVFP4 / MXFP4) native 지원. Quartet 의 GPU systems 부분은 QuTLASS — CUTLASS 위에 layer 된 4-bit GEMM 라이브러리.
FIG · GPU 세대별 4-bit 지원FP8 → FP4
GPUFP8FP4scale type비고
A100 (sm_80)없음없음N/AINT8 까지
H100 (sm_90)native없음E5M2/E4M3FP4 는 SW emul
B200 (sm_100)nativenativeMXFP4/NVFP4block-scale
GB200 NVL72nativenative동일scale + rack
Quartet 의 ablation 의 “speedup” 은 B200 에서만 정확히 측정 가능. H100 위에서는 software emulation 이라 느림. 4-bit training 의 의미가 hardware 세대와 묶여있다.
QuTLASS — 4-bit GEMM 의 CUTLASS 확장
QuTLASS 는 Quartet 팀이 별도로 공개한 라이브러리. CUTLASS 의 GEMM 추상에 MXFP4/NVFP4 input + FP16/FP32 accumulator 를 직접 묶음. 핵심 contributions.
fused rotation — Hadamard rotation 이 GEMM 직전에 fused 됨. 별도 kernel launch 없음.
online quantization — block-scale 계산이 GEMM 의 epilogue/prologue 에 들어감. activation 이 FP4 로 출력.
stochastic rounding kernel — backward 의 SR 양자화가 GPU 위에서 직접.
numerics flexibility — 같은 GEMM 에서 forward FP4, backward FP8 의 dual 정밀도를 한 호출로.
왜 CUTLASS 위에
cuBLAS 는 closed-source. 4-bit 의 사용자 정의 epilogue (rotation, scale tracking) 가 cuBLAS 위에서는 표현 불가. CUTLASS 의 template GEMM 추상이 그 자리. L037 CUTLASS 가 본격 다룸.
§ 07실측 결과· Scaling laws
같은 token 수, 같은 step 수, 4-bit 이 BF16 의 곡선을 따라간다
paper 의 핵심 plot — 모델 사이즈 ×4, 학습 token 수 ×8 spectrum 위에서 BF16 baseline 과 Quartet 의 loss curve. 마지막 1-2% 의 gap 만 남음.
naive INT4 (rotation 없음) 은 학습이 빨리 발산. Quartet 은 BF16 의 1% 안쪽으로 따라감. 같은 hardware 위에서 메모리 4×, throughput 약 2-3× 개선 (확인 필요, B200 측정).
paper 의 주요 결과 (단순화).
Llama 7B class — perplexity gap < 1%, 1.5T token 학습 후.
scaling consistency — 모델 사이즈가 커져도 gap 이 더 늘어나지 않음. “4-bit 이 큰 모델에서 더 안 통한다” 의 가설을 깸.
throughput — B200 위에서 BF16 대비 ~2.5× 빠름 (확인 필요). FP8 대비 ~1.5×.
memory — 4× 절약. 같은 GPU 위에서 더 큰 batch.
scaling 의 의미
가장 큰 contribution 은 single point 가 아니라 “scaling law 가 평행” 이라는 사실. 즉, 같은 compute 예산으로 4-bit 학습이 BF16 학습과 거의 같은 frontier loss 에 도달하지만 4× 메모리 와 2-3× wall clock 으로.
§ 08다른 4-bit 방법과 비교· FP4 · INT4 · NVFP4 · QAT
같은 “4-bit 학습” 이라도 약속이 다르다
최근 1-2년 사이의 4-bit 학습 시도들. Quartet 과 어떻게 다른가.
FIG · 4-bit 학습 방법 비교같은 목표, 다른 trade-off
방법formatrotationfwd/bwdHW
FP4 fine-tune (LoRA)FP4없음FP4 / BF16post-train
INT4 QATINT4없음INT4 / FP32A100+
FP8 training (TE)FP8없음FP8 / FP8H100
QuartetMXFP4/NVFP4HadamardFP4 / FP8B200
SwitchBackINT8없음INT8 / BF16fp16 시대
DeepSeek FP8FP8 (E4M3)부분FP8 / FP8H800
Quartet 의 unique combination — 4-bit forward + Hadamard rotation + heterogeneous backward + Blackwell native. 기존 방법들은 이 4 요소 중 1-2 개만 충족.
가장 가까운 비교군은 NVIDIA TransformerEngine 의 FP8 학습. 둘 다 “native low-bit training” 의 예 — 차이는 정밀도 (FP8 vs FP4) 와 rotation 유무. TE 는 production-ready, Quartet 은 frontier research. 미래의 표준이 어디로 모일지는 §09.
§ 09다음 단계· 2-bit · sub-bit?
한계는 어디까지 — frontier 의 다음 질문
Quartet 이 4-bit 학습을 “가능” 으로 옮겼다면, 자연스러운 다음 질문은 — 2-bit 학습이 가능한가? 같은 framework 가 적용되는지, 아니면 새 trick 이 필요한지.
2-bit forward — 4-bit 보다 16배 적은 bin. outlier 가 한 번 더 심각해짐. rotation 만으로 부족할 수 있음.
1.58-bit (BitNet 1.58b) — Microsoft 의 ternary {-1, 0, 1} weight. inference 위주. training 적용은 active research.
sub-bit hybrid — 일부 layer 만 2-bit, 나머지는 4-bit. 양자화에 대한 sensitivity-aware mixed precision.
activation-only 4-bit — weight 는 BF16, activation 만 4-bit. memory bandwidth bound layer 에 효과.
Hadamard 의 일반화 — random orthogonal, learned orthogonal. SpinQuant 의 학습된 rotation 이 4-bit 학습에서도 더 좋을 수 있음.
하드웨어 종속
2-bit native 가 GPU 에 들어오기 전까지 (B200 의 다음 세대 또는 그 이후) 는 SW emulation. 그래서 2-bit training 은 알고리즘 검증 단계. 4-bit training 은 hardware support 가 있어 production path 가 보임.
“2-bit 학습은 알고리즘 question 이고, 4-bit 학습은 systems question 이다 — Quartet 은 후자를 풀었다.”학습 노트 · §9
§ 10기억할 메모와 코드· Key takeaways
다시 열었을 때 5분 안에 잡혀야 할 것
three failure modes
outlier · gradient SNR · scale instability. 각자 다른 치료.
Hadamard rotation
orthogonal mixing 으로 outlier 흩기. norm 보존, inverse 를 weight 에 흡수.
heterogeneous precision
forward FP4, dx FP4-FP8, dW FP8, optimizer BF16. 한 색 아님.
stochastic rounding
backward 에서 결정적. 작은 gradient 가 0 으로 round 되는 것 방지.
QuTLASS
CUTLASS 위 4-bit GEMM. fused rotation + online quantization.
Blackwell 의존
FP4 native 는 B200+ 만. H100 은 SW emulation, 의미적으로만.
scaling parallel
BF16 와 거의 평행한 loss curve. 4-bit 이 큰 모델에서 더 안 통한다는 가설 깸.
spike detector
학습 인프라의 일부. window σ 임계 + checkpoint rollback + LR ×0.5.
정확한 throughput 수치 — “2-3× over BF16, 1.5× over FP8” 는 일반론에 가까운 추정. paper의 정확한 표 + B200 hardware 환경 명시 필요.
rotation matrix 의 학습된 형태 — fixed Hadamard vs learned orthogonal. paper §3 의 ablation 확인.
activation 의 EMA scale tracking 의 정확한 hyperparameter — momentum, warmup. 본문은 일반화된 표현.
QuTLASS 의 backward kernel — forward 와 backward 가 같은 라이브러리에서 어떻게 분리되는지. repo 코드 직접 read 권장.
다른 backbone (Mamba, Diffusion) 적용 — 강의가 transformer 위주. Mamba 의 SSM 등 다른 구조에서 같은 가능한지는 후속 질문.
검증 메모
본문의 정량 수치는 모두 paper Abstract / Figures 의 정성 패턴에서 재구성한 것. 정확한 ablation 표는 paper §4 Tables 에서 직접 확인 필요. 강의 transcript 가 복원되면 Castro / Panferov 가 인용한 정확한 표현으로 교체.