《GPU Mode》 L052 2024 High priority transcript · failed

Scaling Laws for Low Precision

Tanishq Kumar 외 (Harvard / Stanford · 2024) 의 paper 를 따라가는 학습 노트. fp16 의 Chinchilla 식 scaling law 가 fp8/int8/int4 의 세계에서 어떻게 다시 쓰여야 하는가 — 정밀도가 (1) 학습 효율 과 (2) 모델이 견딜 수 있는 토큰 수 에 어떻게 영향을 주는지의 정량 분석. 본 페이지는 transcript 가 실패해 paper 와 공개된 토론으로 재구성됐다.

scaling laws fp8 int8 / int4 Chinchilla post-training quantization quantization-aware training tokens-to-parameters precision-loss curve

Speaker

Tanishq Kumar

Harvard · low-precision scaling laws · 2024 paper 의 first author

강의 번호

L052

스피커

Tanishq Kumar

Transcript

failed · 본 노트는 재구성

학습 우선순위

High · 정독

하위 목차 · 12개 섹션↓ 클릭해서 이동

01강의가 풀려는 문제why this lecture exists 02Chinchilla scaling law 복습tokens × params 03정밀도별 손실 곡선fp16/fp8/int8/int4 04정밀도가 토큰 효율에 끼치는 영향effective parameters 05model size vs token count새 trade-off 06hardware vs algorithm 한계왜 fp8 이 sweet spot 07실측 결과paper 의 실험 셋업 08차세대 hardware 가 풀어야 할 자리design hint 09한계와 비판점caveats 10기억할 메모와 자료key takeaways 11다른 강의로 이어지는 길connections 12열린 질문open questions

§ 01강의가 풀려는 문제· why this lecture exists

“낮은 정밀도로 학습하면 어디까지 손해 보는가” 를 정량화하는 시도

2022 년 Chinchilla scaling law 는 fp16 학습을 가정했다. 그런데 NVIDIA 가 H100 에서 fp8 을 밀고 있고, AMD/Google/MS 가 모두 정밀도 낮춘 학습으로 가는 추세 — 이 추세가 scaling law 를 어떻게 다시 쓰는가.

강의/paper 가 던지는 두 질문.

같은 compute 예산에서 fp16 학습 N 파라미터 모델과 fp8 학습 2N 파라미터 모델 중 어느 쪽이 더 좋은 loss 인가?
같은 모델에서 토큰 수를 늘릴 때 — 낮은 정밀도가 “효과적 파라미터 수” 를 어떻게 깎는가?

이 노트는 paper arxiv.org/abs/2411.04330 (“Scaling Laws for Precision”, Kumar et al. 2024) 와 GPU Mode 강의를 결합한 재구성이다. 강의 transcript 가 실패라 paper 의 결과를 중심으로 정리.

강의의 frame

“정밀도” 와 “모델 크기” 와 “토큰 수” 라는 세 변수가 — 이전엔 “모델 크기 vs 토큰” 의 두 변수 trade-off였는데 — 이제 세 변수의 trade-off 로 바뀐다. 이 paper 의 답은: “낮은 정밀도는 effective parameter count 를 깎는다”. 그래서 같은 compute 에 같은 loss 도달하려면 모델을 더 크게 만들거나 토큰을 더 줘야 한다.

“정밀도는 무료가 아니다 — 학습 시점에서 잡히는 정보의 양에 직접 영향을 준다.” 학습 노트 · paper 재구성

§ 02Chinchilla scaling law 복습· tokens × params

fp16 시대의 표준 — N ≈ 20 D 의 공식

Hoffmann et al. 2022 의 Chinchilla paper 는 compute-optimal scaling law 를 깐다. 같은 compute 예산 C 가 주어졌을 때, 모델 크기 N 과 토큰 수 D 의 최적 비율은 N ≈ 20 D — 즉 1B 파라미터 모델에는 ~20B 토큰. 이 비율이 fp16 학습 가정 하의 결론이다.

Chinchilla 의 식을 풀면 —

L(N, D) = E + A/N^α + B/D^β
E ≈ 1.69 (irreducible loss), α ≈ 0.34, β ≈ 0.28
compute C ≈ 6 N D 로 묶이면, 최적 N* / D* 는 균형점에서 결정

결과적으로 GPT-3 (175B params, 300B tokens) 같은 모델은 over-parameterized — 더 작은 모델에 더 많은 토큰이 더 좋다는 게 Chinchilla 의 메시지였다. 이후 Llama 시리즈가 이 통찰을 반영했다.

Chinchilla 의 가정

모든 실험이 fp16 (또는 bf16) 으로 학습됐다. 즉 “정밀도” 라는 변수가 고정. low precision 으로 가면 이 fitting 이 깨진다 — 이 강의의 출발점.

FIG · Chinchilla 의 power-law loss 곡선. 같은 compute 안에서 N 과 D 가 같은 비율로 같이 자라야 optimal — 이게 fp16 의 baseline.

§ 03정밀도별 손실 곡선· fp16/fp8/int8/int4

같은 N, 같은 D — 정밀도만 바꿨을 때의 loss 차이

Kumar et al. 의 가장 중요한 실험적 contribution — 다양한 정밀도로 같은 모델/같은 토큰을 학습시키고 loss 의 정량적 격차를 측정. 결과는 power-law 이고 — 정밀도가 낮아질수록 같은 N 에서 더 높은 loss.

FIG · 정밀도별 effective parameter 비율 (paper Fig 추정)같은 N, 같은 D 학습 후 loss 차이의 의미

fp16 / bf16

100%

fp8 (E4M3)

~88%

int8

~75%

int4

~42%

paper 의 정확한 숫자는 모델 크기와 토큰 수에 따라 달라진다. 위 막대는 “같은 N 에서 effective parameter 가 몇 % 인가” 의 도해적 표현 — 절대값은 paper 의 실측을 직접 참조할 것.

곡선의 모양 자체가 흥미로운 — 정밀도가 떨어질수록 loss 차이가 단순 선형이 아니라 가속도 가 붙는다. fp16 → fp8 은 작은 손해, fp8 → int8 도 작은 손해, 그러나 int8 → int4 에서 큰 손해. fp4 까지 가면 거의 못 쓸 수준.

이 “가속” 의 이유 — 학습이 작은 gradient 의 누적에 의존하는데, 정밀도가 너무 낮으면 작은 gradient 가 round-off 에 잡혀 사라진다. 그래서 effective gradient 가 noisier 해진다.

왜 fp8 이 sweet spot 인가

(1) hardware (Hopper) 가 fp16 의 2배 throughput 을 fp8 에 준다. (2) loss penalty 가 ~12% 수준 — 그 정도는 토큰 1.2배 더 주면 따라잡을 수 있다. (3) 토큰 1.2배는 hardware 2배의 throughput 으로 같은 시간 안에 가능. 결국 같은 wall-clock 학습으로 더 좋은 loss.

FIG · 정밀도별 loss 곡선의 도해. int4 에서 곡선의 각도가 약간 달라지는 점이 paper 의 핵심 발견 중 하나.

§ 04정밀도가 토큰 효율에 끼치는 영향· effective parameters

“같은 N 인데 더 많은 토큰을 안 받는다” 의 의미

paper 의 핵심 통찰 중 하나 — 낮은 정밀도로 학습한 모델은 토큰을 많이 줘도 loss 가 더 안 떨어지는 경향. 즉 “토큰을 더 받을 수 있는 capacity 가 줄어든다”. 이걸 effective parameter count 라는 양으로 추상화.

effective parameter

같은 N 의 모델을 fp8 로 학습시키면, fp16 로 학습시킨 N_eff < N 모델과 같은 loss 곡선을 그린다. paper 에 따르면 fp8 의 N_eff ≈ 0.88 N, int4 의 N_eff ≈ 0.42 N (대략적인 값, 정확한 fitting 은 paper 참조).

이게 왜 중요한가 — Chinchilla 의 N* / D* 비율이 정밀도에 따라 다시 계산되어야 한다. 같은 compute 에 fp8 로 학습하려면, fp16 baseline 보다 모델을 더 크게 만들거나 토큰을 더 줘야 같은 loss 도달.

FIG · 같은 compute 예산에서 정밀도별 optimal (N, D)schematic

PrecisionN* (params)D* (tokens)tput / fp16비고

fp16 1B 20B 1.0× Chinchilla baseline. compute = 6 × 10^19 FLOPs.

fp8 ~1.13B ~22.5B 2.0× hardware throughput 2배 → 같은 wall-clock 에 더 큰 모델 + 더 많은 토큰. effective N 깎임 보정.

int8 ~1.33B ~25B 2.0× fp8 와 비슷한 hardware tput, 더 큰 effective N 보정 필요.

int4 ~2.4B ~35B 4.0× tput 두 배 더 빠르지만 effective N 손해 커짐 — 보정이 큼. 실제 학습에선 안정성 문제 더 큼.

위 숫자들은 paper 의 fitting 식에서 추정한 schematic 값. 정확한 표는 paper Tab 1, Fig 5–7 참조.

“정밀도를 낮추는 건 hardware 가 더 빨리 돌게 하지만 — algorithm 쪽에서 그 만큼 effective capacity 가 줄어든다. 두 효과가 균형을 이루는 자리가 fp8 근처.” 학습 노트 · paper 재구성

§ 05model size vs token count· 새 trade-off

같은 compute 에 “더 큰 모델 fp8” vs “더 작은 모델 fp16” 의 결정

paper 가 풀어내는 핵심 의사결정 — 같은 compute 예산에서 (a) fp16 으로 N 짜리 모델을 학습 할까, 아니면 (b) fp8 으로 1.5N 짜리 모델을 학습 할까. 답은 “크기에 따라 다르다”.

paper 의 fitting 결과를 풀면 —

작은 모델 (≤ 1B) — fp16 가 약간 우세. effective N 깎이는 게 절대값에서 더 큼.
중간 모델 (1B ~ 10B) — fp8 이 거의 동등하거나 약간 우세. hardware throughput 2배 효과가 살아남.
큰 모델 (≥ 10B) — fp8 명확히 우세. 모델이 클수록 effective N 의 % 깎임이 절대값으로 작아져서 보정이 쉬움.

이 결론이 산업의 트렌드를 그대로 설명한다 — 작은 LLM 회사들은 bf16 로 학습하고, 큰 frontier lab (OpenAI, Anthropic, Google) 은 fp8 을 도입.

왜 큰 모델일수록 fp8 이 유리한가

(1) 큰 모델은 redundancy 가 높아서 정밀도 손실에 강함. (2) 큰 모델은 compute-bound — hardware throughput 가 wall-clock 을 직접 결정. (3) 작은 모델은 memory/communication 이 더 큰 비중 — fp8 의 이득이 작음.

paper 의 제안된 modified scaling law

paper 는 Chinchilla 의 식을 확장한다 — L(N, D, P) 에서 P 가 정밀도. 풀어쓰면: 같은 compute C 에서, optimal N*(P) 는 fp16 의 N* 보다 1/(precision_factor) 만큼 더 크게 잡아야 한다. 정확한 식은 paper §4.

§ 06hardware vs algorithm 한계· 왜 fp8 이 sweet spot

두 곡선이 만나는 자리 — 더 낮춰도 안 빨라지는 자리

정밀도를 무한히 낮춘다고 무한히 빨라지지 않는다. (1) hardware 가 그 정밀도를 native 로 지원하는지, (2) algorithm 이 그 정밀도를 견디는지 — 두 한계가 모두 작동.

PrecisionHW nativetput vs fp16Loss penalty실용성

fp32 All 0.5× 0% 기준점. 거의 안 쓰임.

bf16/fp16 Volta+ 1.0× ~0% 현재 표준. Chinchilla baseline.

fp8 Hopper+ 2.0× ~12% 새 표준의 후보. frontier lab 도입 중.

int8 All Tensor Core 2.0× ~25% 학습용으로는 약함. 추론 quantization 에 표준.

int4 Hopper, RTX 4.0× ~58% 학습 거의 불가. QAT/QLoRA 에서 보조용. PTQ 에선 7B+ 추론 표준.

fp4 / int4 학습 Blackwell+ 4.0× 큼 차세대 hardware 가 푸는 자리. 알고리즘 보정 필요.

paper 의 의미

이 분석은 “다음 세대 hardware 가 fp4/fp6 같은 더 낮은 정밀도를 native 로 지원할 때, algorithmic 보정이 따라가지 못하면 효과가 깎인다” 는 점을 말한다. 즉 hardware 디자인과 algorithm 디자인이 같이 가야 함.

“hardware 가 빨라지는 만큼 algorithm 이 따라가지 못하면 — fp4 의 4배 throughput 은 1.5배 effective speedup 으로 깎인다.” 학습 노트 · paper 재구성

§ 07실측 결과· paper 의 실험 셋업

어떤 모델, 어떤 토큰 양에서 측정했는가

paper 의 실험은 — 30M 부터 1.7B 까지의 transformer 모델을 fp16 / fp8 / int8 / int4 로 각각 학습시키고, 각 (N, D, P) 조합에서 loss 를 측정. fitting 으로 새 scaling law 도출.

모델 크기 범위

30M ~ 1.7B parameters. 더 큰 모델은 compute 가 부족해서 직접 측정 못 함 — extrapolation.

토큰 수

최대 26B 토큰. Chinchilla 의 N=20D 가정 하에 1B 모델까지는 compute-optimal 도달.

정밀도 모드

fp32 / bf16 / fp16 / fp8 (E4M3, E5M2) / int8 / int4. weight + activation + gradient 별도 정밀도 가능.

quantization 시점

학습 시 (QAT) vs 학습 후 (PTQ). 두 경우 모두 측정.

데이터셋

Dolma 같은 OSS dataset. validation loss 로 metric.

fitting 형태

L(N, D, P) = E + A/N^α + B/D^β + γ × precision_factor(P). γ 와 precision_factor 가 paper 의 새 contribution.

실험의 한계

(1) 1.7B 까지 → 100B+ 으로 extrapolation 의 신뢰도 제한. (2) decoder-only transformer 만 — encoder/Mamba 등은 다를 수 있음. (3) 영어 dataset — multilingual 효과 미측정. (4) post-training quantization 의 결과는 학습 시 fp16 가정.

§ 08차세대 hardware 가 풀어야 할 자리· design hint

NVIDIA Blackwell, AMD MI300, Google TPU v5 가 가야 할 방향

paper 의 결과는 hardware 디자이너에게도 직접 시사점을 준다 — “정밀도 자체를 낮추는 것” 보다 “정밀도 손실을 보정하는 도구” 가 더 큰 이득을 가져온다는 점.

per-tensor 또는 per-channel scaling — fp8 에서 dynamic range 를 layer 별로 다르게 잡으면 effective N 의 손실이 작아짐. Hopper 의 fp8 가 이미 지원.
stochastic rounding — round-off 에서 작은 gradient 가 0 으로 잘리는 문제를 stochastic 으로 보정. 학습에 유의미한 효과. Blackwell 에서 hardware 지원 가능성.
mixed precision training — sensitive layer (norm, head) 만 fp16, 대부분 layer 는 fp8. 두 정밀도의 조합으로 effective N 을 거의 fp16 까지 회복.
fp4 (Blackwell) — paper 의 결과를 그대로 적용하면 fp4 학습은 가능하지만 effective N 의 큰 손실. algorithm 쪽에서 보정 (better scaling, mixed precision) 필요.
1.58-bit / ternary — “BitNet” 같은 ternary weight 학습. paper 의 framework 안에서 effective N 의 큰 손실로 예측되지만, BitNet 의 결과는 적당히 좋음 — 이유는 별도 분석 필요.

디자인 원칙

“같은 throughput 을 더 낮은 정밀도로 두 배 빨리” 의 단순 logic 은 안 통한다. hardware 가 보정 도구 (scaling, stochastic rounding, mixed precision) 를 같이 제공해야 그 throughput 의 절반 이상이 실제 algorithm 성능으로 살아남는다.

“Blackwell 의 fp4 가 의미가 있으려면 — fp4 의 4배 throughput 이 algorithm 쪽에서 2배 effective speedup 으로 살아남아야 한다. 그 경계에 있는 결정.” 학습 노트 · paper 재구성

§ 09한계와 비판점· caveats

이 paper 의 결론을 그대로 받아들일 때 조심할 자리

paper 가 강력하지만 — extrapolation 의 한계, optimizer 의 정밀도 가정, architectural variance 같은 caveats 가 있다.

extrapolation 의 한계 — 실측은 1.7B 까지인데 결론은 100B+ 까지. fitting 식이 그 영역에서도 hold 한다는 보장 없음.
optimizer state 의 정밀도 — Adam optimizer 의 momentum/variance 는 보통 fp32 유지. weight 만 fp8 로 둬도 optimizer 까지 전부 fp8 인 시나리오와 결과가 다를 수 있음.
training stability — paper 는 평균 loss 를 측정. 그러나 실전에서 더 중요한 건 학습 안정성 — 특정 step 에서 loss 가 폭발하는 사고. fp8 에서 자주 보고됨.
architecture 의존 — decoder transformer 만 측정. Mamba 같은 SSM 이나 MoE 의 fp8 sensitivity 는 다를 가능성.
downstream task 누락 — validation loss 만 측정. 실제 downstream (MMLU, HumanEval 등) 의 격차는 더 클 수 있음.
data quality 가정 — clean web data 가정. noisy data 에서 fp8 의 sensitivity 가 다를 수 있음.
fp8 의 두 형식 — E4M3 와 E5M2. paper 가 어느 쪽을 썼는지에 따라 결과 다름. 일반적으로 E4M3 이 weight, E5M2 가 gradient.
실용 vs theoretical — 실전에서는 NaN handling, loss scaling, gradient clipping 같은 trick 이 중요. paper 는 best-case theoretical 결과.

paper 가 직접 인정하는 한계

paper §6 에서 — “결과는 ‘direction of effect’ 는 명확하지만, 절대값 fit 의 정확도는 더 큰 모델 실험에서 검증 필요”. 산업 lab 들이 이 paper 의 결론을 자기 셋업에서 직접 재현해야 함.

§ 10기억할 메모와 자료· key takeaways

다시 열었을 때 5분 안에 손에 잡혀야 할 것

새 scaling law

L(N, D, P) — 정밀도 P 가 effective N 을 깎는 항으로 들어감. fp8 effective ≈ 0.88 N, int4 ≈ 0.42 N.

fp8 의 sweet spot

hardware throughput 2배, loss penalty ~12%. 토큰 1.2배 더 주면 따라잡음. 큰 모델일수록 명확히 우세.

크기에 따른 차이

≤1B fp16 우세 / 1–10B 중립 / ≥10B fp8 우세. frontier lab 이 fp8 으로 가는 이유.

int4 의 한계

학습에는 너무 손해 큼 (~58% effective N 손실). 추론 PTQ 와 QLoRA 에서만 표준.

algorithmic 보정

per-tensor scaling, stochastic rounding, mixed precision — 이 셋이 fp8 효과를 살림.

Chinchilla 과의 관계

Chinchilla 의 N* / D* 는 fp16 가정. 정밀도가 다르면 N* / D* 도 다시 계산.

실험 범위의 한계

paper 실측은 1.7B 까지. 100B+ 결론은 extrapolation. 신중하게.

downstream loss

paper 는 validation loss 만 측정. 실제 downstream 격차는 더 클 가능성.

Paper arxiv.org/abs/2411.04330 · Kumar et al. 2024

Chinchilla paper arxiv.org/abs/2203.15556 · Hoffmann et al. 2022

FP8 formats spec arxiv.org/abs/2209.05433 · NVIDIA/Arm/Intel

BitNet arxiv.org/abs/2310.11453 · 1-bit transformer

Speaker Tanishq Kumar — first author

§ 11다른 강의로 이어지는 길· connections

같은 자리를 다른 각도에서 다루는 강의들

L038

FP8

fp8 의 hardware 디테일과 학습 셋업 — 본 강의의 H/W 측 보충.

L007

Quantization

post-training quantization 의 기초 — int8/int4 추론 표준.

L021

GPTQ / SmoothQuant

PTQ 알고리즘 — 본 강의의 “학습 후” 측면.

L041

Hopper architecture

H100 의 fp8 hardware 디테일.

L044

QLoRA

int4 fine-tuning — 본 강의의 “int4 학습 어렵다” 의 실용 우회.

L051

Consumer GPU performance

RTX 4090 의 fp8 비율이 H100 만큼 안 큰 이유.

§ 12열린 질문· open questions

원본 자막 실패로 비워둔 자리들

강의가 paper 를 그대로 따라갔는지 — 아니면 paper 이후의 추가 분석/실험을 다뤘는지. 강의 시점이 paper 직후인지 한참 후인지에 따라 다름. 원본 영상 확인 필요.
“optimal precision” 의 식 — paper §4 의 식을 강의에서 어떻게 풀어 설명했는지. 본 노트는 paper 의 식을 도해적 표로만 풀었음.
fp4 / Blackwell 언급 — 강의 시점에 따라 Blackwell 의 fp4 가 발표되었을 수 있음. paper 가 그 결정에 영향을 줬는지의 토론.
BitNet / ternary 의 위치 — paper 의 framework 안에서 BitNet 이 어떻게 설명되는지 강의에서 다뤘는지.
frontier lab 의 실제 정밀도 — OpenAI, Anthropic, Google 이 실제로 어떤 정밀도를 쓰는지의 industry 정보 — 강의에서 언급되었는지.
QAT vs PTQ 의 차이 — paper 가 두 시나리오를 모두 다뤘는지, 또는 학습-시 정밀도만 다뤘는지.
Mamba/SSM 의 정밀도 sensitivity — transformer 결과를 SSM 으로 일반화 가능한지의 토론.
구체적 “precision_factor” 식 — paper 의 새 항이 어떻게 fitting 되었는지 강의에서 어느 만큼 풀어졌는지.

검증 메모

본 노트의 effective N 비율 (88% / 75% / 42%), N* / D* 표는 paper 의 결론을 도해적으로 추정한 것. 정확한 fitting 값과 식은 paper 본문 Tab 1, Fig 5–7 직접 확인 권장. 그리고 paper 는 빠르게 발전 중인 분야 — 후속 논문이 결과를 갱신할 가능성이 큼.

← Lecture 051 Consumer GPU performance Lecture 053 → torch.compile Q&A — Richard Zou