Tanishq Kumar 외 (Harvard / Stanford · 2024) 의 paper 를 따라가는 학습 노트. fp16 의 Chinchilla 식 scaling law 가 fp8/int8/int4 의 세계에서 어떻게 다시 쓰여야 하는가 — 정밀도가 (1) 학습 효율 과 (2) 모델이 견딜 수 있는 토큰 수 에 어떻게 영향을 주는지의 정량 분석. 본 페이지는 transcript 가 실패해 paper 와 공개된 토론으로 재구성됐다.
2022 년 Chinchilla scaling law 는 fp16 학습을 가정했다. 그런데 NVIDIA 가 H100 에서 fp8 을 밀고 있고, AMD/Google/MS 가 모두 정밀도 낮춘 학습으로 가는 추세 — 이 추세가 scaling law 를 어떻게 다시 쓰는가.
강의/paper 가 던지는 두 질문.
같은 compute 예산에서 fp16 학습 N 파라미터 모델과 fp8 학습 2N 파라미터 모델 중 어느 쪽이 더 좋은 loss 인가?
같은 모델에서 토큰 수를 늘릴 때 — 낮은 정밀도가 “효과적 파라미터 수” 를 어떻게 깎는가?
이 노트는 paper arxiv.org/abs/2411.04330 (“Scaling Laws for Precision”, Kumar et al. 2024) 와 GPU Mode 강의를 결합한 재구성이다. 강의 transcript 가 실패라 paper 의 결과를 중심으로 정리.
강의의 frame
“정밀도” 와 “모델 크기” 와 “토큰 수” 라는 세 변수가 — 이전엔 “모델 크기 vs 토큰” 의 두 변수 trade-off였는데 — 이제 세 변수의 trade-off 로 바뀐다. 이 paper 의 답은: “낮은 정밀도는 effective parameter count 를 깎는다”. 그래서 같은 compute 에 같은 loss 도달하려면 모델을 더 크게 만들거나 토큰을 더 줘야 한다.
“정밀도는 무료가 아니다 — 학습 시점에서 잡히는 정보의 양에 직접 영향을 준다.” 학습 노트 · paper 재구성
§ 02Chinchilla scaling law 복습· tokens × params
fp16 시대의 표준 — N ≈ 20 D 의 공식
Hoffmann et al. 2022 의 Chinchilla paper 는 compute-optimal scaling law 를 깐다. 같은 compute 예산 C 가 주어졌을 때, 모델 크기 N 과 토큰 수 D 의 최적 비율은 N ≈ 20 D — 즉 1B 파라미터 모델에는 ~20B 토큰. 이 비율이 fp16 학습 가정 하의 결론이다.
Chinchilla 의 식을 풀면 —
L(N, D) = E + A/N^α + B/D^β
E ≈ 1.69 (irreducible loss), α ≈ 0.34, β ≈ 0.28
compute C ≈ 6 N D 로 묶이면, 최적 N* / D* 는 균형점에서 결정
결과적으로 GPT-3 (175B params, 300B tokens) 같은 모델은 over-parameterized — 더 작은 모델에 더 많은 토큰이 더 좋다는 게 Chinchilla 의 메시지였다. 이후 Llama 시리즈가 이 통찰을 반영했다.
Chinchilla 의 가정
모든 실험이 fp16 (또는 bf16) 으로 학습됐다. 즉 “정밀도” 라는 변수가 고정. low precision 으로 가면 이 fitting 이 깨진다 — 이 강의의 출발점.
FIG · Chinchilla 의 power-law loss 곡선. 같은 compute 안에서 N 과 D 가 같은 비율로 같이 자라야 optimal — 이게 fp16 의 baseline.
§ 03정밀도별 손실 곡선· fp16/fp8/int8/int4
같은 N, 같은 D — 정밀도만 바꿨을 때의 loss 차이
Kumar et al. 의 가장 중요한 실험적 contribution — 다양한 정밀도로 같은 모델/같은 토큰을 학습시키고 loss 의 정량적 격차를 측정. 결과는 power-law 이고 — 정밀도가 낮아질수록 같은 N 에서 더 높은 loss.
FIG · 정밀도별 effective parameter 비율 (paper Fig 추정)같은 N, 같은 D 학습 후 loss 차이의 의미
fp16 / bf16
100%
fp8 (E4M3)
~88%
int8
~75%
int4
~42%
paper 의 정확한 숫자는 모델 크기와 토큰 수에 따라 달라진다. 위 막대는 “같은 N 에서 effective parameter 가 몇 % 인가” 의 도해적 표현 — 절대값은 paper 의 실측을 직접 참조할 것.
곡선의 모양 자체가 흥미로운 — 정밀도가 떨어질수록 loss 차이가 단순 선형이 아니라 가속도 가 붙는다. fp16 → fp8 은 작은 손해, fp8 → int8 도 작은 손해, 그러나 int8 → int4 에서 큰 손해. fp4 까지 가면 거의 못 쓸 수준.
이 “가속” 의 이유 — 학습이 작은 gradient 의 누적에 의존하는데, 정밀도가 너무 낮으면 작은 gradient 가 round-off 에 잡혀 사라진다. 그래서 effective gradient 가 noisier 해진다.
왜 fp8 이 sweet spot 인가
(1) hardware (Hopper) 가 fp16 의 2배 throughput 을 fp8 에 준다. (2) loss penalty 가 ~12% 수준 — 그 정도는 토큰 1.2배 더 주면 따라잡을 수 있다. (3) 토큰 1.2배는 hardware 2배의 throughput 으로 같은 시간 안에 가능. 결국 같은 wall-clock 학습으로 더 좋은 loss.
FIG · 정밀도별 loss 곡선의 도해. int4 에서 곡선의 각도가 약간 달라지는 점이 paper 의 핵심 발견 중 하나.
§ 04정밀도가 토큰 효율에 끼치는 영향· effective parameters
“같은 N 인데 더 많은 토큰을 안 받는다” 의 의미
paper 의 핵심 통찰 중 하나 — 낮은 정밀도로 학습한 모델은 토큰을 많이 줘도 loss 가 더 안 떨어지는 경향. 즉 “토큰을 더 받을 수 있는 capacity 가 줄어든다”. 이걸 effective parameter count 라는 양으로 추상화.
effective parameter
같은 N 의 모델을 fp8 로 학습시키면, fp16 로 학습시킨 N_eff < N 모델과 같은 loss 곡선을 그린다. paper 에 따르면 fp8 의 N_eff ≈ 0.88 N, int4 의 N_eff ≈ 0.42 N (대략적인 값, 정확한 fitting 은 paper 참조).
이게 왜 중요한가 — Chinchilla 의 N* / D* 비율이 정밀도에 따라 다시 계산되어야 한다. 같은 compute 에 fp8 로 학습하려면, fp16 baseline 보다 모델을 더 크게 만들거나 토큰을 더 줘야 같은 loss 도달.
FIG · 같은 compute 예산에서 정밀도별 optimal (N, D)schematic
fp8~1.13B~22.5B2.0×hardware throughput 2배 → 같은 wall-clock 에 더 큰 모델 + 더 많은 토큰. effective N 깎임 보정.
int8~1.33B~25B2.0×fp8 와 비슷한 hardware tput, 더 큰 effective N 보정 필요.
int4~2.4B~35B4.0×tput 두 배 더 빠르지만 effective N 손해 커짐 — 보정이 큼. 실제 학습에선 안정성 문제 더 큼.
위 숫자들은 paper 의 fitting 식에서 추정한 schematic 값. 정확한 표는 paper Tab 1, Fig 5–7 참조.
“정밀도를 낮추는 건 hardware 가 더 빨리 돌게 하지만 — algorithm 쪽에서 그 만큼 effective capacity 가 줄어든다. 두 효과가 균형을 이루는 자리가 fp8 근처.” 학습 노트 · paper 재구성
§ 05model size vs token count· 새 trade-off
같은 compute 에 “더 큰 모델 fp8” vs “더 작은 모델 fp16” 의 결정
paper 가 풀어내는 핵심 의사결정 — 같은 compute 예산에서 (a) fp16 으로 N 짜리 모델을 학습 할까, 아니면 (b) fp8 으로 1.5N 짜리 모델을 학습 할까. 답은 “크기에 따라 다르다”.
paper 의 fitting 결과를 풀면 —
작은 모델 (≤ 1B) — fp16 가 약간 우세. effective N 깎이는 게 절대값에서 더 큼.
중간 모델 (1B ~ 10B) — fp8 이 거의 동등하거나 약간 우세. hardware throughput 2배 효과가 살아남.
큰 모델 (≥ 10B) — fp8 명확히 우세. 모델이 클수록 effective N 의 % 깎임이 절대값으로 작아져서 보정이 쉬움.
이 결론이 산업의 트렌드를 그대로 설명한다 — 작은 LLM 회사들은 bf16 로 학습하고, 큰 frontier lab (OpenAI, Anthropic, Google) 은 fp8 을 도입.
왜 큰 모델일수록 fp8 이 유리한가
(1) 큰 모델은 redundancy 가 높아서 정밀도 손실에 강함. (2) 큰 모델은 compute-bound — hardware throughput 가 wall-clock 을 직접 결정. (3) 작은 모델은 memory/communication 이 더 큰 비중 — fp8 의 이득이 작음.
paper 의 제안된 modified scaling law
paper 는 Chinchilla 의 식을 확장한다 — L(N, D, P) 에서 P 가 정밀도. 풀어쓰면: 같은 compute C 에서, optimal N*(P) 는 fp16 의 N* 보다 1/(precision_factor) 만큼 더 크게 잡아야 한다. 정확한 식은 paper §4.
§ 06hardware vs algorithm 한계· 왜 fp8 이 sweet spot
두 곡선이 만나는 자리 — 더 낮춰도 안 빨라지는 자리
정밀도를 무한히 낮춘다고 무한히 빨라지지 않는다. (1) hardware 가 그 정밀도를 native 로 지원하는지, (2) algorithm 이 그 정밀도를 견디는지 — 두 한계가 모두 작동.
PrecisionHW nativetput vs fp16Loss penalty실용성
fp32All0.5×0%기준점. 거의 안 쓰임.
bf16/fp16Volta+1.0×~0%현재 표준. Chinchilla baseline.
fp8Hopper+2.0×~12%새 표준의 후보. frontier lab 도입 중.
int8All Tensor Core2.0×~25%학습용으로는 약함. 추론 quantization 에 표준.
int4Hopper, RTX4.0×~58%학습 거의 불가. QAT/QLoRA 에서 보조용. PTQ 에선 7B+ 추론 표준.
fp4 / int4 학습Blackwell+4.0×큼차세대 hardware 가 푸는 자리. 알고리즘 보정 필요.
paper 의 의미
이 분석은 “다음 세대 hardware 가 fp4/fp6 같은 더 낮은 정밀도를 native 로 지원할 때, algorithmic 보정이 따라가지 못하면 효과가 깎인다” 는 점을 말한다. 즉 hardware 디자인과 algorithm 디자인이 같이 가야 함.
“hardware 가 빨라지는 만큼 algorithm 이 따라가지 못하면 — fp4 의 4배 throughput 은 1.5배 effective speedup 으로 깎인다.” 학습 노트 · paper 재구성
§ 07실측 결과· paper 의 실험 셋업
어떤 모델, 어떤 토큰 양에서 측정했는가
paper 의 실험은 — 30M 부터 1.7B 까지의 transformer 모델을 fp16 / fp8 / int8 / int4 로 각각 학습시키고, 각 (N, D, P) 조합에서 loss 를 측정. fitting 으로 새 scaling law 도출.
모델 크기 범위
30M ~ 1.7B parameters. 더 큰 모델은 compute 가 부족해서 직접 측정 못 함 — extrapolation.
토큰 수
최대 26B 토큰. Chinchilla 의 N=20D 가정 하에 1B 모델까지는 compute-optimal 도달.
L(N, D, P) = E + A/N^α + B/D^β + γ × precision_factor(P). γ 와 precision_factor 가 paper 의 새 contribution.
실험의 한계
(1) 1.7B 까지 → 100B+ 으로 extrapolation 의 신뢰도 제한. (2) decoder-only transformer 만 — encoder/Mamba 등은 다를 수 있음. (3) 영어 dataset — multilingual 효과 미측정. (4) post-training quantization 의 결과는 학습 시 fp16 가정.
§ 08차세대 hardware 가 풀어야 할 자리· design hint
NVIDIA Blackwell, AMD MI300, Google TPU v5 가 가야 할 방향
paper 의 결과는 hardware 디자이너에게도 직접 시사점을 준다 — “정밀도 자체를 낮추는 것” 보다 “정밀도 손실을 보정하는 도구” 가 더 큰 이득을 가져온다는 점.
per-tensor 또는 per-channel scaling — fp8 에서 dynamic range 를 layer 별로 다르게 잡으면 effective N 의 손실이 작아짐. Hopper 의 fp8 가 이미 지원.
stochastic rounding — round-off 에서 작은 gradient 가 0 으로 잘리는 문제를 stochastic 으로 보정. 학습에 유의미한 효과. Blackwell 에서 hardware 지원 가능성.
mixed precision training — sensitive layer (norm, head) 만 fp16, 대부분 layer 는 fp8. 두 정밀도의 조합으로 effective N 을 거의 fp16 까지 회복.
fp4 (Blackwell) — paper 의 결과를 그대로 적용하면 fp4 학습은 가능하지만 effective N 의 큰 손실. algorithm 쪽에서 보정 (better scaling, mixed precision) 필요.
1.58-bit / ternary — “BitNet” 같은 ternary weight 학습. paper 의 framework 안에서 effective N 의 큰 손실로 예측되지만, BitNet 의 결과는 적당히 좋음 — 이유는 별도 분석 필요.
디자인 원칙
“같은 throughput 을 더 낮은 정밀도로 두 배 빨리” 의 단순 logic 은 안 통한다. hardware 가 보정 도구 (scaling, stochastic rounding, mixed precision) 를 같이 제공해야 그 throughput 의 절반 이상이 실제 algorithm 성능으로 살아남는다.
“Blackwell 의 fp4 가 의미가 있으려면 — fp4 의 4배 throughput 이 algorithm 쪽에서 2배 effective speedup 으로 살아남아야 한다. 그 경계에 있는 결정.” 학습 노트 · paper 재구성
§ 09한계와 비판점· caveats
이 paper 의 결론을 그대로 받아들일 때 조심할 자리
paper 가 강력하지만 — extrapolation 의 한계, optimizer 의 정밀도 가정, architectural variance 같은 caveats 가 있다.
extrapolation 의 한계 — 실측은 1.7B 까지인데 결론은 100B+ 까지. fitting 식이 그 영역에서도 hold 한다는 보장 없음.
optimizer state 의 정밀도 — Adam optimizer 의 momentum/variance 는 보통 fp32 유지. weight 만 fp8 로 둬도 optimizer 까지 전부 fp8 인 시나리오와 결과가 다를 수 있음.
training stability — paper 는 평균 loss 를 측정. 그러나 실전에서 더 중요한 건 학습 안정성 — 특정 step 에서 loss 가 폭발하는 사고. fp8 에서 자주 보고됨.
architecture 의존 — decoder transformer 만 측정. Mamba 같은 SSM 이나 MoE 의 fp8 sensitivity 는 다를 가능성.
downstream task 누락 — validation loss 만 측정. 실제 downstream (MMLU, HumanEval 등) 의 격차는 더 클 수 있음.
data quality 가정 — clean web data 가정. noisy data 에서 fp8 의 sensitivity 가 다를 수 있음.
fp8 의 두 형식 — E4M3 와 E5M2. paper 가 어느 쪽을 썼는지에 따라 결과 다름. 일반적으로 E4M3 이 weight, E5M2 가 gradient.
실용 vs theoretical — 실전에서는 NaN handling, loss scaling, gradient clipping 같은 trick 이 중요. paper 는 best-case theoretical 결과.
paper 가 직접 인정하는 한계
paper §6 에서 — “결과는 ‘direction of effect’ 는 명확하지만, 절대값 fit 의 정확도는 더 큰 모델 실험에서 검증 필요”. 산업 lab 들이 이 paper 의 결론을 자기 셋업에서 직접 재현해야 함.
§ 10기억할 메모와 자료· key takeaways
다시 열었을 때 5분 안에 손에 잡혀야 할 것
새 scaling law
L(N, D, P) — 정밀도 P 가 effective N 을 깎는 항으로 들어감. fp8 effective ≈ 0.88 N, int4 ≈ 0.42 N.
fp8 의 sweet spot
hardware throughput 2배, loss penalty ~12%. 토큰 1.2배 더 주면 따라잡음. 큰 모델일수록 명확히 우세.
크기에 따른 차이
≤1B fp16 우세 / 1–10B 중립 / ≥10B fp8 우세. frontier lab 이 fp8 으로 가는 이유.
int4 의 한계
학습에는 너무 손해 큼 (~58% effective N 손실). 추론 PTQ 와 QLoRA 에서만 표준.
algorithmic 보정
per-tensor scaling, stochastic rounding, mixed precision — 이 셋이 fp8 효과를 살림.
Chinchilla 과의 관계
Chinchilla 의 N* / D* 는 fp16 가정. 정밀도가 다르면 N* / D* 도 다시 계산.
실험 범위의 한계
paper 실측은 1.7B 까지. 100B+ 결론은 extrapolation. 신중하게.
downstream loss
paper 는 validation loss 만 측정. 실제 downstream 격차는 더 클 가능성.
강의가 paper 를 그대로 따라갔는지 — 아니면 paper 이후의 추가 분석/실험을 다뤘는지. 강의 시점이 paper 직후인지 한참 후인지에 따라 다름. 원본 영상 확인 필요.
“optimal precision” 의 식 — paper §4 의 식을 강의에서 어떻게 풀어 설명했는지. 본 노트는 paper 의 식을 도해적 표로만 풀었음.
fp4 / Blackwell 언급 — 강의 시점에 따라 Blackwell 의 fp4 가 발표되었을 수 있음. paper 가 그 결정에 영향을 줬는지의 토론.
BitNet / ternary 의 위치 — paper 의 framework 안에서 BitNet 이 어떻게 설명되는지 강의에서 다뤘는지.
frontier lab 의 실제 정밀도 — OpenAI, Anthropic, Google 이 실제로 어떤 정밀도를 쓰는지의 industry 정보 — 강의에서 언급되었는지.
QAT vs PTQ 의 차이 — paper 가 두 시나리오를 모두 다뤘는지, 또는 학습-시 정밀도만 다뤘는지.
Mamba/SSM 의 정밀도 sensitivity — transformer 결과를 SSM 으로 일반화 가능한지의 토론.
구체적 “precision_factor” 식 — paper 의 새 항이 어떻게 fitting 되었는지 강의에서 어느 만큼 풀어졌는지.
검증 메모
본 노트의 effective N 비율 (88% / 75% / 42%), N* / D* 표는 paper 의 결론을 도해적으로 추정한 것. 정확한 fitting 값과 식은 paper 본문 Tab 1, Fig 5–7 직접 확인 권장. 그리고 paper 는 빠르게 발전 중인 분야 — 후속 논문이 결과를 갱신할 가능성이 큼.