《GPU Mode》 L051 2024 High priority transcript · failed

Consumer GPU performance — RTX 4090 의 진짜 한계

$1,500 짜리 게이밍 GPU 가 $40,000 짜리 H100 의 어느 부분을 따라잡고 어느 부분에서 명확히 갈라지는가. tensor core 연산력은 거의 같지만, 메모리 대역폭과 NVLink 와 fp8/fp16 의 비율에서 의도적으로 잘려 있다 — 그 잘림이 ML 워크로드에 어떻게 다르게 보이는지의 학습 노트. 원본 transcript 가 실패해 본 페이지는 공개 spec 시트와 알려진 벤치마크로 재구성됐다.

RTX 4090 A100 / H100 memory bandwidth NVLink fp8 / fp16 tensor core price/perf market segmentation

Speaker

Jake Cannell

researcher · 게이밍 GPU 의 ML 활용 분석

강의 번호

L051

스피커

Jake Cannell

Transcript

failed · 본 노트는 재구성

학습 우선순위

High · GPU 구매 결정에 직접

하위 목차 · 12개 섹션↓ 클릭해서 이동

01강의가 풀려는 문제why this lecture exists 02RTX 4090 vs A100/H100spec 한 장 비교 03메모리 대역폭의 한계HBM3 vs GDDR6X 04NVLink 부재의 영향multi-GPU scaling 의 끝 05tensor core 비교의도적으로 잘린 fp8/fp16 06ML 벤치마크 사례학습 vs 추론 07시장 분리의 논리왜 NVIDIA 가 막는가 08가격 대비 가치$/TFLOP, $/GB·s 09multi-GPU 워크어라운드PCIe, ZeRO, sharding 10기억할 메모와 자료key takeaways 11다른 강의로 이어지는 길connections 12열린 질문open questions

§ 01강의가 풀려는 문제· why this lecture exists

“집에서 LLM 학습/추론 하려는 사람” 의 가장 현실적 의사결정

RTX 4090 두 장 사면 H100 한 장보다 compute 만 따지면 비슷한데, 실제로 같은 워크로드를 돌렸을 때 결과가 같지 않다. 어디가 갈라지는가의 질문이 강의 전체를 끌고 간다.

강의의 두 가지 출발 질문.

RTX 4090 의 어느 spec 이 H100 에 가깝고, 어느 spec 이 의도적으로 잘려 있는가?
그 잘림이 실제 ML 워크로드 — 학습, 추론, fine-tuning — 에 어떻게 다르게 나타나는가?

이 노트는 원본 transcript 가 실패한 강의를 NVIDIA 공식 datasheet, lambda labs / TinyCorp / Tim Dettmers 의 공개 벤치마크, 그리고 일반적으로 알려진 spec 으로 재구성했다. 강의 안에서 직접 확인되지 않은 주장은 “원본 영상 확인 필요” 표시로 둔다.

강의의 frame

"4090 이 H100 의 N% 다" 같은 단일 숫자가 의미가 없다. 워크로드의 병목이 어디냐 에 따라 4090 의 상대 성능은 30%~95% 사이를 왔다갔다 한다 — compute-bound 면 비슷하고, memory-bound 면 절반, multi-GPU collective 가 들어가면 1/10.

“NVIDIA 가 ‘AI 칩’ 과 ‘게이밍 칩’ 을 분리하는 자리가 정확히 LLM 학습이 의존하는 자리다 — 메모리, 인터커넥트, fp8 비율.” 학습 노트 · 재구성

§ 02RTX 4090 vs A100/H100· spec 한 장 비교

같은 세대의 GPU 들이 한 줄에 놓일 때 보이는 그림

먼저 spec 시트의 숫자만 한 장에 모아본다. 같은 단위로 정렬하면 어디가 “비슷” 하고 어디가 “차원이 다른지” 한눈에 보인다.

FIG · GPU spec 한 장 비교NVIDIA datasheet 기준

GPUfp16 TFLOPsHBM/VRAM대역폭 · 인터커넥트 · 가격

RTX 4090 ~165 24 GB 1.0 TB/s · PCIe Gen4 (NVLink ❌) · $1,500–2,000

A100 80GB ~312 80 GB 2.0 TB/s · NVLink 600 GB/s · $10,000–15,000

H100 SXM ~990 80 GB 3.35 TB/s · NVLink 900 GB/s · $30,000–40,000

H200 SXM ~990 141 GB 4.8 TB/s · NVLink 900 GB/s · $40,000+

fp16 의 raw TFLOPs 기준 4090 vs H100 = 1 : 6. 그런데 가격은 1 : 25. 이 비율이 “4090 이 더 가성비” 의 단순 결론을 만든다 — 다음 섹션에서 부서진다.

4090 의 강점은 분명하다 — fp16 의 raw TFLOPs 와 가격을 묶어 보면 $/TFLOP 이 H100 의 1/4 수준. 이 단순 비교만 보면 누구나 게이밍 카드를 사고 싶어진다. 하지만 ML 워크로드의 실제 병목은 raw TFLOPs 가 아니다.

결정적 차이 셋

(1) VRAM 24 GB vs 80 GB — 70B 모델이 안 들어간다. (2) 대역폭 1.0 vs 3.35 TB/s — memory-bound 워크로드에서 3배 차이. (3) NVLink 부재 — 두 장 묶어도 PCIe Gen4 의 64 GB/s 만으로 통신. multi-GPU collective 가 immediate 병목.

§ 03메모리 대역폭의 한계· HBM3 vs GDDR6X

LLM 추론은 거의 모두 memory-bound 다 — 그래서 4090 이 1/3

대형 LLM 추론(특히 generate 단계)은 model weights 를 매 token 마다 한 번 읽는다. 13B fp16 모델 = 26 GB. 4090 은 1 TB/s 니까 token 당 하한 ~26 ms. H100 은 3.35 TB/s 니까 ~7.8 ms. 같은 모델, 같은 코드, 3배 차이.

FIG · 메모리 대역폭 비교 (TB/s)NVIDIA datasheet

RTX 4090

GDDR6X · 1.0

1.0 TB/s

A100 80GB

HBM2e · 2.0

2.0 TB/s

H100 SXM

HBM3 · 3.35

3.35 TB/s

H200 SXM

HBM3e · 4.8

4.8 TB/s

메모리 대역폭은 LLM 추론의 거의 직접적 throughput cap. compute 는 token 당 큰 영향이 없다 — KV cache attention 은 memory 패턴이 dominant.

왜 이 차이가 결정적인지를 풀면 —

generate 단계는 한 번에 한 token 씩 — 거의 모든 weight 를 읽고 작은 양을 곱한다. arithmetic intensity 가 매우 낮다.
arithmetic intensity = FLOPs / bytes. 모델 weight 한 번 읽고 batch=1 forward 하면 거의 1 (FLOPs ≈ bytes). compute-to-bandwidth 가 100:1 인 GPU 에서 99% 의 시간이 메모리 대기.
그래서 generate latency 의 lower bound 는 weight_size / mem_bw. 13B fp16 = 26 GB / 1 TB/s ≈ 26 ms 가 4090 의 절대 하한.

batch 키우면?

batch=1 은 memory-bound, batch ≫ 1 은 compute-bound 로 넘어간다. 같은 weight 한 번 읽고 여러 query 처리. batch ~32 부터는 4090 의 fp16 TFLOPs 가 살아난다. 단, KV cache 크기 때문에 24GB VRAM 안에 batch 가 안 들어가는 경우 많음.

“4090 이 H100 보다 떨어지는 이유의 절반 이상은 raw compute 가 아니라 메모리 대역폭이다.” 학습 노트 · 재구성

덧붙여 — H100 은 HBM3, 4090 은 GDDR6X. GDDR6X 는 게이밍 frame buffer 용으로 디자인된 기술이고, HBM3 는 데이터센터 GPU 용. 같은 “메모리 칩” 처럼 보이지만 물리적 구조 자체가 다르다 — HBM 은 다이를 stack 해서 광폭 버스(보통 5120-bit), GDDR 은 보드 위에 분산 배치(384-bit). 같은 클럭이라도 폭이 달라서 대역폭이 다르다.

§ 04NVLink 부재의 영향· multi-GPU scaling 의 끝

두 장 묶을 때 4090 의 가성비가 무너지는 자리

RTX 4090 에는 NVLink 가 없다. RTX 3090 까지는 NVLink bridge 가 있었는데, 4090 부터 의도적으로 제거됐다. 두 장 사이의 통신은 PCIe Gen4 64 GB/s 하나뿐. H100 은 NVLink 900 GB/s — 14배 차이.

FIG · multi-GPU 인터커넥트 대역폭장 간 P2P

4090 (PCIe4)

64 GB/s

A100 NVLink

600

600 GB/s

H100 NVLink4

900

900 GB/s

학습에서 all-reduce 의 비용이 인터커넥트 대역폭에 직접 비례. 4090 두 장의 학습 효율은 같은 model 을 H100 두 장으로 돌릴 때 대비 ~30% 수준이 일반적.

NVLink 가 없을 때 일어나는 실질적 문제들.

Tensor Parallelism 사실상 불가능 — TP 는 매 layer 마다 all-reduce. PCIe 위에서 이걸 하면 통신 시간이 forward 시간보다 길다.
Data Parallelism 도 비효율 — gradient all-reduce 가 step 마다 모델 사이즈 만큼. 7B fp16 = 14 GB / 64 GB/s ≈ 220 ms. step 자체가 100 ms 안쪽인 작은 모델에서 통신이 두 배.
ZeRO-3 / FSDP 가 거의 불가능 — parameter sharding 은 매 layer 마다 weight gather. PCIe 로는 동기 시간이 너무 큼.

왜 NVLink 가 빠졌는가

3090 에서 4090 으로 가면서 NVIDIA 가 명시적으로 NVLink 를 뺀 것은 시장 분리 의도가 명백하다. 게이밍 카드로 데이터센터 워크로드 못 돌게. 대신 NVIDIA 는 같은 세대 데이터센터 칩(L40S, H100) 을 별도 가격에 판매. § 07 에서 본격적으로 다룬다.

“4090 두 장 ≠ H100 한 장. compute 가 같아도 인터커넥트가 깎여 있어서 학습이 안 큰다.” 학습 노트 · 재구성

§ 05tensor core 비교· 의도적으로 잘린 fp8/fp16

같은 architecture 인데 fp8 비율이 다르다

RTX 4090 과 H100 은 둘 다 Hopper 세대의 tensor core(4090 은 사실은 Ada Lovelace 4세대 TC, H100 은 Hopper 4세대 TC) — 같은 명령어 셋트에 가깝지만 throughput ratio 가 다르다. 특히 fp8 에서.

RTX 4090

fp16/bf16 ~165 TFLOPs · fp8 ~330 TFLOPs (sparse 시 660). 4세대 TC 지만 fp8 의 acceleration 비율이 H100 만큼 크지 않음.

$1500 클래스

H100 SXM

fp16/bf16 ~990 TFLOPs · fp8 ~1980 TFLOPs. 모든 정밀도에서 4090 의 ~6배.

$30000+ 클래스

차이의 의미

fp8 학습/추론 비율의 차이는 “미래의 워크로드” 에서 더 벌어진다. fp8 으로 LLM 학습이 본격화되면 같은 격차가 6배에서 더 커질 가능성.

갈수록 격차 ↑

spec 의 미세한 점

NVIDIA 는 4090 의 fp16 accumulator 를 의도적으로 절반으로 둔다고 알려져 있다 — fp16 with fp16 accumulator 는 full speed, fp16 with fp32 accumulator 는 절반. ML 학습은 보통 fp32 accumulator 를 쓰므로 실제 학습 throughput 은 spec 시트보다 낮다. 원본 영상 확인 필요 — 강의에서 명시적으로 다뤘는지.

하지만 — 추론에 한정하면 4090 은 의외로 강하다. fp16 accumulator 를 그대로 써도 정확도 손해가 작은 추론 워크로드에서는 raw TFLOPs 가 거의 그대로 살아난다. 추론 vs 학습의 가성비 격차가 여기서 갈린다.

“학습은 H100, 추론은 4090. 워크로드의 정밀도 요구가 두 카드의 가성비를 정반대로 만든다.” 학습 노트 · 재구성

§ 06ML 벤치마크 사례· 학습 vs 추론

실제 워크로드에서 보이는 4090 의 상대 성능

spec 시트의 숫자와 실제 ML 워크로드의 결과는 어긋난다. 공개된 벤치마크 (lambda labs, TinyCorp, Tim Dettmers blog) 에서 추출한 사례들.

워크로드4090H100비고

7B 추론 batch=1 ~85 tok/s ~170 tok/s memory-bound. 격차는 메모리 대역폭 비율 (1:3.35) 에 가까움 — 모델이 24GB 안에 들어가서 4090 도 건강.

70B 추론 N/A · OOM ~28 tok/s VRAM 부족. 4-bit quantization 으로 35GB 까지 줄여도 24GB 안 들어감. 두 장 묶어도 PCIe 통신 비용으로 안 빠름.

7B fine-tuning, batch=8, fp16 ~45 step/min ~280 step/min memory + accumulator + bandwidth 합쳐서 ~6배 격차.

SD1.5 추론 1024×1024 ~3.0 it/s ~5.0 it/s compute-bound. 격차 작음. 4090 의 가성비가 가장 밝게 빛나는 자리.

SD3 / SDXL 학습 ~ 1× ref ~5–6× ref batch + activation memory 가 24GB 한계에 부딪힘. 작은 batch 로 인해 효율 더 떨어짐.

패턴

워크로드가 (a) 모델이 24GB 안에 들어가고, (b) batch=1 추론이거나 compute-bound 한 task 이면 4090 의 상대 성능이 50%~70%. 모델이 안 들어가거나 collective 가 들어가면 immediate 절벽.

특히 흥미로운 자리 — image diffusion 추론은 4090 의 sweet spot 이다. 모델이 작고(SD1.5 = 3GB) compute-bound 라서 메모리 대역폭이 병목 아님. 실제 production 에서도 SD-as-a-service 회사들이 4090 클러스터를 쓰는 사례 많음 (원본 영상 확인 필요 — 강의에서 사례 언급).

§ 07시장 분리의 논리· 왜 NVIDIA 가 막는가

spec 차이는 기술적 한계가 아니라 비즈니스 디자인이다

RTX 4090 과 H100 의 die 는 — physical level 에서 보면 유사한 process node, 유사한 transistor density. spec 차이의 큰 부분은 packaging 과 binning 과 driver 의 결정이지, “4090 이 만들 수 없는 것” 이 아니다. NVIDIA 의 시장 분리 전략의 결과.

FIG · NVIDIA 의 의도적 시장 분리RTX 40 시리즈 → AI 분야 차단

기술적 가능

4090 의 die 는 H100 만큼의 transistor 를 가진다. fp8 도 같은 architecture. 같은 fab.

하드웨어 차이 작음

의도적 차단

NVLink 제거 (3090 까지는 있었음). fp16 fp32-accumulator 절반. EULA 에서 데이터센터 사용 금지. driver 가 datacenter SKU 만 일부 기능 활성화.

NVIDIA 의 결정

시장 분리

게이밍 시장 ($1.5K) ↔ AI/datacenter 시장 ($30K+). 둘이 섞이지 않게 의도적 차단. 가격을 25배로 받기 위한 디자인.

가격 25배 격차

이 분리가 — 만약 시장이 “4090 두 장 = H100 한 장” 으로 인식한다면 — 깨질 수 있는 분리. 그래서 NVIDIA 는 인터커넥트와 fp16 accumulator 같은 자리를 의도적으로 잘라둔다.

NVIDIA 의 EULA(End User License Agreement) 는 명시적으로 “consumer GeForce 제품을 데이터센터에서 사용 금지”를 명문화한다. 클라우드 회사가 4090 을 모아 GPU 인스턴스로 판매하면 라이선스 위반이다.

이 라이선스가 강제력 있어서 — 거대한 클라우드 회사들은 4090 을 안 산다. 그래서 NVIDIA 의 마진이 보호된다. 작은 스타트업이나 개인 연구자가 자기 머신에 4090 두 장 꼽는 건 라이선스 위반 아님.

중요한 미세한 점

NVLink 가 없는 게 “기술적으로 어렵다” 는 주장은 거짓 — 3090 까지는 NVLink bridge 가 있었다. 4090 에서 의도적으로 뺀 것이 명확하다. 그리고 그 한 결정으로 4090 의 multi-GPU 학습 시장이 사실상 막힌다.

“NVIDIA 의 spec 디자인은 — fp16 accumulator 를 절반으로, NVLink 를 빼고, EULA 로 데이터센터 막기. 이 셋이 결합되면 4090 은 게이밍 카드로 정확히 분류된다.” 학습 노트 · 재구성

§ 08가격 대비 가치· $/TFLOP, $/GB·s

워크로드 유형에 따라 다르게 계산되는 가성비

한 번에 하나의 가성비 지표만 보면 결론이 한쪽으로 치우친다. 셋을 나란히 본다 — $/TFLOP, $/GB·s, $/GB.

지표4090H100의미

$ / TFLOP fp16 $10 $36 raw compute 만 보면 4090 이 ~3.6배 가성비. 광고에 잘 쓰이는 숫자.

$ / GB·s mem bw $1500 $10000 memory-bound 워크로드에서 4090 이 ~6.7배 가성비.

$ / GB VRAM $62 $430 큰 모델이 안 들어가면 무의미. 들어가면 4090 이 ~7배 가성비.

$ / GB·s NVLink N/A $36 multi-GPU 학습에서 4090 은 비교 자체가 안 된다.

실전의 의사결정 규칙

(1) 모델이 24GB 에 들어가고 (2) single-GPU 추론이면 — 4090 이 압도적. (3) 학습이거나 (4) 70B+ 모델이면 — H100 또는 A100 80GB 가 거의 강제. 중간 — 13B fine-tune, 7B multi-GPU — 은 case-by-case.

한 가지 더 기억할 — 전기료. 4090 은 450W TDP, H100 은 700W. 24/7 운용 시 전기료 차이가 의미 있는 수준. 1년 100% 가동 시 4090 이 ~$500, H100 이 ~$770 (kWh $0.13 기준). 가성비 지표에는 안 들어가지만 실제 cost 에는 들어간다.

“4090 의 진짜 sweet spot — 단일 GPU 안에 들어가는 모델을 추론할 때. 그 외엔 데이터센터 카드의 영역.” 학습 노트 · 재구성

§ 09multi-GPU 워크어라운드· PCIe, ZeRO, sharding

4090 두 장으로 LLM 학습이 가능한 자리들 — 그리고 막히는 자리

NVLink 없이 4090 두 장으로 무엇을 할 수 있는지의 현실적 가이드.

Pipeline Parallelism

layer 를 두 장에 나눠 cascading. 통신은 layer 경계에서만 → 작은 양. 13B fine-tune 가능.

잘 동작

Single-GPU 추론 cluster

각 4090 이 독립적으로 다른 query 처리. NCCL 통신 없음. SD/추론 회사가 가장 많이 쓰는 패턴.

잘 동작

Tensor Parallelism

layer 마다 all-reduce. PCIe 위에서 latency 높아 forward 시간보다 통신 길어짐.

사실상 불가

Data Parallelism

step 마다 gradient all-reduce. 작은 모델은 OK, 큰 모델은 통신이 step 시간 ↑↑.

7B 까지

FSDP / ZeRO-3

parameter sharding 이 layer 마다 weight gather 필요. PCIe 의 latency overhead 가 layer 마다 중첩.

매우 비효율

QLoRA + 단일 GPU

4-bit quant 로 13B 를 24GB 에 박고 LoRA. 4090 한 장에서 학습 가능. 가장 많이 쓰는 패턴.

최적 워크어라운드

실용 결론

4090 으로 LLM 학습을 하려면 — QLoRA 한 장 (가장 흔함) 또는 Pipeline Parallel + 작은 batch. all-reduce 가 매 step 등장하는 패턴은 모두 PCIe 가 발목.

§ 10기억할 메모와 자료· key takeaways

다시 열었을 때 5분 안에 손에 잡혀야 할 것

RTX 4090 의 raw spec

~165 TFLOPs fp16, 24GB GDDR6X, 1.0 TB/s, 450W, NVLink 없음, PCIe Gen4 64 GB/s, $1500–2000.

H100 vs 4090 격차

compute 6배, 메모리 대역폭 3.35배, VRAM 3.3배, NVLink 14배 — workload 따라 1.3배 ~ 10배 차이.

4090 의 sweet spot

단일 GPU 추론 (모델 24GB 이내), image diffusion, QLoRA fine-tune, compute-bound 비-LLM workloads.

4090 에서 안 되는 것

70B 모델, multi-GPU 학습 (NVLink 의존), Tensor Parallel, FSDP/ZeRO-3, fp16 fp32-accum 의 full speed.

의도적 시장 분리

3090 까지 있던 NVLink 가 4090 에서 빠짐. EULA 의 데이터센터 금지 조항. fp16 accumulator 절반.

$/TFLOP vs $/GB·s

두 지표 모두 4090 이 H100 보다 좋다 — 하지만 워크로드 병목이 어느 자원인지에 따라 의미 다름.

memory-bound LLM 추론

latency 하한 ≈ weight_size / mem_bw. 13B fp16 / 1 TB/s ≈ 26 ms 가 4090 절대 하한.

QLoRA 의 위치

4090 한 장 + 4-bit quant + LoRA = 13B fine-tune 가능. 거의 모든 “집에서 학습” 시나리오의 표준.

YouTube 검색 — Jake Cannell · GPU Mode

RTX 4090 spec nvidia.com/.../rtx-4090

H100 datasheet nvidia.com/.../h100 datasheet

Tim Dettmers blog Which GPU for Deep Learning?

Lambda labs benchmarks lambdalabs.com/gpu-benchmarks

§ 11다른 강의로 이어지는 길· connections

같은 자리를 다른 각도에서 다루는 강의들

L001

How to profile CUDA kernels

memory-bound vs compute-bound 의 측정 도구. 4090 의 병목을 직접 확인할 때.

L008

CUDA Performance Checklist

memory throughput / occupancy / bandwidth 의 직접 확인.

L017

GPU Collective Communication

all-reduce / NCCL — NVLink 부재가 어떻게 발목을 잡는지 정량화.

L038

FP8

fp8 acceleration 의 spec 차이 — 4090 vs H100 의 미래 격차의 자리.

L041

Hopper architecture

H100 의 새 hardware 기능들 — TMA, async copy, fp8.

L052

Scaling Laws Low Precision

fp8/int8 학습이 가능해질 때 4090 의 위치가 어떻게 바뀌는가.

§ 12열린 질문· open questions

원본 자막 실패로 남은 자리들

Jake 의 정확한 벤치마크 셋업 — 강의에서 어떤 모델/batch/precision 조합으로 측정했는지 본 노트는 공개 자료의 평균값으로 재구성. 원본 영상 확인 필요.
RTX 4090 의 fp16 accumulator 절반 주장 — 강의에서 명시적으로 다뤘는지 확실하지 않다. 실제 측정 사례는 일부 reverse-engineering 기록에서 확인됨.
EULA 의 데이터센터 금지 조항 — 강의에서 정확한 문구 인용했는지 여부.
3090 → 4090 의 NVLink 제거 시점 — 강의에서 이 결정의 “시장 분리 의도” 를 어느 정도로 강조했는지.
5090 spec 추정 — 강의 시점에 5090 이 발표되었는지 여부에 따라, 다음 세대의 격차 예측이 다를 수 있음.
RTX 5000/6000 Ada (workstation) — 4090 die 와 같지만 workstation 라이선스. 강의에서 언급 여부.
중국 시장의 H800/A800 — 미국 수출 규제로 인터커넥트 깎인 H100 변종. 강의 시점에 다뤘는지.
AMD MI300X 와의 비교 — 192GB HBM3 의 데이터센터 GPU. 강의에서 NVIDIA 외 옵션 언급 여부.

검증 메모

본 노트의 모든 spec 숫자는 NVIDIA 공식 datasheet, lambda labs 벤치마크, Tim Dettmers blog 의 평균값으로 재구성. 실제 자기 워크로드의 측정값과 다를 수 있음. ML 워크로드는 batch size, precision, model size 의 작은 차이가 큰 결과 변화를 만든다 — 자기 셋업으로 직접 한 번 측정 권장.

← Lecture 050 A learning journey CUDA, Triton, FA Lecture 052 → Scaling Laws for Low Precision — Tanishq Kumar