《GPU Mode》
L051
2024
High priority
transcript · failed
Consumer GPU performance — RTX 4090 의 진짜 한계
$1,500 짜리 게이밍 GPU 가 $40,000 짜리 H100 의 어느 부분을 따라잡고 어느 부분에서 명확히 갈라지는가. tensor core 연산력은 거의 같지만, 메모리 대역폭과 NVLink 와 fp8/fp16 의 비율에서 의도적으로 잘려 있다 — 그 잘림이 ML 워크로드에 어떻게 다르게 보이는지의 학습 노트. 원본 transcript 가 실패해 본 페이지는 공개 spec 시트와 알려진 벤치마크로 재구성됐다.
RTX 4090
A100 / H100
memory bandwidth
NVLink
fp8 / fp16
tensor core
price/perf
market segmentation
J
Speaker
Jake Cannell
researcher · 게이밍 GPU 의 ML 활용 분석
§ 01강의가 풀려는 문제· why this lecture exists
“집에서 LLM 학습/추론 하려는 사람” 의 가장 현실적 의사결정
RTX 4090 두 장 사면 H100 한 장보다 compute 만 따지면 비슷한데, 실제로 같은 워크로드를 돌렸을 때 결과가 같지 않다. 어디가 갈라지는가의 질문이 강의 전체를 끌고 간다.
강의의 두 가지 출발 질문.
- RTX 4090 의 어느 spec 이 H100 에 가깝고, 어느 spec 이 의도적으로 잘려 있는가?
- 그 잘림이 실제 ML 워크로드 — 학습, 추론, fine-tuning — 에 어떻게 다르게 나타나는가?
이 노트는 원본 transcript 가 실패한 강의를 NVIDIA 공식 datasheet, lambda labs / TinyCorp / Tim Dettmers 의 공개 벤치마크, 그리고 일반적으로 알려진 spec 으로 재구성했다. 강의 안에서 직접 확인되지 않은 주장은 “원본 영상 확인 필요” 표시로 둔다.
강의의 frame
"4090 이 H100 의 N% 다" 같은 단일 숫자가 의미가 없다. 워크로드의 병목이 어디냐 에 따라 4090 의 상대 성능은 30%~95% 사이를 왔다갔다 한다 — compute-bound 면 비슷하고, memory-bound 면 절반, multi-GPU collective 가 들어가면 1/10.
“NVIDIA 가 ‘AI 칩’ 과 ‘게이밍 칩’ 을 분리하는 자리가 정확히 LLM 학습이 의존하는 자리다 — 메모리, 인터커넥트, fp8 비율.” 학습 노트 · 재구성
§ 02RTX 4090 vs A100/H100· spec 한 장 비교
같은 세대의 GPU 들이 한 줄에 놓일 때 보이는 그림
먼저 spec 시트의 숫자만 한 장에 모아본다. 같은 단위로 정렬하면 어디가 “비슷” 하고 어디가 “차원이 다른지” 한눈에 보인다.
FIG · GPU spec 한 장 비교NVIDIA datasheet 기준
GPUfp16 TFLOPsHBM/VRAM대역폭 · 인터커넥트 · 가격
RTX 4090
~165
24 GB
1.0 TB/s · PCIe Gen4 (NVLink ❌) · $1,500–2,000
A100 80GB
~312
80 GB
2.0 TB/s · NVLink 600 GB/s · $10,000–15,000
H100 SXM
~990
80 GB
3.35 TB/s · NVLink 900 GB/s · $30,000–40,000
H200 SXM
~990
141 GB
4.8 TB/s · NVLink 900 GB/s · $40,000+
fp16 의 raw TFLOPs 기준 4090 vs H100 = 1 : 6. 그런데 가격은 1 : 25. 이 비율이 “4090 이 더 가성비” 의 단순 결론을 만든다 — 다음 섹션에서 부서진다.
4090 의 강점은 분명하다 — fp16 의 raw TFLOPs 와 가격을 묶어 보면 $/TFLOP 이 H100 의 1/4 수준. 이 단순 비교만 보면 누구나 게이밍 카드를 사고 싶어진다. 하지만 ML 워크로드의 실제 병목은 raw TFLOPs 가 아니다.
결정적 차이 셋
(1) VRAM 24 GB vs 80 GB — 70B 모델이 안 들어간다. (2) 대역폭 1.0 vs 3.35 TB/s — memory-bound 워크로드에서 3배 차이. (3) NVLink 부재 — 두 장 묶어도 PCIe Gen4 의 64 GB/s 만으로 통신. multi-GPU collective 가 immediate 병목.
§ 03메모리 대역폭의 한계· HBM3 vs GDDR6X
LLM 추론은 거의 모두 memory-bound 다 — 그래서 4090 이 1/3
대형 LLM 추론(특히 generate 단계)은 model weights 를 매 token 마다 한 번 읽는다. 13B fp16 모델 = 26 GB. 4090 은 1 TB/s 니까 token 당 하한 ~26 ms. H100 은 3.35 TB/s 니까 ~7.8 ms. 같은 모델, 같은 코드, 3배 차이.
FIG · 메모리 대역폭 비교 (TB/s)NVIDIA datasheet
메모리 대역폭은 LLM 추론의 거의 직접적 throughput cap. compute 는 token 당 큰 영향이 없다 — KV cache attention 은 memory 패턴이 dominant.
왜 이 차이가 결정적인지를 풀면 —
- generate 단계는 한 번에 한 token 씩 — 거의 모든 weight 를 읽고 작은 양을 곱한다. arithmetic intensity 가 매우 낮다.
- arithmetic intensity = FLOPs / bytes. 모델 weight 한 번 읽고 batch=1 forward 하면 거의 1 (FLOPs ≈ bytes). compute-to-bandwidth 가 100:1 인 GPU 에서 99% 의 시간이 메모리 대기.
- 그래서 generate latency 의 lower bound 는
weight_size / mem_bw. 13B fp16 = 26 GB / 1 TB/s ≈ 26 ms 가 4090 의 절대 하한.
batch 키우면?
batch=1 은 memory-bound, batch ≫ 1 은 compute-bound 로 넘어간다. 같은 weight 한 번 읽고 여러 query 처리. batch ~32 부터는 4090 의 fp16 TFLOPs 가 살아난다. 단, KV cache 크기 때문에 24GB VRAM 안에 batch 가 안 들어가는 경우 많음.
“4090 이 H100 보다 떨어지는 이유의 절반 이상은 raw compute 가 아니라 메모리 대역폭이다.” 학습 노트 · 재구성
덧붙여 — H100 은 HBM3, 4090 은 GDDR6X. GDDR6X 는 게이밍 frame buffer 용으로 디자인된 기술이고, HBM3 는 데이터센터 GPU 용. 같은 “메모리 칩” 처럼 보이지만 물리적 구조 자체가 다르다 — HBM 은 다이를 stack 해서 광폭 버스(보통 5120-bit), GDDR 은 보드 위에 분산 배치(384-bit). 같은 클럭이라도 폭이 달라서 대역폭이 다르다.
§ 04NVLink 부재의 영향· multi-GPU scaling 의 끝
두 장 묶을 때 4090 의 가성비가 무너지는 자리
RTX 4090 에는 NVLink 가 없다. RTX 3090 까지는 NVLink bridge 가 있었는데, 4090 부터 의도적으로 제거됐다. 두 장 사이의 통신은 PCIe Gen4 64 GB/s 하나뿐. H100 은 NVLink 900 GB/s — 14배 차이.
FIG · multi-GPU 인터커넥트 대역폭장 간 P2P
학습에서 all-reduce 의 비용이 인터커넥트 대역폭에 직접 비례. 4090 두 장의 학습 효율은 같은 model 을 H100 두 장으로 돌릴 때 대비 ~30% 수준이 일반적.
NVLink 가 없을 때 일어나는 실질적 문제들.
- Tensor Parallelism 사실상 불가능 — TP 는 매 layer 마다 all-reduce. PCIe 위에서 이걸 하면 통신 시간이 forward 시간보다 길다.
- Data Parallelism 도 비효율 — gradient all-reduce 가 step 마다 모델 사이즈 만큼. 7B fp16 = 14 GB / 64 GB/s ≈ 220 ms. step 자체가 100 ms 안쪽인 작은 모델에서 통신이 두 배.
- ZeRO-3 / FSDP 가 거의 불가능 — parameter sharding 은 매 layer 마다 weight gather. PCIe 로는 동기 시간이 너무 큼.
왜 NVLink 가 빠졌는가
3090 에서 4090 으로 가면서 NVIDIA 가 명시적으로 NVLink 를 뺀 것은 시장 분리 의도가 명백하다. 게이밍 카드로 데이터센터 워크로드 못 돌게. 대신 NVIDIA 는 같은 세대 데이터센터 칩(L40S, H100) 을 별도 가격에 판매. § 07 에서 본격적으로 다룬다.
“4090 두 장 ≠ H100 한 장. compute 가 같아도 인터커넥트가 깎여 있어서 학습이 안 큰다.” 학습 노트 · 재구성
§ 05tensor core 비교· 의도적으로 잘린 fp8/fp16
같은 architecture 인데 fp8 비율이 다르다
RTX 4090 과 H100 은 둘 다 Hopper 세대의 tensor core(4090 은 사실은 Ada Lovelace 4세대 TC, H100 은 Hopper 4세대 TC) — 같은 명령어 셋트에 가깝지만 throughput ratio 가 다르다. 특히 fp8 에서.
RTX 4090
fp16/bf16 ~165 TFLOPs · fp8 ~330 TFLOPs (sparse 시 660). 4세대 TC 지만 fp8 의 acceleration 비율이 H100 만큼 크지 않음.
$1500 클래스
H100 SXM
fp16/bf16 ~990 TFLOPs · fp8 ~1980 TFLOPs. 모든 정밀도에서 4090 의 ~6배.
$30000+ 클래스
차이의 의미
fp8 학습/추론 비율의 차이는 “미래의 워크로드” 에서 더 벌어진다. fp8 으로 LLM 학습이 본격화되면 같은 격차가 6배에서 더 커질 가능성.
갈수록 격차 ↑
spec 의 미세한 점
NVIDIA 는 4090 의 fp16 accumulator 를 의도적으로 절반으로 둔다고 알려져 있다 — fp16 with fp16 accumulator 는 full speed, fp16 with fp32 accumulator 는 절반. ML 학습은 보통 fp32 accumulator 를 쓰므로 실제 학습 throughput 은 spec 시트보다 낮다. 원본 영상 확인 필요 — 강의에서 명시적으로 다뤘는지.
하지만 — 추론에 한정하면 4090 은 의외로 강하다. fp16 accumulator 를 그대로 써도 정확도 손해가 작은 추론 워크로드에서는 raw TFLOPs 가 거의 그대로 살아난다. 추론 vs 학습의 가성비 격차가 여기서 갈린다.
“학습은 H100, 추론은 4090. 워크로드의 정밀도 요구가 두 카드의 가성비를 정반대로 만든다.” 학습 노트 · 재구성
§ 06ML 벤치마크 사례· 학습 vs 추론
실제 워크로드에서 보이는 4090 의 상대 성능
spec 시트의 숫자와 실제 ML 워크로드의 결과는 어긋난다. 공개된 벤치마크 (lambda labs, TinyCorp, Tim Dettmers blog) 에서 추출한 사례들.
워크로드4090H100비고
7B 추론 batch=1
~85 tok/s
~170 tok/s
memory-bound. 격차는 메모리 대역폭 비율 (1:3.35) 에 가까움 — 모델이 24GB 안에 들어가서 4090 도 건강.
70B 추론
N/A · OOM
~28 tok/s
VRAM 부족. 4-bit quantization 으로 35GB 까지 줄여도 24GB 안 들어감. 두 장 묶어도 PCIe 통신 비용으로 안 빠름.
7B fine-tuning, batch=8, fp16
~45 step/min
~280 step/min
memory + accumulator + bandwidth 합쳐서 ~6배 격차.
SD1.5 추론 1024×1024
~3.0 it/s
~5.0 it/s
compute-bound. 격차 작음. 4090 의 가성비가 가장 밝게 빛나는 자리.
SD3 / SDXL 학습
~ 1× ref
~5–6× ref
batch + activation memory 가 24GB 한계에 부딪힘. 작은 batch 로 인해 효율 더 떨어짐.
패턴
워크로드가 (a) 모델이 24GB 안에 들어가고, (b) batch=1 추론이거나 compute-bound 한 task 이면 4090 의 상대 성능이 50%~70%. 모델이 안 들어가거나 collective 가 들어가면 immediate 절벽.
특히 흥미로운 자리 — image diffusion 추론은 4090 의 sweet spot 이다. 모델이 작고(SD1.5 = 3GB) compute-bound 라서 메모리 대역폭이 병목 아님. 실제 production 에서도 SD-as-a-service 회사들이 4090 클러스터를 쓰는 사례 많음 (원본 영상 확인 필요 — 강의에서 사례 언급).
§ 07시장 분리의 논리· 왜 NVIDIA 가 막는가
spec 차이는 기술적 한계가 아니라 비즈니스 디자인이다
RTX 4090 과 H100 의 die 는 — physical level 에서 보면 유사한 process node, 유사한 transistor density. spec 차이의 큰 부분은 packaging 과 binning 과 driver 의 결정이지, “4090 이 만들 수 없는 것” 이 아니다. NVIDIA 의 시장 분리 전략의 결과.
FIG · NVIDIA 의 의도적 시장 분리RTX 40 시리즈 → AI 분야 차단
기술적 가능
4090 의 die 는 H100 만큼의 transistor 를 가진다. fp8 도 같은 architecture. 같은 fab.
하드웨어 차이 작음
의도적 차단
NVLink 제거 (3090 까지는 있었음). fp16 fp32-accumulator 절반. EULA 에서 데이터센터 사용 금지. driver 가 datacenter SKU 만 일부 기능 활성화.
NVIDIA 의 결정
시장 분리
게이밍 시장 ($1.5K) ↔ AI/datacenter 시장 ($30K+). 둘이 섞이지 않게 의도적 차단. 가격을 25배로 받기 위한 디자인.
가격 25배 격차
이 분리가 — 만약 시장이 “4090 두 장 = H100 한 장” 으로 인식한다면 — 깨질 수 있는 분리. 그래서 NVIDIA 는 인터커넥트와 fp16 accumulator 같은 자리를 의도적으로 잘라둔다.
NVIDIA 의 EULA(End User License Agreement) 는 명시적으로 “consumer GeForce 제품을 데이터센터에서 사용 금지”를 명문화한다. 클라우드 회사가 4090 을 모아 GPU 인스턴스로 판매하면 라이선스 위반이다.
이 라이선스가 강제력 있어서 — 거대한 클라우드 회사들은 4090 을 안 산다. 그래서 NVIDIA 의 마진이 보호된다. 작은 스타트업이나 개인 연구자가 자기 머신에 4090 두 장 꼽는 건 라이선스 위반 아님.
중요한 미세한 점
NVLink 가 없는 게 “기술적으로 어렵다” 는 주장은 거짓 — 3090 까지는 NVLink bridge 가 있었다. 4090 에서 의도적으로 뺀 것이 명확하다. 그리고 그 한 결정으로 4090 의 multi-GPU 학습 시장이 사실상 막힌다.
“NVIDIA 의 spec 디자인은 — fp16 accumulator 를 절반으로, NVLink 를 빼고, EULA 로 데이터센터 막기. 이 셋이 결합되면 4090 은 게이밍 카드로 정확히 분류된다.” 학습 노트 · 재구성
§ 08가격 대비 가치· $/TFLOP, $/GB·s
워크로드 유형에 따라 다르게 계산되는 가성비
한 번에 하나의 가성비 지표만 보면 결론이 한쪽으로 치우친다. 셋을 나란히 본다 — $/TFLOP, $/GB·s, $/GB.
지표4090H100의미
$ / TFLOP fp16
$10
$36
raw compute 만 보면 4090 이 ~3.6배 가성비. 광고에 잘 쓰이는 숫자.
$ / GB·s mem bw
$1500
$10000
memory-bound 워크로드에서 4090 이 ~6.7배 가성비.
$ / GB VRAM
$62
$430
큰 모델이 안 들어가면 무의미. 들어가면 4090 이 ~7배 가성비.
$ / GB·s NVLink
N/A
$36
multi-GPU 학습에서 4090 은 비교 자체가 안 된다.
실전의 의사결정 규칙
(1) 모델이 24GB 에 들어가고 (2) single-GPU 추론이면 — 4090 이 압도적. (3) 학습이거나 (4) 70B+ 모델이면 — H100 또는 A100 80GB 가 거의 강제. 중간 — 13B fine-tune, 7B multi-GPU — 은 case-by-case.
한 가지 더 기억할 — 전기료. 4090 은 450W TDP, H100 은 700W. 24/7 운용 시 전기료 차이가 의미 있는 수준. 1년 100% 가동 시 4090 이 ~$500, H100 이 ~$770 (kWh $0.13 기준). 가성비 지표에는 안 들어가지만 실제 cost 에는 들어간다.
“4090 의 진짜 sweet spot — 단일 GPU 안에 들어가는 모델을 추론할 때. 그 외엔 데이터센터 카드의 영역.” 학습 노트 · 재구성
§ 09multi-GPU 워크어라운드· PCIe, ZeRO, sharding
4090 두 장으로 LLM 학습이 가능한 자리들 — 그리고 막히는 자리
NVLink 없이 4090 두 장으로 무엇을 할 수 있는지의 현실적 가이드.
Pipeline Parallelism
layer 를 두 장에 나눠 cascading. 통신은 layer 경계에서만 → 작은 양. 13B fine-tune 가능.
잘 동작
Single-GPU 추론 cluster
각 4090 이 독립적으로 다른 query 처리. NCCL 통신 없음. SD/추론 회사가 가장 많이 쓰는 패턴.
잘 동작
Tensor Parallelism
layer 마다 all-reduce. PCIe 위에서 latency 높아 forward 시간보다 통신 길어짐.
사실상 불가
Data Parallelism
step 마다 gradient all-reduce. 작은 모델은 OK, 큰 모델은 통신이 step 시간 ↑↑.
7B 까지
FSDP / ZeRO-3
parameter sharding 이 layer 마다 weight gather 필요. PCIe 의 latency overhead 가 layer 마다 중첩.
매우 비효율
QLoRA + 단일 GPU
4-bit quant 로 13B 를 24GB 에 박고 LoRA. 4090 한 장에서 학습 가능. 가장 많이 쓰는 패턴.
최적 워크어라운드
실용 결론
4090 으로 LLM 학습을 하려면 — QLoRA 한 장 (가장 흔함) 또는 Pipeline Parallel + 작은 batch. all-reduce 가 매 step 등장하는 패턴은 모두 PCIe 가 발목.
§ 10기억할 메모와 자료· key takeaways
다시 열었을 때 5분 안에 손에 잡혀야 할 것
RTX 4090 의 raw spec
~165 TFLOPs fp16, 24GB GDDR6X, 1.0 TB/s, 450W, NVLink 없음, PCIe Gen4 64 GB/s, $1500–2000.
H100 vs 4090 격차
compute 6배, 메모리 대역폭 3.35배, VRAM 3.3배, NVLink 14배 — workload 따라 1.3배 ~ 10배 차이.
4090 의 sweet spot
단일 GPU 추론 (모델 24GB 이내), image diffusion, QLoRA fine-tune, compute-bound 비-LLM workloads.
4090 에서 안 되는 것
70B 모델, multi-GPU 학습 (NVLink 의존), Tensor Parallel, FSDP/ZeRO-3, fp16 fp32-accum 의 full speed.
의도적 시장 분리
3090 까지 있던 NVLink 가 4090 에서 빠짐. EULA 의 데이터센터 금지 조항. fp16 accumulator 절반.
$/TFLOP vs $/GB·s
두 지표 모두 4090 이 H100 보다 좋다 — 하지만 워크로드 병목이 어느 자원인지에 따라 의미 다름.
memory-bound LLM 추론
latency 하한 ≈ weight_size / mem_bw. 13B fp16 / 1 TB/s ≈ 26 ms 가 4090 절대 하한.
QLoRA 의 위치
4090 한 장 + 4-bit quant + LoRA = 13B fine-tune 가능. 거의 모든 “집에서 학습” 시나리오의 표준.
§ 11다른 강의로 이어지는 길· connections
같은 자리를 다른 각도에서 다루는 강의들
§ 12열린 질문· open questions
원본 자막 실패로 남은 자리들
- Jake 의 정확한 벤치마크 셋업 — 강의에서 어떤 모델/batch/precision 조합으로 측정했는지 본 노트는 공개 자료의 평균값으로 재구성. 원본 영상 확인 필요.
- RTX 4090 의 fp16 accumulator 절반 주장 — 강의에서 명시적으로 다뤘는지 확실하지 않다. 실제 측정 사례는 일부 reverse-engineering 기록에서 확인됨.
- EULA 의 데이터센터 금지 조항 — 강의에서 정확한 문구 인용했는지 여부.
- 3090 → 4090 의 NVLink 제거 시점 — 강의에서 이 결정의 “시장 분리 의도” 를 어느 정도로 강조했는지.
- 5090 spec 추정 — 강의 시점에 5090 이 발표되었는지 여부에 따라, 다음 세대의 격차 예측이 다를 수 있음.
- RTX 5000/6000 Ada (workstation) — 4090 die 와 같지만 workstation 라이선스. 강의에서 언급 여부.
- 중국 시장의 H800/A800 — 미국 수출 규제로 인터커넥트 깎인 H100 변종. 강의 시점에 다뤘는지.
- AMD MI300X 와의 비교 — 192GB HBM3 의 데이터센터 GPU. 강의에서 NVIDIA 외 옵션 언급 여부.
검증 메모
본 노트의 모든 spec 숫자는 NVIDIA 공식 datasheet, lambda labs 벤치마크, Tim Dettmers blog 의 평균값으로 재구성. 실제 자기 워크로드의 측정값과 다를 수 있음. ML 워크로드는 batch size, precision, model size 의 작은 차이가 큰 결과 변화를 만든다 — 자기 셋업으로 직접 한 번 측정 권장.