3B 모델로 11.2T 토큰 — SmolLM3 가 4B 급 모델과 경쟁하는 자리에 도달한 레시피. “작은 모델은 cheap 한 게 아니라 disciplined”. 데이터 큐레이션, 3-stage pretraining, ablation 워크플로, post-training 의 디테일을 Loubna Ben Allal 이 GPU Mode 청중에게 옮긴 강의. transcript 가 실패해서 본 노트는 SmolLM3 공식 blog 와 HuggingFaceTB 의 공개 ablation 자료를 기반으로 재구성.
강의의 출발점은 작은 모델의 교육적 가치다. 큰 모델은 한 번 돌리면 끝이지만, 작은 모델은 같은 GPU 시간으로 50개의 ablation 을 돌릴 수 있다. 그 50개가 큰 학습의 hyperparameter 결정을 위한 학습 자료가 된다.
“작은 모델 학습은 cheap 한 게 아니라 disciplined 하다. 작아서 ablation 이 가능하고, 그래서 모든 결정에 근거가 있다 — 큰 모델은 그 근거 위에서 도는 것뿐.”
SmolLM3 의 결과 — 3B 모델이 Llama-3.2-3B / Qwen2.5-3B 를 모두 outperform 하고 4B 급 모델과 competitive. 이게 “smol” 의 정의다. 같은 파라미터 수 안에서 가능한 frontier 를 그어낸다.
강의가 가장 자주 짚는 점 — SmolLM 의 모든 결정이 큰 모델 팀에도 의미 있다. 단지 ablation 의 cycle time 이 다를 뿐. 같은 framework, 같은 데이터 mixture, 같은 평가 패턴.
HF 의 SmolLM 팀이 BLOOM 이후 누적한 학습 운영 패턴을 직접 적용한 사례. 큰 학습이 비싸진 시대에, 작은 학습이 인력 onboarding 의 표준 진입점이 된다 — 신입이 3B 학습 한 cycle 을 처음부터 끝까지 굴려 본 뒤에야 큰 학습에 합류.
SmolLM3 의 가장 큰 결정은 3-stage curriculum. 처음에는 web 위주의 다양성, 중간에 quality boost, 마지막에 decay phase 에서 code/math 를 upsample. 같은 11.2T 토큰을 “어떻게” 보여주느냐가 결과를 갈랐다.
각 stage 가 파는 의도.
“data mixing 비율을 어떻게 정하는가” 의 답은 ablation. 100B token 의 작은 학습을 4–6개 mixture 로 돌려, 동일한 평가 셋 위에서 다운스트림 metric 비교. 작은 모델 100B 의 cost 가 큰 모델 ablation 의 보험.
SmolLM3 의 architecture 는 3B × 100B token ablation 위에서 결정됐다. 모든 결정 — GQA · NoPE · weight decay 제거 · WSD scheduler — 의 효과가 작은 학습에서 검증된 다음 본 학습으로 진입.
이 다섯 결정은 SmolLM3 만의 특수성이 아니다. Llama 3 / Qwen 2.5 / DeepSeek 3 의 architecture 가 거의 같은 자리에 수렴한다. “작은 모델로 검증한 결정이 큰 모델에서도 통한다” 의 가장 깨끗한 증거.
강의가 가장 실무적으로 깔리는 자리. ablation 을 어떻게 굴리는가 — 그리고 결과를 어떻게 해석해야 의사결정이 가능한가.
SmolLM3 의 평가는 일부러 여러 차원 을 다룬다. 같은 모델이 한 평가 셋에서 좋고 다른 평가 셋에서 나쁜 패턴이 자주 발견되기 때문.
HellaSwag · MMLU 일부 subset 은 3B 모델도 거의 천장. 두 모델 모두 90% 라면 metric 이 정보를 안 준다. 항상 hard subset 또는 새 task (LiveCodeBench, AIME 2025) 를 함께. 평가는 “고정된 셋” 이 아니라 “계속 갱신되는 척도” 다.
SmolLM3 의 reasoning 결과가 특히 인상적 — AIME 2025 36.7% (vs 9.3% 비교 모델), LiveCodeBench 30.0% (vs 15.2%). reasoning mid-training 의 효과가 이 자리에서 가장 크게 회수된다. 같은 3B 사이즈에서 단순 더 많은 데이터로는 안 나오는 차이.
Chinchilla 는 “파라미터 1 개당 token ~20” 을 compute-optimal 로 본다. 3B 모델의 chinchilla optimal 은 60B token. SmolLM3 는 11.2T 토큰 — chinchilla 의 약 60배 overtraining.
“얼마나 더 학습할 것인가” 의 답은 곧 — 이 모델이 추론으로 몇 token 을 처리할 것인가 의 추정. 검색/챗 서비스라면 학습 비용의 1000배가 추론. 그러면 학습에 더 투자하는 게 모든 차원에서 합리적. SmolLM3 는 그 가정 위에서 11.2T 를 정당화.
SmolLM3 가 다른 “open source” 모델과 다른 점 — 비용을 숨기지 않는다. 384 × H100 × 24일 = 약 220k GPU-hour. cloud 가격으로 환산하면 6–8억 원 규모. “smol” 조차 적은 비용은 아니다.
이 표가 보여주는 사실 — main pretrain 만 GPU 시간을 잡지 않는다. ablation + 실패 + 디버깅이 1/3. L090 의 비용 회계와 같은 패턴이 작은 모델에서도 그대로 통한다.
SmolLM 팀의 명시적 입장 — “open source LLM 의 reproducibility 는 가격까지 포함한다”. 누군가가 같은 모델을 처음부터 다시 만들고 싶을 때, GPU-hour 견적 없이는 못 한다. 그래서 ablation 비용까지 표로.
SmolLM3 가 “open weights” 를 넘어 “open everything” 인 자리. 같은 결과를 다른 팀이 재현 가능한 형태까지.
이 정도의 공개는 frontier 모델에서는 거의 보기 힘들다. 그게 SmolLM3 가 학습 자료 로 가치 있는 이유 — 공개된 정보로 다음 팀이 결정 근거를 그대로 따라갈 수 있다.
SFT (4 epoch, BFD packing, user turn loss masking), APO (DPO 의 더 안정한 변형), model merging 으로 long-context 회복 (APO 가중 0.9 + mid-training 가중 0.1). 한 단계도 빠지지 않은 레시피.
본 노트는 SmolLM3 공식 blog 의 정보 + 일반 LLM 학습 도메인 지식의 결합으로 작성. 강의 영상이 복원되면 ablation 의 구체 사례 / 비용 break-down / negative result 를 추가 보강해야 한다.