《GPU Mode》 L071 2025 · ScaleML Series High priority transcript · failed

FlexOlmo — Open Language Models for Flexible Data Use

"open language model" 은 weight 만 공개하는 게 아니다. 학습 데이터, 데이터 거버넌스, 사후 데이터 제거 (opt-out, takedown), 라이선스 추적까지가 전부 풀려야 한다. Sewon Min 의 FlexOlmo 는 — Olmo 시리즈의 다음 세대 — 데이터를 모듈화 가능한 단위로 다루는 학습 framework. 데이터 컨트리뷰터가 자기 데이터를 학습에서 빼고 싶을 때 모델을 처음부터 다시 학습하지 않고도 그 영향을 제거할 수 있는 구조.

open LM data governance opt-out FlexOlmo Olmo 2 data unlearning licensing reproducibility

Speaker

Sewon Min

UC Berkeley · AI2 · OLMo 시리즈 핵심 연구자

강의 번호

L071

스피커

Sewon Min

학습 우선순위

High · 정독

시리즈

ScaleML

하위 목차 · 12개 섹션↓ 클릭해서 이동

01강의가 풀려는 문제why flexible data use 02open LM 의 데이터 거버넌스what "open" means 03flexible data use 의 의미modular data 04학습 파이프라인FlexOlmo training 05평가 결과benchmark vs Olmo 06reproducibilityfull stack openness 07라이선싱data ↔ weight 08채택 사례downstream 09다음 방향unlearning frontier 10기억할 메모key takeaways 11다른 강의로 이어지는 길connections 12열린 질문open questions

§ 01강의가 풀려는 문제· Why flexible data use

"open" 은 weight 공개가 아니다 — 데이터 책임이 같이 따라온다

"open language model" 의 정의가 2024-2025 사이에 본격적으로 쪼개지고 있다. weight 공개 (open-weight) vs 학습 데이터 + 코드 + 모델 모두 공개 (fully open). Llama 는 weight, Olmo 는 fully open 의 표준. 그러나 fully open 도 새 question 에 부딪힌다 — 한 번 공개된 데이터의 사용을 사후에 제어할 수 있는가?

강의의 출발 question 셋.

open LM 의 진짜 약속이 무엇인가 — weight 공개만으로는 reproducible 도 trustworthy 도 아니다. 학습 데이터가 같이 풀려야 한다.
data contributor 가 사후에 자기 데이터 제거를 요청하면 어떻게 하는가 — 처음부터 다시 학습하면 수개월 + 수억 원. 다른 mechanism 이 필요.
flexible data use 의 framework 가 가능한가 — FlexOlmo 의 답: 데이터를 modular 단위로 다루고, expert mixture 로 학습하면 부분 제거가 가능.

강의의 인지적 frame

"open" 은 단일 axis 가 아니라 multi-axis다. weight, 학습 데이터, 학습 코드, 평가 데이터, log, intermediate checkpoint, opt-out mechanism — 각자 다른 axis. FlexOlmo 는 그 중 가장 어려운 “data flexibility” 축에 서 있다.

"weight 공개는 시작일 뿐이다 — 학습 데이터가 비공개라면 reproducibility 도 책임도 부족하다."강의 §1 재구성 · Sewon Min

§ 02open LM 의 데이터 거버넌스· What "open" really means

"open" 의 6 단계 — 어디서 어디까지 풀려야 하는가

open LM 의 spectrum. 같은 “open” 단어를 쓰는 모델들이 사실 매우 다른 단계에 있다.

FIG · openness 6 단계weight only → fully reproducible

단계weight코드데이터opt-out

closed (GPT-4)××××

weight-restricted (Llama)제한×××

weight-open (Mistral)○×××

code-open (Llama 3 weights+code)○○××

fully-open (OLMo, Pythia)○○○×

flexible-open (FlexOlmo)○○○○

FlexOlmo 의 unique 한 axis 는 opt-out. 이전까지의 fully-open (OLMo, Pythia) 는 데이터까지 공개하지만 사후 제거는 다루지 않음. FlexOlmo 는 그 layer 를 추가.

왜 fully-open 만으로 부족한가

저작권 회수 — 데이터 출처가 사후에 license 변경 또는 takedown 요청. 모델 안에 그 데이터의 영향이 남아 있음.
개인정보 회수 (right to be forgotten) — GDPR, EU AI Act. 특정 사용자의 데이터를 학습에서 제거할 의무.
유해 데이터 제거 — 학습 후 발견된 toxic / biased subset 의 사후 제거.
commercial vs research split — 같은 데이터의 일부 만 commercial 사용 허용. flexible 한 변형 (variant) 학습 필요.

법적 요구의 시간 척도

EU AI Act, GDPR 의 압력은 "학습 후 N개월 안에 제거 요청을 처리할 수 있어야 한다"의 형태. 처음부터 재학습 (수개월 + 수백만 달러) 은 사실상 불가능. flexibility 가 법적 compliance 의 prerequisite.

§ 03flexible data use 의 의미· Modular data

data 를 module 처럼 다룬다 — 빼낼 수 있는 단위

FlexOlmo 의 핵심 기술 idea — data 를 module 단위로 학습. 한 module 의 영향이 모델 안의 한 부분에 localized 되도록. 그 부분을 빼면 그 module 의 영향이 빠진다.

구체적 mechanism (paper / 강의의 일반적 형태, 정확한 디테일은 paper 확인 필요).

data partition — 학습 corpus 를 의미적/소스별로 partition. 예: web, books, code, news, scientific.
expert assignment — 각 partition 이 별도의 expert (또는 LoRA module, sub-network) 를 학습. mixture-of-experts 와 같은 가족.
shared backbone — 공통 backbone 은 모든 partition 으로 학습. 일반 능력 (어휘, 문법, 일반 지식).
data removal — 한 partition 을 제거하려면 그 expert 를 모델에서 분리. backbone 은 유지 — 부분 unlearn.

이론적 한계

완벽한 unlearn 은 불가능 — backbone 에 영향이 일부 남음. "approximate unlearn" 이 현실. FlexOlmo 의 measure — unlearn 후 모델이 그 데이터의 정보를 얼마나 retain 하는지의 정량화.

FIG · FlexOlmo 의 modular structureshared + expert

MoE 와의 관계

구조적으로 mixture-of-experts (MoE) 와 같다 — Mixtral, DeepSeek-MoE 의 형태. 그러나 routing 의 의미가 다르다. MoE 의 routing 은 token 마다 학습된 router 가 결정. FlexOlmo 의 expert 는 data partition 자체로 정해짐. 학습 시 routing 이 supervised — “이 token 은 web partition 에서 왔으니 web expert 로”.

이 차이가 핵심 — supervised routing 덕분에 expert ↔ partition 의 mapping 이 명시적. unlearn 이 가능한 이유.

§ 04학습 파이프라인· FlexOlmo training

data → partition → expert → eval 의 전체 흐름

FlexOlmo 학습의 단계별 흐름. OLMo 의 학습 framework 와 어디가 같고 어디가 다른가.

FIG · FlexOlmo 학습 5 단계data → expert

01 data partitioning corpus 를 source/license/topic 단위로 split. 각 partition 에 ID 부여 data prep

02 backbone pretrain 모든 partition 데이터로 backbone 만 학습. 일반 능력 build-up phase A

03 expert specialization 각 partition 에 해당하는 expert head 만 학습. backbone freeze 또는 low-LR phase B

04 joint fine-tune backbone + experts 를 end-to-end. data partition tag 가 routing 에 들어감 phase C

05 eval + opt-out test 일부 expert 제거 후 모델이 그 데이터의 정보를 얼마나 retain 하는지 측정 eval

phase A + B + C 의 분리가 핵심 — backbone 의 일반 능력과 expert 의 특화 능력을 분리해 학습. 사후 제거 시 phase C 의 일부만 영향.

학습 cost

Olmo 같은 baseline 대비 cost 비교 (paper 의 수치는 확인 필요).

training compute — 비슷하거나 +10-20% (expert 가 추가 parameter 라).
inference compute — MoE 와 같이 active parameter 만 사용. dense 모델보다 빠를 수 있음.
opt-out cost — expert 한 개 제거는 거의 0 cost. backbone 도 retrain 하면 일부 비용 (그러나 처음부터 다시 학습보다 훨씬 적음).

trade-off — 일반화 vs 분리

completely separated experts → unlearn 이 깨끗. 그러나 expert 들이 서로 도움이 안 됨, 일반화 ↓. shared backbone 의 비율이 trade-off knob — 너무 크면 unlearn 비효율, 너무 작으면 일반화 비효율. paper 의 ablation 이 이 sweet spot 을 찾는 부분.

§ 05평가 결과· Benchmark vs Olmo

"flexibility 의 비용은 얼마인가" — 표준 벤치마크의 시점

FlexOlmo 의 자연스러운 question — flexibility 를 위해 일반 능력을 얼마나 희생하는가? paper 의 결과는 "거의 없음" (확인 필요).

표준 벤치마크

MMLU, HellaSwag, ARC

FlexOlmo 가 OLMo 와 같은 token 수 학습에서 ±1% 안. expert 구조의 추가 capacity 가 일부 분야에서 유리.

unlearn metric

membership inference attack

expert 제거 후 그 partition 의 데이터에 대해 모델의 confidence / perplexity 가 얼마나 떨어지는지. 처음부터 학습 안 한 baseline 과 거의 같음 — 진짜 unlearn 이 일어남.

retention metric

backbone 잔류

expert 제거 후에도 backbone 에 약간의 retain 정보가 남음. 이게 “approximate unlearn” 의 한계 — 그러나 standard fine-tune unlearn 보다 훨씬 적음.

downstream

application별 평가

code, math, multilingual 같은 specialized 평가에서 expert 별로 다른 강점. 각 expert 가 자기 partition 의 패턴을 잘 잡음.

"flexibility 가 free lunch 는 아니지만 — 표준 벤치마크에서 ±1% 의 비용으로 사후 unlearn 가능성을 얻는다."paper Abstract 재구성

§ 06reproducibility· Full stack openness

weights 만 풀어서는 같은 모델 다시 만들 수 없다

OLMo 시리즈의 입장에서 reproducibility 의 spec — 다음 모두를 공개해야 누군가가 같은 모델을 다시 만들 수 있다.

data — 학습에 쓴 모든 데이터. partition 단위까지. Dolma corpus 같은 형태.
data preprocessing code — tokenizer, filtering, deduplication. seed 까지.
training code — 분산 학습 framework. hyperparameter 전체.
checkpoint cadence — 마지막만이 아니라 중간 step 도 공개. learning curve 의 검증 가능.
eval suite — eval 에 쓴 코드와 prompt template. eval 결과 reproducible.
hardware spec + log — exact GPU type, count, schedule. timing 의 reproducibility.

왜 이게 중요한가

같은 모델을 다시 만들 수 없으면 — 학습의 ablation 도, 안전성 검증도, 의도되지 않은 행동 분석도 third-party 가 할 수 없다. 개방성은 기술이 아니라 governance. open LM community 의 큰 collective work.

FlexOlmo 는 OLMo 의 reproducibility 표준에 data partition manifest 를 추가한다 — 어느 데이터가 어느 expert 에 들어갔는지의 명시적 매핑. 사후 opt-out 시 어느 expert 가 영향받는지 추적 가능.

§ 07라이선싱· Data ↔ weight

학습 데이터의 license 와 모델 weight 의 license 의 관계

"AI 모델의 라이선싱" 은 data, code, weight 셋이 다르게 흘러갈 수 있다는 점에서 복잡. FlexOlmo 의 입장은 — “데이터의 license 는 expert 단위로 추적해, 적절한 commercial 사용 가능 변형을 빌드한다”.

FIG · 라이선스 흐름data → weight

레이어일반FlexOlmo 의 입장예

학습 데이터다양partition 별 명시CC-BY · MIT · ND

학습 코드ApacheApache 2.0표준

backbone weight다양commercial 친화적Apache 2.0

expert weightN/Adata partition 따름non-comm 가능

전체 모델 (조합)제일 strict최저 공통 분모자동 결정

FlexOlmo 의 unique 한 형태 — expert 별로 license 가 다름. 사용자가 "commercial-only" 변형이 필요하면 commercial-friendly expert 만 결합. 같은 모델의 여러 변종이 자연스럽게 생김.

실전 의미

같은 FlexOlmo 가 두 가지 distribution 을 가질 수 있다 — (a) 모든 expert 포함, research only, (b) commercial-friendly expert 만, commercial OK. 사용자는 자기 use case 에 맞는 변형을 선택. 이 구조 자체가 "flexible data use" 의 의미.

§ 08채택 사례· Downstream

FlexOlmo 의 시점에서 누가 어떻게 활용하는가

FlexOlmo 가 2025 시점에서 새로운 모델인 만큼, 채택은 초기. 강의에서 언급될 수 있는 / 자연스러운 사례들 (확인 필요).

academic research — full reproducibility 가 중요한 학술 환경. data partition 가 ablation 의 dimension 으로 자연스럽게 들어감.
regulated industry — 의료, 법률, 금융. 사후 데이터 회수 가능성이 compliance 의 prerequisite 가 되는 도메인.
multilingual — 각 언어를 expert 로. 일부 언어만 commercial license, 나머지는 research only 같은 hybrid.
continual learning — 새 데이터 partition 을 새 expert 로 추가. backbone 은 그대로. incremental learning 의 cleaner 한 framework.
specialized derivatives — code expert 만 떼서 code-only 모델, scientific expert 만 떼서 science-only 모델. 같은 원본에서 여러 specialized model.

"한 모델이 여러 모델이 된다 — 같은 backbone 위에 다른 expert 조합으로. modular 의 진짜 power 는 여기."학습 노트 · §8

§ 09다음 방향· Unlearning frontier

flexibility 의 frontier — 어디까지 갈 수 있는가

true unlearning — backbone 의 잔류 정보 까지 제거. 이론적으로는 어렵지만 frontier research.
fine-grained partition — 현재는 source-level partition. document-level, token-level partition 으로 더 정교한 unlearn 가능성.
delegated training — 데이터 contributor 가 자기 expert 를 직접 학습해 backbone 에 plug-in. federated learning 와 같은 가족.
privacy-preserving training — differential privacy + flexible expert 의 합성. 이론적/공학적 question.
governance protocol — opt-out 요청을 누가 받고 누가 검증하고 누가 적용하는가. 기술 외 framework.

큰 그림

FlexOlmo 는 단일 paper 가 아니라 open LM 의 governance 표준의 시작. 5년 후 “open LM” 의 기본 자격에 “opt-out 가능” 이 들어갈 가능성. EU AI Act 같은 규제가 이 흐름을 가속화.

§ 10기억할 메모와 코드· Key takeaways

다시 열었을 때 5분 안에 잡혀야 할 것

openness 6 단계

closed → weight-restricted → weight-open → code-open → fully-open → flexible-open. FlexOlmo 는 마지막.

data flexibility

사후 데이터 제거 가능. EU AI Act 의 right to be forgotten 의 prerequisite.

modular data

data → partition → expert. supervised routing 으로 mapping 명시화.

3-phase 학습

backbone pretrain → expert specialization → joint fine-tune.

approximate unlearn

expert 제거 거의 깨끗, backbone 에 약간 잔류. 완벽 아님.

flexibility 비용

표준 벤치마크 ±1% 안. 사실상 free.

expert 별 license

commercial-only 변형 가능. 같은 backbone 의 여러 distribution.

reproducibility 표준

data + code + weight + log + ckpt + eval 모두 공개. data partition manifest 추가.

YouTube youtube.com/watch?v=KorF7Xpozhg

Slides ScaleML_FlexOlmo.pdf

Repo gpu-mode/lectures/lecture_071

관련 OLMo (AI2), Pythia (EleutherAI), Dolma corpus — fully-open 의 가족

손에 새기기 — 실습 시퀀스

OLMo / FlexOlmo 직접 다운로드 — Hugging Face 에서 weight + tokenizer + 학습 데이터 manifest 까지 다운. 실제 partition 의 모양 직접 확인.
data partition 분석 — Dolma corpus 의 source distribution 시각화. partition 을 어떻게 나눠야 자연스러운지 직접 시도.
expert 제거 실험 — FlexOlmo 의 expert 한 개를 mask out 한 inference. 그 partition 의 평가 데이터에 대한 perplexity 변화 측정.
membership inference — 제거 전후의 모델에 대해 그 partition 의 데이터로 MIA 공격. unlearn 의 정량적 측정.
baseline 비교 — 같은 size 의 OLMo 와 FlexOlmo 를 MMLU 등에서 비교. flexibility 의 비용 직접 측정.
data manifest 작성 — 자기 학습 데이터를 partition 단위로 명시. license, source, opt-out path 까지. open LM 의 governance hygiene.

§ 11다른 강의로 이어지는 길· Connections

open LM / data governance / system 의 가족

FlexOlmo 는 ScaleML 시리즈 안에서 data layer 의 핵심. system / inference / quantization 강의들의 데이터 거버넌스 기준점.

L072

Long-context modeling

ScaleML 시리즈 동료. inference 측면

L073

Quantization in LMs

ScaleML 시리즈 동료. compression 측면

L069

Quartet 4-bit training

학습 효율 측면 — flexible 데이터와 직교 dimension

L007

Advanced quantization

open weight 위 추가 압축

L028

Liger Kernel

학습 kernel 최적화 — 같은 학습 framework 의 시스템 레이어

L066

Game Arena

eval reproducibility 의 같은 가족 question

§ 12열린 질문· Open questions

이 노트가 의도적으로 비워둔 자리들

FlexOlmo 의 정확한 architecture — 본문은 “MoE 와 같은 가족” 의 일반화된 표현. paper 가 publish 되면 정확한 구조 (expert 수, sharing ratio, routing 방식) 로 교체.
벤치마크 수치 — “±1% 안” 은 paper Abstract 의 정성 패턴 추정. 정확한 표는 paper §5 Tables 확인 필요.
opt-out 요청 처리 protocol — 기술적 mechanism 외의 governance side. 강의에서 언급됐는지 확인 필요.
OLMo 2 / FlexOlmo 의 release timing — AI2 의 release schedule 추적 필요.
commercial 채택 사례 — §08 의 사례는 일반 추정. 실 케이스는 강의 영상 / paper 확인 필요.

검증 메모

본문은 GPU Mode 노트의 partial summary + Sewon Min 의 OLMo 시리즈 저술 + 일반 fully-open LM 도메인 지식을 합성한 것. paper 자체의 정확한 표현이 필요한 곳은 영상 transcript 또는 publish 된 arXiv 가 가용해진 후 교체 권장.

← Lecture 070 PCCL Fault-tolerant collectives Lecture 072 → Efficient Long-Context Modeling — Guangxuan Xiao