FlexOlmo — Open Language Models for Flexible Data Use
"open language model" 은 weight 만 공개하는 게 아니다. 학습 데이터, 데이터 거버넌스, 사후 데이터 제거 (opt-out, takedown), 라이선스 추적까지가 전부 풀려야 한다. Sewon Min 의 FlexOlmo 는 — Olmo 시리즈의 다음 세대 — 데이터를 모듈화 가능한 단위로 다루는 학습 framework. 데이터 컨트리뷰터가 자기 데이터를 학습에서 빼고 싶을 때 모델을 처음부터 다시 학습하지 않고도 그 영향을 제거할 수 있는 구조.
open LMdata governanceopt-outFlexOlmoOlmo 2data unlearninglicensingreproducibility
"open language model" 의 정의가 2024-2025 사이에 본격적으로 쪼개지고 있다. weight 공개 (open-weight) vs 학습 데이터 + 코드 + 모델 모두 공개 (fully open). Llama 는 weight, Olmo 는 fully open 의 표준. 그러나 fully open 도 새 question 에 부딪힌다 — 한 번 공개된 데이터의 사용을 사후에 제어할 수 있는가?
강의의 출발 question 셋.
open LM 의 진짜 약속이 무엇인가 — weight 공개만으로는 reproducible 도 trustworthy 도 아니다. 학습 데이터가 같이 풀려야 한다.
data contributor 가 사후에 자기 데이터 제거를 요청하면 어떻게 하는가 — 처음부터 다시 학습하면 수개월 + 수억 원. 다른 mechanism 이 필요.
flexible data use 의 framework 가 가능한가 — FlexOlmo 의 답: 데이터를 modular 단위로 다루고, expert mixture 로 학습하면 부분 제거가 가능.
강의의 인지적 frame
"open" 은 단일 axis 가 아니라 multi-axis다. weight, 학습 데이터, 학습 코드, 평가 데이터, log, intermediate checkpoint, opt-out mechanism — 각자 다른 axis. FlexOlmo 는 그 중 가장 어려운 “data flexibility” 축에 서 있다.
"weight 공개는 시작일 뿐이다 — 학습 데이터가 비공개라면 reproducibility 도 책임도 부족하다."강의 §1 재구성 · Sewon Min
§ 02open LM 의 데이터 거버넌스· What "open" really means
"open" 의 6 단계 — 어디서 어디까지 풀려야 하는가
open LM 의 spectrum. 같은 “open” 단어를 쓰는 모델들이 사실 매우 다른 단계에 있다.
FIG · openness 6 단계weight only → fully reproducible
단계weight코드데이터opt-out
closed (GPT-4)××××
weight-restricted (Llama)제한×××
weight-open (Mistral)○×××
code-open (Llama 3 weights+code)○○××
fully-open (OLMo, Pythia)○○○×
flexible-open (FlexOlmo)○○○○
FlexOlmo 의 unique 한 axis 는 opt-out. 이전까지의 fully-open (OLMo, Pythia) 는 데이터까지 공개하지만 사후 제거는 다루지 않음. FlexOlmo 는 그 layer 를 추가.
왜 fully-open 만으로 부족한가
저작권 회수 — 데이터 출처가 사후에 license 변경 또는 takedown 요청. 모델 안에 그 데이터의 영향이 남아 있음.
개인정보 회수 (right to be forgotten) — GDPR, EU AI Act. 특정 사용자의 데이터를 학습에서 제거할 의무.
유해 데이터 제거 — 학습 후 발견된 toxic / biased subset 의 사후 제거.
commercial vs research split — 같은 데이터의 일부 만 commercial 사용 허용. flexible 한 변형 (variant) 학습 필요.
법적 요구의 시간 척도
EU AI Act, GDPR 의 압력은 "학습 후 N개월 안에 제거 요청을 처리할 수 있어야 한다"의 형태. 처음부터 재학습 (수개월 + 수백만 달러) 은 사실상 불가능. flexibility 가 법적 compliance 의 prerequisite.
§ 03flexible data use 의 의미· Modular data
data 를 module 처럼 다룬다 — 빼낼 수 있는 단위
FlexOlmo 의 핵심 기술 idea — data 를 module 단위로 학습. 한 module 의 영향이 모델 안의 한 부분에 localized 되도록. 그 부분을 빼면 그 module 의 영향이 빠진다.
구체적 mechanism (paper / 강의의 일반적 형태, 정확한 디테일은 paper 확인 필요).
data partition — 학습 corpus 를 의미적/소스별로 partition. 예: web, books, code, news, scientific.
expert assignment — 각 partition 이 별도의 expert (또는 LoRA module, sub-network) 를 학습. mixture-of-experts 와 같은 가족.
shared backbone — 공통 backbone 은 모든 partition 으로 학습. 일반 능력 (어휘, 문법, 일반 지식).
data removal — 한 partition 을 제거하려면 그 expert 를 모델에서 분리. backbone 은 유지 — 부분 unlearn.
이론적 한계
완벽한 unlearn 은 불가능 — backbone 에 영향이 일부 남음. "approximate unlearn" 이 현실. FlexOlmo 의 measure — unlearn 후 모델이 그 데이터의 정보를 얼마나 retain 하는지의 정량화.
FIG · FlexOlmo 의 modular structureshared + expert
MoE 와의 관계
구조적으로 mixture-of-experts (MoE) 와 같다 — Mixtral, DeepSeek-MoE 의 형태. 그러나 routing 의 의미가 다르다. MoE 의 routing 은 token 마다 학습된 router 가 결정. FlexOlmo 의 expert 는 data partition 자체로 정해짐. 학습 시 routing 이 supervised — “이 token 은 web partition 에서 왔으니 web expert 로”.
이 차이가 핵심 — supervised routing 덕분에 expert ↔ partition 의 mapping 이 명시적. unlearn 이 가능한 이유.
§ 04학습 파이프라인· FlexOlmo training
data → partition → expert → eval 의 전체 흐름
FlexOlmo 학습의 단계별 흐름. OLMo 의 학습 framework 와 어디가 같고 어디가 다른가.
FIG · FlexOlmo 학습 5 단계data → expert
01data partitioning corpus 를 source/license/topic 단위로 split. 각 partition 에 ID 부여data prep
02backbone pretrain 모든 partition 데이터로 backbone 만 학습. 일반 능력 build-upphase A
03expert specialization 각 partition 에 해당하는 expert head 만 학습. backbone freeze 또는 low-LRphase B
04joint fine-tune backbone + experts 를 end-to-end. data partition tag 가 routing 에 들어감phase C
05eval + opt-out test 일부 expert 제거 후 모델이 그 데이터의 정보를 얼마나 retain 하는지 측정eval
phase A + B + C 의 분리가 핵심 — backbone 의 일반 능력과 expert 의 특화 능력을 분리해 학습. 사후 제거 시 phase C 의 일부만 영향.
학습 cost
Olmo 같은 baseline 대비 cost 비교 (paper 의 수치는 확인 필요).
training compute — 비슷하거나 +10-20% (expert 가 추가 parameter 라).
inference compute — MoE 와 같이 active parameter 만 사용. dense 모델보다 빠를 수 있음.
opt-out cost — expert 한 개 제거는 거의 0 cost. backbone 도 retrain 하면 일부 비용 (그러나 처음부터 다시 학습보다 훨씬 적음).
trade-off — 일반화 vs 분리
completely separated experts → unlearn 이 깨끗. 그러나 expert 들이 서로 도움이 안 됨, 일반화 ↓. shared backbone 의 비율이 trade-off knob — 너무 크면 unlearn 비효율, 너무 작으면 일반화 비효율. paper 의 ablation 이 이 sweet spot 을 찾는 부분.
§ 05평가 결과· Benchmark vs Olmo
"flexibility 의 비용은 얼마인가" — 표준 벤치마크의 시점
FlexOlmo 의 자연스러운 question — flexibility 를 위해 일반 능력을 얼마나 희생하는가? paper 의 결과는 "거의 없음" (확인 필요).
표준 벤치마크
MMLU, HellaSwag, ARC
FlexOlmo 가 OLMo 와 같은 token 수 학습에서 ±1% 안. expert 구조의 추가 capacity 가 일부 분야에서 유리.
unlearn metric
membership inference attack
expert 제거 후 그 partition 의 데이터에 대해 모델의 confidence / perplexity 가 얼마나 떨어지는지. 처음부터 학습 안 한 baseline 과 거의 같음 — 진짜 unlearn 이 일어남.
retention metric
backbone 잔류
expert 제거 후에도 backbone 에 약간의 retain 정보가 남음. 이게 “approximate unlearn” 의 한계 — 그러나 standard fine-tune unlearn 보다 훨씬 적음.
downstream
application별 평가
code, math, multilingual 같은 specialized 평가에서 expert 별로 다른 강점. 각 expert 가 자기 partition 의 패턴을 잘 잡음.
"flexibility 가 free lunch 는 아니지만 — 표준 벤치마크에서 ±1% 의 비용으로 사후 unlearn 가능성을 얻는다."paper Abstract 재구성
§ 06reproducibility· Full stack openness
weights 만 풀어서는 같은 모델 다시 만들 수 없다
OLMo 시리즈의 입장에서 reproducibility 의 spec — 다음 모두를 공개해야 누군가가 같은 모델을 다시 만들 수 있다.
data — 학습에 쓴 모든 데이터. partition 단위까지. Dolma corpus 같은 형태.
data preprocessing code — tokenizer, filtering, deduplication. seed 까지.
training code — 분산 학습 framework. hyperparameter 전체.
checkpoint cadence — 마지막만이 아니라 중간 step 도 공개. learning curve 의 검증 가능.
eval suite — eval 에 쓴 코드와 prompt template. eval 결과 reproducible.
같은 모델을 다시 만들 수 없으면 — 학습의 ablation 도, 안전성 검증도, 의도되지 않은 행동 분석도 third-party 가 할 수 없다. 개방성은 기술이 아니라 governance. open LM community 의 큰 collective work.
FlexOlmo 는 OLMo 의 reproducibility 표준에 data partition manifest 를 추가한다 — 어느 데이터가 어느 expert 에 들어갔는지의 명시적 매핑. 사후 opt-out 시 어느 expert 가 영향받는지 추적 가능.
§ 07라이선싱· Data ↔ weight
학습 데이터의 license 와 모델 weight 의 license 의 관계
"AI 모델의 라이선싱" 은 data, code, weight 셋이 다르게 흘러갈 수 있다는 점에서 복잡. FlexOlmo 의 입장은 — “데이터의 license 는 expert 단위로 추적해, 적절한 commercial 사용 가능 변형을 빌드한다”.
FIG · 라이선스 흐름data → weight
레이어일반FlexOlmo 의 입장예
학습 데이터다양partition 별 명시CC-BY · MIT · ND
학습 코드ApacheApache 2.0표준
backbone weight다양commercial 친화적Apache 2.0
expert weightN/Adata partition 따름non-comm 가능
전체 모델 (조합)제일 strict최저 공통 분모자동 결정
FlexOlmo 의 unique 한 형태 — expert 별로 license 가 다름. 사용자가 "commercial-only" 변형이 필요하면 commercial-friendly expert 만 결합. 같은 모델의 여러 변종이 자연스럽게 생김.
실전 의미
같은 FlexOlmo 가 두 가지 distribution 을 가질 수 있다 — (a) 모든 expert 포함, research only, (b) commercial-friendly expert 만, commercial OK. 사용자는 자기 use case 에 맞는 변형을 선택. 이 구조 자체가 "flexible data use" 의 의미.
§ 08채택 사례· Downstream
FlexOlmo 의 시점에서 누가 어떻게 활용하는가
FlexOlmo 가 2025 시점에서 새로운 모델인 만큼, 채택은 초기. 강의에서 언급될 수 있는 / 자연스러운 사례들 (확인 필요).
academic research — full reproducibility 가 중요한 학술 환경. data partition 가 ablation 의 dimension 으로 자연스럽게 들어감.
regulated industry — 의료, 법률, 금융. 사후 데이터 회수 가능성이 compliance 의 prerequisite 가 되는 도메인.
multilingual — 각 언어를 expert 로. 일부 언어만 commercial license, 나머지는 research only 같은 hybrid.
continual learning — 새 데이터 partition 을 새 expert 로 추가. backbone 은 그대로. incremental learning 의 cleaner 한 framework.
specialized derivatives — code expert 만 떼서 code-only 모델, scientific expert 만 떼서 science-only 모델. 같은 원본에서 여러 specialized model.
"한 모델이 여러 모델이 된다 — 같은 backbone 위에 다른 expert 조합으로. modular 의 진짜 power 는 여기."학습 노트 · §8
§ 09다음 방향· Unlearning frontier
flexibility 의 frontier — 어디까지 갈 수 있는가
true unlearning — backbone 의 잔류 정보 까지 제거. 이론적으로는 어렵지만 frontier research.
fine-grained partition — 현재는 source-level partition. document-level, token-level partition 으로 더 정교한 unlearn 가능성.
delegated training — 데이터 contributor 가 자기 expert 를 직접 학습해 backbone 에 plug-in. federated learning 와 같은 가족.
privacy-preserving training — differential privacy + flexible expert 의 합성. 이론적/공학적 question.
governance protocol — opt-out 요청을 누가 받고 누가 검증하고 누가 적용하는가. 기술 외 framework.
큰 그림
FlexOlmo 는 단일 paper 가 아니라 open LM 의 governance 표준의 시작. 5년 후 “open LM” 의 기본 자격에 “opt-out 가능” 이 들어갈 가능성. EU AI Act 같은 규제가 이 흐름을 가속화.
FlexOlmo 의 정확한 architecture — 본문은 “MoE 와 같은 가족” 의 일반화된 표현. paper 가 publish 되면 정확한 구조 (expert 수, sharing ratio, routing 방식) 로 교체.
벤치마크 수치 — “±1% 안” 은 paper Abstract 의 정성 패턴 추정. 정확한 표는 paper §5 Tables 확인 필요.
opt-out 요청 처리 protocol — 기술적 mechanism 외의 governance side. 강의에서 언급됐는지 확인 필요.
OLMo 2 / FlexOlmo 의 release timing — AI2 의 release schedule 추적 필요.
commercial 채택 사례 — §08 의 사례는 일반 추정. 실 케이스는 강의 영상 / paper 확인 필요.
검증 메모
본문은 GPU Mode 노트의 partial summary + Sewon Min 의 OLMo 시리즈 저술 + 일반 fully-open LM 도메인 지식을 합성한 것. paper 자체의 정확한 표현이 필요한 곳은 영상 transcript 또는 publish 된 arXiv 가 가용해진 후 교체 권장.