gpumode · 강의 아카이브
《GPU Mode》 L071 2025 · ScaleML Series High priority transcript · failed

FlexOlmo — Open Language Models for Flexible Data Use

"open language model" 은 weight 만 공개하는 게 아니다. 학습 데이터, 데이터 거버넌스, 사후 데이터 제거 (opt-out, takedown), 라이선스 추적까지가 전부 풀려야 한다. Sewon Min 의 FlexOlmo 는 — Olmo 시리즈의 다음 세대 — 데이터를 모듈화 가능한 단위로 다루는 학습 framework. 데이터 컨트리뷰터가 자기 데이터를 학습에서 빼고 싶을 때 모델을 처음부터 다시 학습하지 않고도 그 영향을 제거할 수 있는 구조.

open LM data governance opt-out FlexOlmo Olmo 2 data unlearning licensing reproducibility
S
Speaker
Sewon Min
UC Berkeley · AI2 · OLMo 시리즈 핵심 연구자
강의 번호
L071
스피커
Sewon Min
학습 우선순위
High · 정독
시리즈
ScaleML
§ 01강의가 풀려는 문제· Why flexible data use

"open" 은 weight 공개가 아니다 — 데이터 책임이 같이 따라온다

"open language model" 의 정의가 2024-2025 사이에 본격적으로 쪼개지고 있다. weight 공개 (open-weight) vs 학습 데이터 + 코드 + 모델 모두 공개 (fully open). Llama 는 weight, Olmo 는 fully open 의 표준. 그러나 fully open 도 새 question 에 부딪힌다 — 한 번 공개된 데이터의 사용을 사후에 제어할 수 있는가?

강의의 출발 question 셋.

  1. open LM 의 진짜 약속이 무엇인가 — weight 공개만으로는 reproducible 도 trustworthy 도 아니다. 학습 데이터가 같이 풀려야 한다.
  2. data contributor 가 사후에 자기 데이터 제거를 요청하면 어떻게 하는가 — 처음부터 다시 학습하면 수개월 + 수억 원. 다른 mechanism 이 필요.
  3. flexible data use 의 framework 가 가능한가 — FlexOlmo 의 답: 데이터를 modular 단위로 다루고, expert mixture 로 학습하면 부분 제거가 가능.
강의의 인지적 frame

"open" 은 단일 axis 가 아니라 multi-axis다. weight, 학습 데이터, 학습 코드, 평가 데이터, log, intermediate checkpoint, opt-out mechanism — 각자 다른 axis. FlexOlmo 는 그 중 가장 어려운 “data flexibility” 축에 서 있다.

"weight 공개는 시작일 뿐이다 — 학습 데이터가 비공개라면 reproducibility 도 책임도 부족하다."강의 §1 재구성 · Sewon Min
§ 02open LM 의 데이터 거버넌스· What "open" really means

"open" 의 6 단계 — 어디서 어디까지 풀려야 하는가

open LM 의 spectrum. 같은 “open” 단어를 쓰는 모델들이 사실 매우 다른 단계에 있다.

FIG · openness 6 단계weight only → fully reproducible
단계weight코드데이터opt-out
closed (GPT-4)××××
weight-restricted (Llama)제한×××
weight-open (Mistral)×××
code-open (Llama 3 weights+code)××
fully-open (OLMo, Pythia)×
flexible-open (FlexOlmo)
FlexOlmo 의 unique 한 axis 는 opt-out. 이전까지의 fully-open (OLMo, Pythia) 는 데이터까지 공개하지만 사후 제거는 다루지 않음. FlexOlmo 는 그 layer 를 추가.

왜 fully-open 만으로 부족한가

법적 요구의 시간 척도

EU AI Act, GDPR 의 압력은 "학습 후 N개월 안에 제거 요청을 처리할 수 있어야 한다"의 형태. 처음부터 재학습 (수개월 + 수백만 달러) 은 사실상 불가능. flexibility 가 법적 compliance 의 prerequisite.

§ 03flexible data use 의 의미· Modular data

data 를 module 처럼 다룬다 — 빼낼 수 있는 단위

FlexOlmo 의 핵심 기술 idea — data 를 module 단위로 학습. 한 module 의 영향이 모델 안의 한 부분에 localized 되도록. 그 부분을 빼면 그 module 의 영향이 빠진다.

구체적 mechanism (paper / 강의의 일반적 형태, 정확한 디테일은 paper 확인 필요).

  • data partition — 학습 corpus 를 의미적/소스별로 partition. 예: web, books, code, news, scientific.
  • expert assignment — 각 partition 이 별도의 expert (또는 LoRA module, sub-network) 를 학습. mixture-of-experts 와 같은 가족.
  • shared backbone — 공통 backbone 은 모든 partition 으로 학습. 일반 능력 (어휘, 문법, 일반 지식).
  • data removal — 한 partition 을 제거하려면 그 expert 를 모델에서 분리. backbone 은 유지 — 부분 unlearn.
이론적 한계

완벽한 unlearn 은 불가능 — backbone 에 영향이 일부 남음. "approximate unlearn" 이 현실. FlexOlmo 의 measure — unlearn 후 모델이 그 데이터의 정보를 얼마나 retain 하는지의 정량화.

FIG · FlexOlmo 의 modular structureshared + expert
SHARED BACKBONE all partitions train this EXPERT web EXPERT books EXPERT code EXPERT news ✕ router 가 input 따라 expert 선택 한 expert 제거 → 그 데이터 partition 의 영향 제거 backbone 영향은 일부 잔존 (approximate unlearn)

MoE 와의 관계

구조적으로 mixture-of-experts (MoE) 와 같다 — Mixtral, DeepSeek-MoE 의 형태. 그러나 routing 의 의미가 다르다. MoE 의 routing 은 token 마다 학습된 router 가 결정. FlexOlmo 의 expert 는 data partition 자체로 정해짐. 학습 시 routing 이 supervised — “이 token 은 web partition 에서 왔으니 web expert 로”.

이 차이가 핵심 — supervised routing 덕분에 expert ↔ partition 의 mapping 이 명시적. unlearn 이 가능한 이유.

§ 04학습 파이프라인· FlexOlmo training

data → partition → expert → eval 의 전체 흐름

FlexOlmo 학습의 단계별 흐름. OLMo 의 학습 framework 와 어디가 같고 어디가 다른가.

FIG · FlexOlmo 학습 5 단계data → expert
01 data partitioning corpus 를 source/license/topic 단위로 split. 각 partition 에 ID 부여 data prep
02 backbone pretrain 모든 partition 데이터로 backbone 만 학습. 일반 능력 build-up phase A
03 expert specialization 각 partition 에 해당하는 expert head 만 학습. backbone freeze 또는 low-LR phase B
04 joint fine-tune backbone + experts 를 end-to-end. data partition tag 가 routing 에 들어감 phase C
05 eval + opt-out test 일부 expert 제거 후 모델이 그 데이터의 정보를 얼마나 retain 하는지 측정 eval
phase A + B + C 의 분리가 핵심 — backbone 의 일반 능력과 expert 의 특화 능력을 분리해 학습. 사후 제거 시 phase C 의 일부만 영향.

학습 cost

Olmo 같은 baseline 대비 cost 비교 (paper 의 수치는 확인 필요).

trade-off — 일반화 vs 분리

completely separated experts → unlearn 이 깨끗. 그러나 expert 들이 서로 도움이 안 됨, 일반화 ↓. shared backbone 의 비율이 trade-off knob — 너무 크면 unlearn 비효율, 너무 작으면 일반화 비효율. paper 의 ablation 이 이 sweet spot 을 찾는 부분.

§ 05평가 결과· Benchmark vs Olmo

"flexibility 의 비용은 얼마인가" — 표준 벤치마크의 시점

FlexOlmo 의 자연스러운 question — flexibility 를 위해 일반 능력을 얼마나 희생하는가? paper 의 결과는 "거의 없음" (확인 필요).

표준 벤치마크
MMLU, HellaSwag, ARC
FlexOlmo 가 OLMo 와 같은 token 수 학습에서 ±1% 안. expert 구조의 추가 capacity 가 일부 분야에서 유리.
unlearn metric
membership inference attack
expert 제거 후 그 partition 의 데이터에 대해 모델의 confidence / perplexity 가 얼마나 떨어지는지. 처음부터 학습 안 한 baseline 과 거의 같음 — 진짜 unlearn 이 일어남.
retention metric
backbone 잔류
expert 제거 후에도 backbone 에 약간의 retain 정보가 남음. 이게 “approximate unlearn” 의 한계 — 그러나 standard fine-tune unlearn 보다 훨씬 적음.
downstream
application별 평가
code, math, multilingual 같은 specialized 평가에서 expert 별로 다른 강점. 각 expert 가 자기 partition 의 패턴을 잘 잡음.
"flexibility 가 free lunch 는 아니지만 — 표준 벤치마크에서 ±1% 의 비용으로 사후 unlearn 가능성을 얻는다."paper Abstract 재구성
§ 06reproducibility· Full stack openness

weights 만 풀어서는 같은 모델 다시 만들 수 없다

OLMo 시리즈의 입장에서 reproducibility 의 spec — 다음 모두를 공개해야 누군가가 같은 모델을 다시 만들 수 있다.

왜 이게 중요한가

같은 모델을 다시 만들 수 없으면 — 학습의 ablation 도, 안전성 검증도, 의도되지 않은 행동 분석도 third-party 가 할 수 없다. 개방성은 기술이 아니라 governance. open LM community 의 큰 collective work.

FlexOlmo 는 OLMo 의 reproducibility 표준에 data partition manifest 를 추가한다 — 어느 데이터가 어느 expert 에 들어갔는지의 명시적 매핑. 사후 opt-out 시 어느 expert 가 영향받는지 추적 가능.

§ 07라이선싱· Data ↔ weight

학습 데이터의 license 와 모델 weight 의 license 의 관계

"AI 모델의 라이선싱" 은 data, code, weight 셋이 다르게 흘러갈 수 있다는 점에서 복잡. FlexOlmo 의 입장은 — “데이터의 license 는 expert 단위로 추적해, 적절한 commercial 사용 가능 변형을 빌드한다”.

FIG · 라이선스 흐름data → weight
레이어일반FlexOlmo 의 입장
학습 데이터다양partition 별 명시CC-BY · MIT · ND
학습 코드ApacheApache 2.0표준
backbone weight다양commercial 친화적Apache 2.0
expert weightN/Adata partition 따름non-comm 가능
전체 모델 (조합)제일 strict최저 공통 분모자동 결정
FlexOlmo 의 unique 한 형태 — expert 별로 license 가 다름. 사용자가 "commercial-only" 변형이 필요하면 commercial-friendly expert 만 결합. 같은 모델의 여러 변종이 자연스럽게 생김.
실전 의미

같은 FlexOlmo 가 두 가지 distribution 을 가질 수 있다 — (a) 모든 expert 포함, research only, (b) commercial-friendly expert 만, commercial OK. 사용자는 자기 use case 에 맞는 변형을 선택. 이 구조 자체가 "flexible data use" 의 의미.

§ 08채택 사례· Downstream

FlexOlmo 의 시점에서 누가 어떻게 활용하는가

FlexOlmo 가 2025 시점에서 새로운 모델인 만큼, 채택은 초기. 강의에서 언급될 수 있는 / 자연스러운 사례들 (확인 필요).

"한 모델이 여러 모델이 된다 — 같은 backbone 위에 다른 expert 조합으로. modular 의 진짜 power 는 여기."학습 노트 · §8
§ 09다음 방향· Unlearning frontier

flexibility 의 frontier — 어디까지 갈 수 있는가

큰 그림

FlexOlmo 는 단일 paper 가 아니라 open LM 의 governance 표준의 시작. 5년 후 “open LM” 의 기본 자격에 “opt-out 가능” 이 들어갈 가능성. EU AI Act 같은 규제가 이 흐름을 가속화.

§ 10기억할 메모와 코드· Key takeaways

다시 열었을 때 5분 안에 잡혀야 할 것

openness 6 단계
closed → weight-restricted → weight-open → code-open → fully-open → flexible-open. FlexOlmo 는 마지막.
data flexibility
사후 데이터 제거 가능. EU AI Act 의 right to be forgotten 의 prerequisite.
modular data
data → partition → expert. supervised routing 으로 mapping 명시화.
3-phase 학습
backbone pretrain → expert specialization → joint fine-tune.
approximate unlearn
expert 제거 거의 깨끗, backbone 에 약간 잔류. 완벽 아님.
flexibility 비용
표준 벤치마크 ±1% 안. 사실상 free.
expert 별 license
commercial-only 변형 가능. 같은 backbone 의 여러 distribution.
reproducibility 표준
data + code + weight + log + ckpt + eval 모두 공개. data partition manifest 추가.
관련 OLMo (AI2), Pythia (EleutherAI), Dolma corpus — fully-open 의 가족

손에 새기기 — 실습 시퀀스

  1. OLMo / FlexOlmo 직접 다운로드 — Hugging Face 에서 weight + tokenizer + 학습 데이터 manifest 까지 다운. 실제 partition 의 모양 직접 확인.
  2. data partition 분석 — Dolma corpus 의 source distribution 시각화. partition 을 어떻게 나눠야 자연스러운지 직접 시도.
  3. expert 제거 실험 — FlexOlmo 의 expert 한 개를 mask out 한 inference. 그 partition 의 평가 데이터에 대한 perplexity 변화 측정.
  4. membership inference — 제거 전후의 모델에 대해 그 partition 의 데이터로 MIA 공격. unlearn 의 정량적 측정.
  5. baseline 비교 — 같은 size 의 OLMo 와 FlexOlmo 를 MMLU 등에서 비교. flexibility 의 비용 직접 측정.
  6. data manifest 작성 — 자기 학습 데이터를 partition 단위로 명시. license, source, opt-out path 까지. open LM 의 governance hygiene.
§ 11다른 강의로 이어지는 길· Connections

open LM / data governance / system 의 가족

FlexOlmo 는 ScaleML 시리즈 안에서 data layer 의 핵심. system / inference / quantization 강의들의 데이터 거버넌스 기준점.

§ 12열린 질문· Open questions

이 노트가 의도적으로 비워둔 자리들

검증 메모

본문은 GPU Mode 노트의 partial summary + Sewon Min 의 OLMo 시리즈 저술 + 일반 fully-open LM 도메인 지식을 합성한 것. paper 자체의 정확한 표현이 필요한 곳은 영상 transcript 또는 publish 된 arXiv 가 가용해진 후 교체 권장.

← Lecture 070 PCCL Fault-tolerant collectives Lecture 072 → Efficient Long-Context Modeling — Guangxuan Xiao