gpumode · 강의 아카이브
《GPU Mode》 L066 2025 · Game Arena Low priority transcript · failed · 확인 필요

Game Arena — LLM agent benchmarks on real games

벤치마크가 saturate 됐을 때, 다음 신호를 어디서 찾을 것인가. Lanxiang Hu 가 깐 답은 — 닫힌 게임 환경 안에서 LLM 을 두고 RL agent 처럼 다루며, multi-turn reasoning · 도구 사용 · 장기 계획을 같은 실험대 위에 올린다. 이 노트는 arXiv 2412.06394 흐름에서 출발해 게임 기반 LLM 평가 프레임의 구조와 한계를 다시 정리한다.

LLM agent benchmark game environment multi-turn reasoning tool use RL fine-tune leaderboard eval saturation reproducibility
L
Speaker
Lanxiang Hu
Game Arena · LLM agent benchmark 연구 · 확인 필요
강의 번호
L066
스피커
Lanxiang Hu
학습 우선순위
Low · 스킴
자료 상태
paper만 추적 가능
§ 01강의가 풀려는 문제· Why benchmarks need games

“MMLU 점수가 92 입니다” 이후 — 무엇으로 모델을 비교할 것인가

2024-2025 의 LLM 평가 풍경은 벤치마크 포화로 압축된다. MMLU·HumanEval·GSM8K 같은 정답이 고정된 단일 턴 평가는 frontier 모델 간의 차이를 더 이상 분리하지 못 한다. Game Arena 는 그 자리에 multi-turn · adversarial · 환경 상호작용이라는 세 축을 넣어 다시 신호를 만든다.

강의의 출발 질문 두 개.

  1. frontier 모델을 어떻게 더 분리할 것인가 — 단일 턴 정답률은 90% 근방에서 plateau. 차이가 metric 안으로 안 들어온다.
  2. “agent 능력” 을 어떻게 정량화할 것인가 — tool use, planning, memory 같은 단어는 풍성하지만, 점수로 떨어지는 평가가 빈약하다.

강의의 입장은 명확하다 — 게임은 이 두 질문에 동시에 답할 수 있는 가장 잘 정의된 실험대다. 게임은 (a) 규칙과 종료 조건이 닫혀 있고, (b) 다른 agent 와 head-to-head 매치업이 가능하고, (c) 같은 환경 위에서 score / win-rate / move-count 같은 다차원 metric이 모두 자연스럽게 정의된다.

강의의 인지적 frame

“LLM 을 chatbot 으로 평가하지 말고 policy 로 평가하자” — 한 줄로 압축하면 이게 강의 전체의 입장이다. policy 는 환경 위에서 정해지고, 환경이 게임이라면 metric 도 자동으로 정해진다. 이 framing 이 이후 §03–§06 의 모든 설계 결정의 시작점.

“정답이 하나뿐인 문제는 모델 사이의 차이를 점점 못 분리한다. 게임은 그 차이를 매번 새로 생성한다.”L066 학습 노트 · paper §1 재구성

이 강의 자체는 transcript 가 사라져 있으니 arXiv 2412.06394 (게임 기반 LLM 평가) 와 GPU Mode YouTube 메타데이터를 발판으로 재구성한다. 본문에서 인용하는 수치는 모두 paper 또는 일반 도메인 지식에서 가져온 것이며, 강의에서 발화된 정확한 표현이 아닐 수 있다 — 직접 확인이 필요한 항목은 본문에 명시한다.

§ 02LLM agent benchmark 의 가치· Why agentic eval

단일 턴 evaluation 이 놓치는 세 가지 — sequential · adversarial · embodied

기존 LLM 벤치마크가 가지지 못하는 세 가지 차원 — sequential (선택의 결과가 다음 상태를 바꿈), adversarial (상대가 같이 움직임), embodied (제한된 관측만으로 결정)이 게임에는 본질적으로 들어있다.

차원 1 · sequential
상태가 누적된다
한 턴의 잘못된 수가 다음 턴의 가능 공간을 줄인다. MMLU 같은 single-shot eval 은 이 누적을 못 본다. 게임에서는 20 수째까지 일관성 있게 계획을 유지하는지가 직접 score 에 반영된다.
차원 2 · adversarial
상대가 적극적으로 망친다
정해진 정답을 맞히는 게 아니라, 최적 응수를 두는 다른 agent를 마주한다. 동일 모델끼리도 매번 다른 게임이 된다. signal 의 분산을 자연스럽게 만들어주는 장치.
차원 3 · embodied
관측이 제한된다
텍사스 홀덤이나 어두운 maze 에서는 partial observability 가 본질이다. LLM 이 “모르는 것을 모른다고 인식하는지”, “관측을 어떻게 정리해 prompt 에 누적하는지” 가 직접 점수에 반영된다.
차원 4 · grounded metric
스코어가 자동으로 정해진다
사람이 일일이 채점할 필요가 없다. 게임 엔진이 승패 · 점수 · 자원 사용량을 직접 돌려준다. RLHF 없이도 reward signal 이 자동으로 생긴다는 사실 — 이게 §06 의 RL 학습 적용 이야기로 이어지는 핵심.
“agent eval 의 가장 어려운 부분은 점수 매기기다. 게임은 그걸 거저 준다.”학습 노트

여기서 흔한 비판 하나에 미리 답해두자 — “게임은 toy 환경 아니냐”. 강의의 답은 “그 toy 가 차원을 압축해 보여주는 lab 이다”. 이미 1990년대 RL 이 Atari · Go 위에서 실증됐고, 같은 논리가 LLM 에도 적용된다. 게임을 evaluate 하는 게 목적이 아니라, 게임 위에서 모델 간 차이를 만들어내는 능력의 축을 분리해 보는 게 목적.

§ 03게임 환경 정의· Closed worlds

“같은 게임을 같은 방식으로 두 번 돌릴 수 있는가” — 환경 설계의 첫 기준

benchmark 가 의미를 가지려면 환경이 닫혀 있어야 하고 결정론적이어야 한다. 게임은 그 둘을 동시에 만족시킨다 — 단, 설계가 까다롭다. 강의에서 다루는 환경 카테고리는 셋. 보드 게임 · 카드 게임 · 텍스트 어드벤처.

각 카테고리의 측정 가능한 축이 다르다.

  • 보드 게임 (체스, 바둑, 오목, 틱택토) — perfect information, sequential, two-player. 비교 신호가 가장 깨끗하다. 단점: 학습 데이터에 이미 많이 들어 있음(contamination).
  • 카드 게임 (포커, Hearts) — partial observability, multi-player, stochastic. 모델이 확률을 추론하는지 측정 가능. 점수 분산이 커서 통계적 유의성을 위해 매치 수가 많이 필요.
  • 텍스트 어드벤처 (TextWorld, Zork-style) — open-ended action space. tool 호출처럼 액션을 설계해야 함. agent eval 의 frontier.
설계 trade-off

완전 정보 보드 게임은 해석이 쉬운 대신 contamination 위험이 크고, 텍스트 어드벤처는 덜 contaminated 인 대신 metric 정의가 어렵다. Game Arena 는 두 끝을 모두 포함해 보완적 신호를 만든다. 확인 필요.

FIG · 환경 카테고리 vs 평가 축3 × 4 매트릭스
CATEGORY SEQ ADV PARTIAL OPEN
보드 (체스, 바둑)
카드 (홀덤, Hearts)
텍스트 어드벤처
grid puzzle (소코반)
● = 본질적으로 평가됨, ○ = 사실상 측정 불가. 같은 모델을 여러 카테고리에 두면 능력 프로파일이 만들어진다 — 한 점수가 아니라 4-tuple.

prompt format 의 결정

같은 게임도 prompt 표현이 점수를 크게 흔든다. 체스를 예로 들면 (a) FEN string, (b) PGN history, (c) ASCII board, (d) PNG 의 vision input — 네 가지 모두 같은 위치를 표현하지만 모델 별로 강한 표현이 다르다. Game Arena 는 format 을 표준화하되 각 게임에서 두 가지 이상을 비교한다 (확인 필요).

# 체스 한 수의 prompt 표현 비교 (예시)
# 1) FEN — 체스 표준 단일 라인
rnbqkbnr/pppppppp/8/8/4P3/8/PPPP1PPP/RNBQKBNR b KQkq e3 0 1

# 2) PGN — 수의 history
1. e4

# 3) ASCII board — LLM 친화적
8 r n b q k b n r
7 p p p p p p p p
6 . . . . . . . .
...
1 R N B Q K B N R
  a b c d e f g h

강의에서 강조하는 것 — 같은 모델이 같은 게임에서 ASCII 와 FEN 사이 6-8 ELO 정도 흔들린다는 관찰. 이게 §07 의 “format brittleness” 한계로 이어진다.

§ 04평가 metric· Win rate · ELO · efficiency

승패 한 줄로 끝나지 않는다 — multi-axis scoring

스코어는 단순히 승률이 아니다. Game Arena 가 사용하는 metric 은 최소 셋 — win rate, ELO/TrueSkill, sample efficiency. 같은 win rate 60% 라도 “500턴 만에 이긴 모델” 과 “30턴 만에 이긴 모델” 은 다르게 점수를 받는다.

FIG · 4축 평가 metricmulti-axis radar 의 표 형태
METRIC 의미 분산 오용 비고
win rate vs baseline 중간 contamination primary
ELO / TrueSkill latent skill 낮음 초기값 bias round-robin 필요
average game length 샘플 효율 단순화 트릭 log-scale 권장
illegal-move rate 규칙 준수 매우 큼 format issue 먼저 floor 확인
prompt token cost 경제성 중간 cache 영향 실 사용 신호
primary axis 는 win rate / ELO. illegal-move rate 는 floor 점검용 negative metric — “규칙 자체를 못 따르면 다른 점수는 의미 없음”. 작은 모델일수록 여기서 먼저 무너진다.

ELO 는 round-robin tournament 안에서만 의미가 있다. M개 모델이 있으면 M(M-1)/2 페어가 각각 N 게임씩 — 페어당 100게임으로도 6개 모델은 1500 게임. 그래서 게임을 병렬화하는 인프라가 benchmark 의 일부가 된다 (이게 GPU Mode 청중에게 던져지는 메시지의 핵심).

왜 GPU Mode 가 이걸 다루는가

tournament inference 는 latency-critical 이 아니라 throughput-critical. KV cache 공유, batched continuous batching, prompt caching 같은 inference engine 최적화가 그대로 쓰인다. evaluation 인프라 자체가 GPU systems 문제. L026 SGLang, L032 vLLM 의 throughput 최적화가 여기서 직접 응용된다.

§ 05모델별 결과· GPT · Claude · Gemini · open

frontier 모델 사이의 정성적 패턴 — 강점이 게임마다 다르다

paper / 강의에서 보고된 결과의 큰 모양 — “하나의 모델이 모든 게임에서 압도하지 않는다”. 체스에 강한 모델, 포커에 강한 모델, 텍스트 어드벤처에 강한 모델이 다르다. 이 분리가 곧 benchmark 가 작동하고 있다는 증거.

FIG · 정성 패턴 (출처: paper Tab. 1, 단순화)확인 필요
모델 체스 포커 어드벤처 전체
GPT-4-class 상위
Claude 3.5-class 상위
Gemini 1.5-class 중상
Llama 3 70B
Mistral Large
정확한 ELO 값은 paper Table 1 확인 필요. 모델별 상대적 패턴 자체가 강의에서 강조된 메시지 — “게임마다 strength profile 이 다르고, single-axis benchmark 는 이걸 못 잡는다”.

여기서 강의가 제기하는 가설들.

  • 체스에 강한 모델은 학습 데이터에 PGN 이 많이 들어간 흔적. contamination 의 그림자 (§07).
  • 포커에 강한 모델은 belief tracking 이 잘되거나, EV 계산을 step-by-step 으로 풀어내는 모델. RLHF / chain-of-thought 의 차이로 추정.
  • 텍스트 어드벤처에 강한 모델은 long-context 와 instruction following 이 동시에 잘 작동하는 모델 — L072 long-context 와 직접 연결.
실전적 의미

“체스에서 ELO 가 200 높다” 가 곧 “LLM 으로서 우월하다” 를 뜻하지 않는다. 그러나 여러 게임에서 일관되게 상위인 모델은 거의 모든 down-stream 평가에서도 상위로 나타난다. 이 일관성이 ELO aggregate 의 의미가 된다.

“같은 모델이 같은 게임에서 ASCII 와 FEN 사이 6–8 ELO 가 흔들린다 — format 의 영향이 차라리 더 일관성 있다.”paper §4 재구성 · 확인 필요
§ 06RL 학습 적용· Games as training signal

평가만이 아니라 학습 자체에도 — game self-play 가 reward 를 만들어준다

게임의 가장 강력한 특성 — 스코어가 자동으로 매겨진다는 점은 평가뿐 아니라 학습 신호로도 직접 쓸 수 있다는 의미. RLHF 의 사람 라벨러 자리에 게임 엔진이 들어간다.

FIG · game-driven RL 루프policy → env → reward → update
01 LLM policy 가 다음 수를 둔다 prompt = state + history → action forward
02 게임 엔진이 새 state 와 (가능하면) reward 를 돌려준다 illegal move 는 -1, win 은 +1, draw 는 0 env step
03 에피소드가 끝나면 (terminal reward), trajectory 가 buffer 에 저장됨 state, action, reward 시퀀스 collect
04 PPO / DPO / GRPO 같은 알고리즘이 policy 를 업데이트 verifier-free reward 가 곧장 들어감 update
05 새 policy 가 게임에 다시 들어간다 — self-play 같은 모델끼리 양쪽 → 점진적으로 강해짐 repeat
이 루프의 강점 — verifier 가 필요 없다. 게임 엔진이 verifier. RLHF 의 reward model 학습 비용이 없어진다. AlphaGo / AlphaZero 의 방법론을 LLM 위에 직접 옮긴 형태.

왜 이게 frontier 추세인가

2024-2025 의 RL post-training 흐름은 verifier-grounded reward 로 모인다 — 코드는 unit test, 수학은 정답 비교, 게임은 엔진. 강의의 입장은 명시적으로 “게임은 verifier-grounded 의 가장 깨끗한 형태”. 코드/수학과 달리 “정답이 단일하지 않은” adversarial setting 이라는 점이 추가 특성.

post-training 흐름의 위치

이 강의의 RL 적용은 OpenAI o1 / DeepSeek R1 의 reasoning 학습 흐름과 같은 가족이다. 차이는 verifier 가 게임 엔진이라는 점 하나. 코드 verifier 와 게임 엔진 둘 다 “외부 결정론적 검증자” 라는 같은 추상에 들어간다.

# 단순화한 self-play 학습 의사코드
for iteration in range(N):
    trajectories = []
    for _ in range(BATCH):
        env = Chess()
        traj = play_one_game(policy, policy, env)   # self-play
        trajectories.append(traj)
    # 게임 엔진이 돌려준 reward 만 사용 — verifier-free
    policy = grpo_update(policy, trajectories)

강의에서 강조된 trick — “상대를 freeze 시켜서 학습” (population-based self-play). 자기 자신과만 두면 좋은 전략이 collapse 한다. 여러 버전의 자기 자신을 풀(pool)에 두고 sampling 한다 — AlphaStar 와 같은 패턴.

§ 07한계· Contamination · format brittleness

“GPT-4 가 체스를 잘 한다” 가 진짜 reasoning 인지 의심하는 이유

게임을 LLM eval 에 쓸 때의 결정적 함정 셋 — contamination, format brittleness, illegal-move 사고. 강의의 정직한 부분은 이 한계들을 같은 무게로 다룬다는 것.

한계 1 · contamination
학습 데이터에 이미 게임 기보가 들어 있다
PGN, 포커 hand history, walkthrough 가 web crawl 에 포함됨. 모델이 “이해” 하는 게 아니라 “재인식” 하는 부분이 얼마인지 분리하기 어려움. 새 게임 / 새 변종을 만들어 contamination 을 최소화하는 게 부분 해법.
한계 2 · format brittleness
prompt 표현 하나 바꾸면 점수가 흔들린다
FEN ↔ ASCII ↔ PGN 사이에 같은 위치인데 6-8 ELO 차이. 이건 모델의 능력 차이가 아니라 표현 친숙도 차이. eval 결과 발표 시 format 명시 + 두 가지 이상 비교를 표준화해야 함.
한계 3 · illegal-move floor
규칙도 못 따르는 모델이 많다
작은 모델은 “a4 라는 칸이 없는데 거기에 둠” 같은 illegal move 를 자주. 이걸 reject sampling 으로 마스킹하는지, 자동 패배로 처리하는지에 따라 ELO 가 크게 바뀜. 두 가지 모드를 모두 보고한다.
한계 4 · long-horizon credit assignment
왜 이긴 / 진 건지 답이 없다
한 게임 끝의 ±1 reward 만으로 어느 수가 좋았는지 분리 불가. RL 학습 효율이 떨어짐. 중간 보상(material count, board control 같은) 을 도입하면 다시 reward hacking 위험이 생김 — 본질적 trade-off.
“게임 ELO 가 60 올랐다고 모델이 더 똑똑해진 것은 아니다 — format 친숙도가 60 올랐을 수도 있다.”학습 노트 · 한계 #2 재구성

강의에서 가장 솔직한 표현은 — “게임 벤치마크는 다른 벤치마크의 보완재이지, 단독 정량 척도로 쓰면 거의 항상 잘못된 결론에 도달한다”. 이 문장이 §08, §11 의 후속 방향을 끌고 간다.

§ 08다음 단계· Richer envs · self-play · multi-agent

frontier 가 어디로 가는가 — 게임을 떠나 시뮬레이션 환경으로

Game Arena 의 자연스러운 확장. (a) 환경을 더 풍부하게 — 도구 사용이 들어간 환경. (b) 여러 agent 가 협력 / 경쟁하는 multi-agent. (c) 처음부터 LLM 이 환경을 만들고 나누는 self-generation.

FIG · 환경 복잡도 사다리simple → embodied
L0
closed game
체스, 바둑
L1
partial info
홀덤
L2
tool use
코드 + 검색
L3
multi-agent
협상, 협력
L4
embodied
로봇/시뮬
현재 frontier 는 L2-L3 사이. tool 호출이 게임의 “수” 와 같은 추상으로 통합되면 “Game Arena” 와 “tool use eval” 의 경계가 사라진다 — 이게 강의의 미래 예측.

multi-agent 시나리오

강의의 마지막 메시지 — “closed game 의 끝에서 시뮬레이션 환경의 시작으로”. 이게 OpenAI / Anthropic 등이 frontier RL 환경을 게임에서 코드 / 컴퓨터 사용으로 옮긴 흐름과 정확히 같은 방향.

§ 09reproducibility· Determinism · seeds · public leaderboard

같은 결과를 어떻게 다시 만들 수 있게 할 것인가

benchmark 는 재현 가능성이 본질. Game Arena 가 채택한 메커니즘은 (a) seed 고정, (b) 모델 버전 string 명시, (c) prompt template 공개, (d) 게임 trace 공개.

FIG · 재현 가능성의 4 layerseed → trace
01 seed 고정 — torch.manual_seed, numpy.random.seed, env.seed 각 게임 시작 시 deterministic layer 1
02 모델 호출 시 temperature / top_p 명시 — 보통 t=0 으로 fix 다만 sampling 다양성을 평가하면 t>0 도 별도로 layer 2
03 모델 string 정확히 명시 — gpt-4-0613 vs gpt-4-turbo-2024-04-09 같은 “GPT-4” 라도 서로 다른 모델 layer 3
04 전체 게임 trace 공개 — JSON 으로 turn-by-turn 다른 사람이 같은 게임을 다시 분석 가능 layer 4
layer 3 의 모델 string 명시는 의외로 자주 빠진다. 같은 “Claude 3.5 Sonnet” 도 release 별로 다르다. 날짜 suffix 까지 적는 게 표준.

그리고 — 강의에서 강조된 추가 표준 “public leaderboard”. 새 모델이 들어왔을 때 이전 결과를 다시 돌리지 않아도 ELO 가 자연스럽게 업데이트되도록, lichess 와 같은 incremental 방식.

연구 hygiene

arXiv 에 점수를 적을 때 (모델 string, seed list, prompt template hash, 게임 trace URL) 4-tuple을 footnote 로 못 박는다. 이게 안 되면 “6 ELO 차이” 같은 작은 결과는 의미가 거의 없다.

§ 10기억할 메모와 코드· Key takeaways

다시 열었을 때 5분 안에 잡혀야 할 것

강의에서 6개월 뒤에 돌아왔을 때 가장 빨리 복원해야 하는 사실들.

why games
single-turn benchmark 가 saturate 됐을 때, sequential / adversarial / partial-info 차원을 동시에 채우는 lab.
3 카테고리
보드(완전정보) · 카드(부분정보) · 텍스트(open-ended). 각자 다른 능력 축을 측정.
multi-axis metric
win rate · ELO · game length · illegal-move rate · token cost. 단축의 단일 점수는 신호 약화.
format brittleness
FEN/ASCII/PGN 사이 6-8 ELO 흔들림. 발표 시 두 표현 이상 비교.
contamination
PGN, hand history 가 web crawl 에 들어 있음. 새 변종 / 새 규칙으로 부분 해소.
verifier-free RL
게임 엔진이 reward verifier. RLHF 의 reward model 자리에 게임이 들어간다.
self-play pool
single self-play 는 collapse. population 으로 sampling — AlphaStar 패턴.
반복 가능성 4-tuple
(model string, seed, prompt hash, trace URL). 이 네 개가 없으면 결과 비교 불가.
Paper arxiv.org/abs/2412.06394 · LLM agent benchmarking on games
Slides 없음 (확인 필요 — paper 와 video 만 추적)
Code repo 위치 미공개 / GPU Mode 폴더 없음

손에 새기기 — 실습 시퀀스

  1. tic-tac-toe LLM tournament — 가장 간단한 환경에서 두 LLM 을 round-robin 으로 100 게임. illegal move rate 를 먼저 측정. 이게 0% 가 안 되면 ELO 비교는 의미 없다.
  2. format swap test — 같은 게임을 ASCII / FEN / PGN 세 prompt 로 똑같이 돌린다. ELO 차이를 만들면 그게 곧 강의의 “format brittleness” 의 직접 재현.
  3. verifier-free reward 구현 — gymnasium / pettingzoo 에서 환경 하나 골라 GRPO 로 작은 LLM (Qwen 0.5B 정도) 을 100 step 학습. reward 가 자연스럽게 자동으로 들어가는 경험.
  4. tournament infra — vLLM 에 두 모델을 동시에 띄우고 KV cache 를 공유하면서 게임을 병렬로 돌려본다. 이게 §04 의 GPU Mode 적 의미.
  5. contamination probe — 학습 후 모델이 처음 본 변종 (예: Chess 9×9) 에서 같은 ELO 가 나오는지 비교. 떨어지면 그게 contamination 의 양.
§ 11다른 강의로 이어지는 길· Connections

LLM eval / RL / inference infra 의 교차로에 서 있다

이 강의는 단독으로는 평가 / RL 가족, 인프라로는 inference engine 가족 양쪽에 다리를 놓는다.

§ 12열린 질문· Open questions

이 노트가 의도적으로 비워둔 자리들

transcript 가 사라진 강의이므로, 본문의 수치/단언 중 다음 항목들은 paper 또는 직접 실험으로 별도 확인이 필요하다.

검증 메모

이 페이지의 본문은 arXiv 2412.06394 + GPU Mode YouTube 메타 + 일반 도메인 지식으로 재구성되었다. 강의에서 직접 발화된 표현이 아닐 수 있으니 정확한 인용이 필요한 곳은 paper 와 영상을 다시 확인할 것.

← Lecture 065 이전 강의로 Lecture 067 → NCCL and NVSHMEM — Jeff Hammond