PART IV — 확률

18 조건부 확률 Conditional Probability

정보가 추가되면 확률이 바뀝니다. 어제까지 비올 확률 30%였던 하늘이 먹구름을 보이는 순간 80%가 되는 것처럼요. 이 챕터에서는 "어떤 사건이 이미 일어났다는 정보"를 받았을 때 확률이 어떻게 갱신되는지를 다루는 도구, 조건부 확률을 배웁니다. 정의는 한 줄이지만 이걸 잘못 다루면 멀쩡한 사람도 몬티홀 문제 앞에서 무너지죠. 트리 다이어그램, 전확률 법칙, 베이즈 정리, 그리고 직관을 박살내는 심슨의 역설까지 가봅시다.

18.1 몬티홀의 혼란 Monty Hall Confusion

문 셋 중 하나 뒤에는 자동차가, 나머지 둘 뒤에는 염소가 있습니다. 참가자가 한 문을 고르면, 정답을 아는 사회자 몬티가 나머지 두 문 중 염소가 있는 문 하나를 열어 보여줍니다. 그리고 묻습니다. "바꾸시겠어요?" 직관은 "둘 중 하나니까 50:50, 바꾸나 안 바꾸나 똑같다"고 말합니다. 그런데 이게 틀렸어요. 바꾸면 \( 2/3 \), 안 바꾸면 \( 1/3 \) 입니다.

왜 직관이 무너질까요? 몬티가 문을 여는 행동이 정보를 뿌리기 때문입니다. 그는 무작위로 문을 열지 않고, "염소가 있고, 참가자가 고르지 않은" 문을 골라서 엽니다. 이 조건이 확률 분포를 비대칭으로 휘게 만들어요. 14장에서 이미 이 문제를 한 번 풀었지만, 그땐 표본공간을 직접 펼쳐서 셌습니다. 이번엔 더 강력한 도구로 봅니다.

노트 18.1.1

조건부 확률의 핵심 질문은 "B가 일어났다는 사실을 알았을 때, A의 확률은?"입니다. "그냥 A의 확률"과는 다른 양이에요. 정보가 들어오면 표본공간이 사실상 좁아지고, 그 좁아진 세계 안에서 다시 비율을 재는 거예요.

몬티홀에서 "바꿨을 때 자동차를 얻을 확률"은 결국 "참가자가 처음에 염소를 골랐을 확률"과 같습니다. 처음 추측이 틀릴 확률 \( 2/3 \) 가 그대로 정답률로 돌아오는 거예요. 이 챕터를 마칠 즈음에는 이 한 줄이 자연스럽게 들리길 바랍니다.

18.2 정의와 표기 Definition and Notation

조건부 확률은 표기법부터 익숙해지면 좋아요. \( P(A \mid B) \) 는 "B가 일어났다는 가정 하에서 A의 확률"이고, 읽을 땐 "P of A given B"라고 합니다. 정의는 다음과 같습니다.

정의 18.2.1 (조건부 확률)

표본공간 \( \Omega \) 위의 확률측도 \( P \) 와 \( P(B) > 0 \) 인 사건 \( B \) 가 주어졌을 때,

\[ P(A \mid B) \;=\; \frac{P(A \cap B)}{P(B)}. \]

\( P(B) = 0 \) 일 때는 정의되지 않습니다.

식의 모양을 직관적으로 풀어볼게요. 분모 \( P(B) \) 가 새로운 표본공간(B 안에서 다시 비율을 재겠다는 의미)이고, 분자 \( P(A \cap B) \) 가 그 안에서 A도 함께 일어나는 부분의 크기입니다. B를 새 1로 두고 거기서 A가 차지하는 비율을 다시 계산하는 셈이에요.

예제 18.2.2 (주사위 두 개)

공정한 주사위 두 개를 굴립니다. \( A \) = "합이 7", \( B \) = "첫 번째가 짝수"라 하면 \( P(A) = 6/36 = 1/6 \), \( P(B) = 1/2 \), \( P(A \cap B) = 3/36 = 1/12 \) 입니다. 따라서 \( P(A \mid B) = (1/12) / (1/2) = 1/6 \). 신기하게도 정보가 추가됐는데 확률이 안 바뀌었어요. 이런 경우 두 사건은 독립이라고 부르는데, 곧 18.7에서 다룹니다.

반대로 \( B' \) = "첫 번째가 1"로 바꾸면 \( P(B') = 1/6 \), \( P(A \cap B') = 1/36 \) 이라 \( P(A \mid B') = 1/6 \). 어, 또 같네요? 합이 7은 첫 번째 눈이 무엇이든 두 번째가 정확히 한 값으로 정해지므로 \( 1/6 \) 이 유지되는 거예요. 이런 부분이 확률의 재미있는 점입니다.

18.3 조건부 확률에서의 4단계 방법 The Four-Step Method for Conditional Probability

복잡한 확률 문제는 다음 4단계를 따라가면 거의 풀립니다. (1) 표본공간을 트리로 펼치기, (2) 각 가지에 결과 적기, (3) 가지마다 조건부확률 적기, (4) 묻는 사건의 확률을 더하기. 트리 다이어그램은 이 절차의 시각적 도구예요.

예제 18.3.1 (몬티홀, 트리로 풀기)

자동차의 위치는 1, 2, 3 중 균등(각 \( 1/3 \)). 참가자는 항상 문 1을 고른다고 가정합시다(대칭이므로 일반성 잃지 않음). 몬티는 자동차 없는 문 중 하나를 엽니다. 자동차가 1번에 있으면 2번 또는 3번을 동률로 선택, 2번에 있으면 3번만, 3번에 있으면 2번만 엽니다. 마지막으로 참가자는 "바꾼다"는 전략을 씁니다.

트리의 잎(leaf)에서 "최종적으로 자동차를 얻었나?"를 표시하고, 각 잎의 확률을 가지 확률의 곱으로 계산해 잎들의 확률을 더하면 답이에요. 자동차가 처음부터 1번이었던 가지(확률 \( 1/3 \))에서는 바꾸면 무조건 실패, 2번 또는 3번이었던 가지(각 \( 1/3 \))에서는 바꾸면 무조건 성공입니다. 따라서 성공 확률은 \( 2/3 \).

여기서 핵심은 가지에 적힌 숫자들이 모두 조건부확률이라는 사실이에요. "자동차가 1번이라는 조건 하에서 몬티가 2번을 열 확률은 \( 1/2 \)" 같은 식. 이 가지들을 곱해야 그 잎이 발생할 확률이 됩니다. 왜 곱셈이 맞는지는 다음 절에서 정당화합니다.

18.4 트리 다이어그램이 작동하는 이유 Why Tree Diagrams Work

트리에서 가지를 곱해 잎의 확률을 얻는 절차는, 사실 정의 18.2.1을 단순히 변형한 것입니다. 양변에 \( P(B) \) 를 곱하면

원리 18.4.1 (곱셈 규칙)

\( P(B) > 0 \) 인 사건 \( B \) 와 임의의 \( A \) 에 대해 \[ P(A \cap B) \;=\; P(B) \cdot P(A \mid B). \] 더 일반적으로, 사건 \( A_1, A_2, \dots, A_n \) 에 대해 \[ P(A_1 \cap A_2 \cap \dots \cap A_n) \;=\; P(A_1) \cdot P(A_2 \mid A_1) \cdot P(A_3 \mid A_1 \cap A_2) \cdots P(A_n \mid A_1 \cap \dots \cap A_{n-1}). \]

트리의 한 경로는 정확히 \( A_1 \cap A_2 \cap \dots \cap A_n \) 의 형태입니다. 첫 가지는 \( P(A_1) \), 그 다음 가지는 "\( A_1 \) 이 일어났다는 조건 하에서 \( A_2 \)" 즉 \( P(A_2 \mid A_1) \), 그 다음은 \( P(A_3 \mid A_1 \cap A_2) \), 이런 식이에요. 이 가지들을 다 곱하면 정확히 위 공식이 나옵니다.

예제 18.4.2 (카드 두 장)

섞인 카드 52장에서 두 장을 비복원으로 뽑습니다. 둘 다 에이스일 확률은? \( P(\text{1번째 A}) = 4/52 \), \( P(\text{2번째 A} \mid \text{1번째 A}) = 3/51 \). 곱하면 \( (4/52)(3/51) = 12/2652 = 1/221 \). 가지가 두 단계인 트리를 그렸다고 보면 됩니다.

트리는 그저 직관적인 그림이 아니라, 곱셈 규칙의 시각적 표현이에요. 어떤 복잡한 문제든 결과를 단계로 쪼갤 수 있다면 트리로 옮길 수 있고, 옮긴 순간 답은 산수 문제로 바뀝니다.

18.5 전확률 법칙 The Law of Total Probability

표본공간을 서로소인 사건들 \( B_1, B_2, \dots, B_n \) 으로 빈틈없이 쪼갤 수 있다면(이를 분할이라 합니다), 어떤 사건 \( A \) 의 확률은 각 조각을 통과하는 경로들의 합으로 적을 수 있어요.

정리 18.5.1 (전확률 법칙, Law of Total Probability)

\( B_1, \dots, B_n \) 이 \( \Omega \) 의 분할이고 모든 \( i \) 에 대해 \( P(B_i) > 0 \) 이면, \[ P(A) \;=\; \sum_{i=1}^{n} P(A \mid B_i) \, P(B_i). \]

이 식과 정의 18.2.1을 결합하면 그 유명한 베이즈 정리가 떨어집니다.

정리 18.5.2 (베이즈 정리, Bayes' Theorem)

\( P(A), P(B) > 0 \) 일 때 \[ P(B \mid A) \;=\; \frac{P(A \mid B) \, P(B)}{P(A)} \;=\; \frac{P(A \mid B) \, P(B)}{\sum_i P(A \mid B_i) \, P(B_i)}. \]

예제 18.5.3 (희귀병 검사)

인구의 \( 1\% \) 가 어떤 병에 걸려 있다고 하죠. 검사는 환자에게서 \( 99\% \) 확률로 양성이 나오고, 건강한 사람에게서도 \( 5\% \) 확률로 양성이 나옵니다(위양성). 어떤 사람이 양성을 받았을 때 실제로 병에 걸렸을 확률은?

\( D \) = 병, \( T \) = 양성. \( P(D)=0.01, P(T \mid D)=0.99, P(T \mid D^c)=0.05 \). 전확률로 \( P(T) = 0.99 \cdot 0.01 + 0.05 \cdot 0.99 = 0.0099 + 0.0495 = 0.0594 \). 베이즈로 \( P(D \mid T) = 0.99 \cdot 0.01 / 0.0594 \approx 0.167 \). 약 17%예요. 검사 정확도가 99%라는데 양성이어도 실제 환자일 확률이 17%밖에 안 된다는 게 충격적이죠. 희귀할수록 위양성의 영향이 크다는 교훈입니다.

18.6 심슨의 역설 Simpson's Paradox

직관에 가장 통쾌한 한 방을 날리는 카드입니다. 두 그룹 각각에서 X가 Y보다 좋은데, 합치면 Y가 X보다 좋다. "어떻게 그럴 수가?" 싶지만, 실제 통계에서 자주 발생합니다.

예제 18.6.1 (가상의 대학원 입학)

한 대학원이 학과 X와 Y에 지원자를 받습니다. 학과별 성별 합격률은 아래와 같다고 하죠.

학과	남자 지원/합격	남자 합격률	여자 지원/합격	여자 합격률
X (인기)	400 / 80	20%	100 / 30	30%
Y (한산)	100 / 70	70%	400 / 320	80%
합계	500 / 150	30%	500 / 350	70%

학과별로는 두 곳 모두 여자 합격률이 더 높은데, 합치면? 30% vs 70%. 어, 이건 여자가 훨씬 유리해 보이네요. 값을 살짝 바꿔서 정반대 결론도 만들 수 있습니다 — 이게 심슨 역설의 본질이에요. 핵심은 여자들이 합격률 높은 학과(Y)에 몰려 지원했다는 점. 그룹 크기의 차이가 평균을 휘게 만들어요.

의료 통계에서도 흔합니다. 신약이 모든 연령대에서 위약보다 잘 듣는데 전체로 보면 위약이 이기는 경우가 있어요. 연령대별 환자 수가 달라서요. 핵심 교훈: 조건부 확률을 통합할 땐 분할의 가중치를 함께 봐야 한다. \( P(A \mid B_1) > P(A' \mid B_1) \) 이고 \( P(A \mid B_2) > P(A' \mid B_2) \) 라 해도 가중치 \( P(B_i) \) 가 양쪽에서 다르면 \( P(A) \) 와 \( P(A') \) 의 부등호는 뒤집힐 수 있습니다.

노트 18.6.2

실세계에서 데이터가 "전체 평균"으로만 제시될 때 의심해 볼 줄 알아야 합니다. 적절한 분할을 들이대면 스토리가 완전히 뒤집히기도 해요. 컴퓨터과학에서 A/B 테스트 결과를 해석할 때도 같은 함정이 있습니다.

18.7 독립 Independence

"정보를 받아도 확률이 안 바뀌는" 사건들을 독립이라고 합니다. 18.2의 주사위 예제에서 \( P(A \mid B) = P(A) \) 가 그런 경우였죠. 정의는 깔끔합니다.

정의 18.7.1 (두 사건의 독립)

사건 \( A, B \) 가 독립이라는 것은 \[ P(A \cap B) \;=\; P(A) \, P(B). \] \( P(B) > 0 \) 이면 이는 \( P(A \mid B) = P(A) \) 와 동치입니다.

"확률이 0인 사건은 어떻게 되나?" 같은 경계 사례를 깔끔히 처리하려고 곱 형태를 정의로 채택해요. 직관적으로 독립은 "한쪽이 일어났다는 사실이 다른 쪽의 분포에 아무 영향을 못 준다"는 의미입니다.

예제 18.7.2 (동전 두 번)

공정한 동전을 두 번 던집니다. \( H_1 \) = "첫 번째가 앞", \( H_2 \) = "두 번째가 앞". 각 \( 1/2 \) 이고 \( P(H_1 \cap H_2) = 1/4 \). 곱과 같으니 독립이에요. 반면 같은 실험에서 \( S \) = "둘 다 같은 면", \( H_1 \) 을 비교해 보세요. \( P(S) = 1/2, P(H_1) = 1/2, P(S \cap H_1) = 1/4 \). 신기하게도 이쪽도 독립입니다.

주의할 점: 서로소(disjoint)와 독립(independent)은 완전히 다른 개념입니다. 서로소면 \( P(A \cap B) = 0 \) 인데, \( A, B \) 가 둘 다 양의 확률이면 곱은 양수라 정의 18.7.1을 만족할 수 없어요. 서로소인 두 양수확률 사건은 절대 독립이 아닙니다.

18.8 상호 독립 Mutual Independence

여러 사건의 독립은 한 단계 더 까다롭습니다. 단순히 "두 개씩 짝지어 모두 독립"인 것(쌍별 독립, pairwise)과 "모든 부분집합이 독립"인 것(상호 독립, mutual)은 다릅니다.

정의 18.8.1 (상호 독립)

사건 \( A_1, A_2, \dots, A_n \) 이 상호 독립이라는 것은, 임의의 부분집합 \( \{i_1, i_2, \dots, i_k\} \subseteq \{1, \dots, n\} \) 에 대해 \[ P(A_{i_1} \cap A_{i_2} \cap \dots \cap A_{i_k}) \;=\; P(A_{i_1}) \, P(A_{i_2}) \cdots P(A_{i_k}). \]

예제 18.8.2 (쌍별인데 상호는 아님)

공정한 동전 두 개를 던집니다. \( A \) = "첫 번째 앞", \( B \) = "두 번째 앞", \( C \) = "두 결과가 같음". 각 확률은 \( 1/2 \) 이고, 어떤 둘을 골라도 교집합 확률은 \( 1/4 \) 라 쌍별 독립입니다. 그런데 \( A \cap B \cap C = A \cap B \) 라 \( P(A \cap B \cap C) = 1/4 \neq 1/8 = P(A)P(B)P(C) \). 세 개 모두 모이면 독립이 깨지는 거예요.

쉽게 말해 쌍별 독립은 "어느 한 사건에 대한 정보로는 다른 한 사건을 못 맞추지만, 두 사건의 정보를 합치면 세 번째를 알 수도 있다"는 상황을 허용합니다. 진짜 독립을 원하면 부분집합 모두를 점검해야 해요.

노트 18.8.3

실무에서 \( n \) 개의 사건이 상호 독립이면 결합확률이 \( P(A_1) \cdots P(A_n) \) 으로 깔끔히 분해되어 계산이 폭발적으로 단순해집니다. 통신 채널에서의 비트 오류, 네트워크 패킷 손실, 분산 시스템의 노드 장애 같은 모델링이 보통 이 가정 위에서 굴러가요. 단, 이 가정이 깨지는 순간(전원 동시 다운, 같은 라우터 의존) 시스템이 한꺼번에 무너집니다.

18.9 확률 vs 신뢰도 Probability versus Confidence

마지막으로 철학적인 곁가지 하나. "동전을 던졌을 때 앞이 나올 확률 \( 1/2 \)"라는 말은 무슨 뜻일까요? 답이 둘로 갈립니다.

빈도주의(frequentist) 관점: 확률은 "장기적으로 같은 실험을 무한히 반복했을 때의 빈도"입니다. 앞면이 나올 확률이 \( 1/2 \) 라는 건 던지기를 무한히 하면 앞면 비율이 \( 1/2 \) 로 수렴한다는 뜻이에요. 이 관점에서 "내일 비올 확률이 30%"는 다소 어색합니다. 내일은 한 번뿐이라 빈도가 정의되지 않으니까요.

베이즈주의(Bayesian) 관점: 확률은 "관찰자의 신뢰도(degree of belief)"입니다. 30%란 "내가 가진 정보로 봤을 때 비가 올 거라는 믿음의 강도가 그 정도"라는 의미예요. 새 정보가 들어오면 베이즈 정리로 신뢰도를 업데이트합니다(사전 확률 → 사후 확률).

노트 18.9.1 (어떤 관점이 맞나?)

둘 다 맞습니다. 다만 응용 영역이 달라요. 동전이나 주사위처럼 반복 가능한 현상에는 빈도주의가 자연스럽고, 의학 진단·머신러닝·일기예보처럼 "한 번뿐인 사건에 신뢰도를 매기는" 상황에는 베이즈가 강력합니다. 흥미롭게도 두 관점 모두 정의 18.2.1과 정리 18.5.2를 그대로 사용해요. 수학은 같고 해석만 다릅니다.

베이즈 정리를 다시 봅시다. \( P(B \mid A) = P(A \mid B) P(B) / P(A) \). 베이즈 관점에서 \( P(B) \) 는 사전 신뢰도(prior), \( P(B \mid A) \) 는 \( A \) 라는 증거를 본 뒤의 사후 신뢰도(posterior), \( P(A \mid B) \) 는 가설 \( B \) 가 데이터 \( A \) 를 얼마나 잘 설명하는지를 나타내는 가능도(likelihood)입니다. 이 세 단어는 통계학·머신러닝의 기본 어휘예요.

이 챕터에서 우리는 "정보가 들어오면 확률이 바뀐다"는 한 줄을 정의 18.2.1로 엄밀화하고, 그것이 트리·전확률·베이즈·심슨역설·독립 같은 풍성한 결과로 뻗어가는 모습을 봤습니다. 다음 챕터에서는 확률을 값으로 다루는 도구, 확률변수로 넘어갑니다. 이제 사건 단위가 아니라 숫자 단위로 확률을 보는 거예요.