PART IV — 확률

20 평균에서의 이탈 Deviation from the Mean

기댓값은 확률변수의 "중앙"을 알려주는 한 점입니다. 하지만 실제 값이 그 중앙에서 얼마나 벗어날 수 있는지는 또 다른 이야기예요. 같은 평균을 가진 두 확률변수라도 어떤 것은 거의 평균 근처에 머물고, 어떤 것은 사방팔방으로 흩어집니다. 이번 챕터에서는 "기댓값은 중앙을 알려주고, 분산은 흔들림을 알려준다"는 구호를 깃발 삼아, 확률변수가 평균에서 멀어질 확률을 부등식으로 통제하는 방법을 배웁니다. 그리고 이 도구들을 모아 큰 수의 법칙(약한 형태)까지 도달해 봅니다.

20.1 마르코프 부등식 Markov's Theorem

여러분이 어느 빵집의 일일 매출 데이터를 받았다고 합시다. 일일 매출의 평균이 100만 원이라는 사실 하나만 알 때, "어느 날의 매출이 1000만 원을 넘을 확률"에 대해 무슨 말을 할 수 있을까요? 매출의 분포 모양을 모르므로 정확한 값은 못 구합니다. 그래도 "그런 일은 자주 못 일어난다"는 직관은 분명히 있어요. 평균이 100만 원인데 매일 1000만 원씩 찍히면 평균이 그렇게 작을 리가 없잖아요. 마르코프 부등식은 바로 이 직관을 식 한 줄로 굳힌 것입니다.

정리 20.1.1 (마르코프 부등식, Markov's Inequality)

\( X \)가 음이 아닌(non-negative) 확률변수이고 \( a > 0 \)이면 \[ \Pr[X \ge a] \le \frac{\mathrm{E}[X]}{a}. \]

증명

\( X \ge 0 \)이라는 가정이 핵심입니다. 다음 두 사건을 비교해 봅시다. 사건 \( A = \{X \ge a\} \)에서는 \( X \ge a \)이고, 그 보집합에서는 \( X \ge 0 \)이에요. 따라서

\[ \mathrm{E}[X] = \sum_{x} x \cdot \Pr[X = x] \;\ge\; \sum_{x \ge a} x \cdot \Pr[X = x] \;\ge\; \sum_{x \ge a} a \cdot \Pr[X = x] = a \cdot \Pr[X \ge a]. \]

양변을 \( a \)로 나누면 부등식이 나옵니다. (연속형이면 합 대신 적분이지만 논리는 같아요.)

∎

예제 20.1.2 (시험 점수)

어떤 시험의 평균 점수가 75점이라고 합시다. 점수는 0점 이상 100점 이하예요. "90점 이상 받을 학생의 비율"의 상한을 구해 봅시다. 마르코프 부등식을 그대로 쓰면 \( \Pr[X \ge 90] \le 75/90 \approx 0.833 \). 즉 90점 이상은 많아야 약 83%라는 뻔한 결과예요. 별로 도움이 안 되는 것 같죠? 맞아요, 마르코프는 정보가 평균밖에 없을 때 짜낼 수 있는 가장 약한 한계입니다.

하지만 같은 도구라도 변수를 바꿔 끼우면 더 날카로워집니다. 예컨대 "0점부터 측정된 평균" 대신 "75점에서 떨어진 양"을 보면, \( Y = 100 - X \)의 평균은 25이고 \( Y \ge 100 - 90 = 10 \)이라는 사건은 원래 사건 \( X \le 90 \)과 같습니다. 마르코프를 \( Y \)에 적용하면 \( \Pr[X \le 90] = \Pr[Y \ge 10] \le 25/10 \), 이건 1을 넘어 무용지물. 즉 한계는 변수의 모양에 따라 유용할 때도, 그렇지 않을 때도 있다는 점을 기억해 두세요.

노트 (마르코프의 한계)

마르코프 부등식이 평범해 보이는 이유는, 분포의 모양에 대한 정보가 "평균이 얼마"라는 한 줄밖에 없기 때문입니다. 분산이나 대칭성 같은 추가 정보를 쓰면 훨씬 좁은 경계를 얻을 수 있어요. 다음 절의 체비셰프가 그 첫걸음입니다. 또 마르코프의 등호는 "값이 0 또는 \( a \) 단 두 개"인 분포에서 달성된다는 점도 꼭 짚어 둡시다. 즉 한계는 일반적으로는 느슨하지만, 어떤 분포에서는 정확합니다.

20.2 체비셰프 부등식 Chebyshev's Theorem

마르코프는 평균만 알 때 쓰는 도구였습니다. 만약 평균뿐 아니라 "값이 평균에서 얼마나 흩어져 있는지"까지 안다면 어떨까요? 흩어짐을 잰 양이 분산입니다. 분산이 작으면 변수는 평균 근처에 빽빽하게 몰려 있을 거고, 분산이 크면 사방으로 퍼져 있겠죠. 체비셰프 부등식은 이 직관을 살짝 더 정량적으로 다듬은 결과입니다.

정의 20.2.1 (분산과 표준편차)

확률변수 \( X \)의 평균을 \( \mu = \mathrm{E}[X] \)라 할 때, 분산은 \[ \mathrm{Var}(X) = \mathrm{E}\!\left[(X-\mu)^2\right]. \] 표준편차는 \( \sigma = \sqrt{\mathrm{Var}(X)} \)로 정의합니다. 분산은 "평균에서의 제곱 거리"의 평균이라고 외워 두면 좋아요.

정리 20.2.2 (체비셰프 부등식)

\( X \)의 평균이 \( \mu \), 표준편차가 \( \sigma > 0 \)일 때 임의의 \( k > 0 \)에 대해 \[ \Pr\!\left[|X - \mu| \ge k\sigma\right] \le \frac{1}{k^2}. \] 더 일반적으로, 임의의 \( a > 0 \)에 대해 \[ \Pr\!\left[|X - \mu| \ge a\right] \le \frac{\mathrm{Var}(X)}{a^2}. \]

증명

핵심 트릭은 "양수가 아닌 양을 양수로 만드는 제곱"입니다. \( Y = (X - \mu)^2 \)으로 두면 \( Y \ge 0 \). 그리고 \( |X - \mu| \ge a \)와 \( Y \ge a^2 \)은 같은 사건이에요. 이제 비음 변수 \( Y \)에 마르코프를 적용하면

\[ \Pr[Y \ge a^2] \le \frac{\mathrm{E}[Y]}{a^2} = \frac{\mathrm{Var}(X)}{a^2}. \]

여기에 \( a = k\sigma \)를 넣으면 \( \mathrm{Var}(X)/a^2 = \sigma^2/(k\sigma)^2 = 1/k^2 \).

∎

예제 20.2.3 (3시그마 규칙의 약한 형태)

어떤 측정값의 평균이 \( \mu \), 표준편차가 \( \sigma \)일 때 "평균에서 3시그마 이상 떨어질 확률"은? 체비셰프에 \( k = 3 \)을 넣으면 \( \Pr[|X - \mu| \ge 3\sigma] \le 1/9 \approx 0.111 \). 정규분포에서는 이게 약 0.0027로 훨씬 작지만, 분포 모양을 모를 땐 1/9이 우리가 줄 수 있는 보장이에요. 즉 체비셰프는 "어떤 분포든" 통하는 보편적 안전선입니다.

예제 20.2.4 (작은 분산이 주는 힘)

한 시스템의 응답시간 \( T \)의 평균이 100ms, 분산이 25(즉 \( \sigma = 5 \)ms)라 합시다. "응답시간이 120ms를 넘을 확률"에 대해 체비셰프는 \( \Pr[|T - 100| \ge 20] \le 25/400 = 1/16 \). 흥미로운 건 분산이 작아질수록 이 한계가 빠르게 좋아진다는 점입니다. 분산이 1로 줄면 같은 사건의 확률은 \( 1/400 \) 이하로 떨어져요. 흩어짐이 작을수록 평균에서 멀어지기 어렵다는 직관과 정확히 맞습니다.

노트 (마르코프 → 체비셰프 → 그다음)

증명을 다시 보세요. 체비셰프는 결국 \( (X-\mu)^2 \)에 마르코프를 쓴 것입니다. 같은 트릭을 \( e^{tX} \) 같은 지수함수에 적용하면 더 강력한 체르노프(Chernoff) 한계가 나옵니다. 챕터의 한참 뒤에서 다루지만, 모든 집중부등식의 뿌리는 한 그루인 셈이에요.

20.3 분산의 성질 Properties of Variance

분산을 "정의대로" 매번 \( \mathrm{E}[(X-\mu)^2] \)로 계산하는 건 불편합니다. 두 가지 도구를 갖춰 두면 한결 빨라져요. 하나는 분산을 다른 형태로 풀어 쓰는 항등식, 또 하나는 합의 분산을 합으로 나누는 법칙입니다.

정리 20.3.1 (분산의 계산식)

\[ \mathrm{Var}(X) = \mathrm{E}[X^2] - (\mathrm{E}[X])^2. \]

증명

\( \mu = \mathrm{E}[X] \)는 상수이므로 기댓값의 선형성을 그대로 풀어 쓰면

\[ \mathrm{E}[(X-\mu)^2] = \mathrm{E}[X^2 - 2\mu X + \mu^2] = \mathrm{E}[X^2] - 2\mu\,\mathrm{E}[X] + \mu^2 = \mathrm{E}[X^2] - \mu^2. \]

∎

예제 20.3.2 (공정한 6면 주사위)

주사위의 눈을 \( X \)라 하면 \( \mathrm{E}[X] = 3.5 \). 그리고 \[ \mathrm{E}[X^2] = \frac{1^2 + 2^2 + \cdots + 6^2}{6} = \frac{91}{6} \approx 15.17. \] 따라서 \( \mathrm{Var}(X) = 91/6 - 49/4 = 35/12 \approx 2.92 \), 표준편차는 약 1.71. 평균 3.5에서 약 1.71 떨어진 자리에 "전형적인 흔들림"이 있다는 뜻이에요.

정리 20.3.3 (스케일·이동, 합의 분산)

임의의 상수 \( a, b \)와 확률변수 \( X, Y \)에 대해 \[ \mathrm{Var}(aX + b) = a^2 \mathrm{Var}(X). \] 또한 \( X \)와 \( Y \)가 독립이면 \[ \mathrm{Var}(X + Y) = \mathrm{Var}(X) + \mathrm{Var}(Y). \] 더 일반적으로, \( X_1, \ldots, X_n \)이 쌍별로 독립이면 \[ \mathrm{Var}\!\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \mathrm{Var}(X_i). \]

증명 스케치

이동 \( +b \)는 평균을 같이 옮기므로 편차 \( X - \mu \)에는 영향을 주지 않습니다. 그래서 분산은 변하지 않아요. 스케일 \( a \)를 곱하면 편차도 \( a \)배가 되고 제곱하면 \( a^2 \)배. 그래서 \( a^2 \mathrm{Var}(X) \).

독립합의 분산은 다음과 같이 풉니다. \( \mu_X, \mu_Y \)를 평균이라 하면 \[ \mathrm{Var}(X+Y) = \mathrm{E}\!\left[((X-\mu_X) + (Y-\mu_Y))^2\right] = \mathrm{Var}(X) + \mathrm{Var}(Y) + 2\,\mathrm{Cov}(X, Y). \] 여기서 공분산 \( \mathrm{Cov}(X,Y) = \mathrm{E}[(X-\mu_X)(Y-\mu_Y)] \)이고, 독립이면 \( \mathrm{E}[(X-\mu_X)(Y-\mu_Y)] = \mathrm{E}[X-\mu_X]\,\mathrm{E}[Y-\mu_Y] = 0 \). 따라서 교차항이 사라집니다.

∎

노트 (독립이 깨지면?)

합의 분산이 분산의 합과 같으려면 "독립" 또는 적어도 "쌍별 비상관(공분산이 0)"이 필요합니다. 두 변수가 양의 상관이면 \( \mathrm{Var}(X+Y) \)가 더 커지고, 음의 상관이면 더 작아져요. 위험을 분산할 때 "음의 상관 자산을 섞는" 분산투자의 직관이 여기서 나옵니다.

예제 20.3.4 (\( n \)번 주사위의 합)

주사위를 \( n \)번 굴려 그 합을 \( S_n = X_1 + \cdots + X_n \)이라 하면, 각 \( X_i \)의 분산이 \( 35/12 \)이고 모두 독립이므로 \( \mathrm{Var}(S_n) = 35n/12 \). 표준편차는 \( \sqrt{35n/12} \approx 1.71\sqrt{n} \). 합의 평균은 \( 3.5 n \)으로 \( n \)에 비례해 커지지만, 표준편차는 \( \sqrt{n} \)에만 비례한다는 점이 핵심이에요. "상대적인 흔들림"이 \( n \)이 커질수록 줄어드는 것, 이게 곧 큰 수의 법칙으로 이어집니다.

20.4 무작위 표본 추정 Estimation by Random Sampling

실제 응용에서 우리는 모집단 전체를 관찰하지 못합니다. 대신 일부를 무작위로 골라 평균을 재고, 그 표본 평균이 모평균에 얼마나 가까운지 추정해야 해요. 여론조사, A/B 테스트, 몬테카를로 시뮬레이션 모두 똑같은 구조입니다. 이 절에서는 체비셰프를 이용해 "표본을 몇 개 뽑아야 충분한가"를 답하는 가장 단순한 방법을 살펴봅니다.

모집단에서 같은 분포로 독립적으로 뽑은 표본을 \( X_1, X_2, \ldots, X_n \)이라 합시다. 모평균은 \( \mu \), 모분산은 \( \sigma^2 \). 표본 평균은 \[ \bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i. \] 이 \( \bar{X}_n \) 자체가 확률변수예요. 우리는 이 새로운 변수의 평균과 분산을 이미 가진 도구로 계산할 수 있습니다.

정리 20.4.1 (표본 평균의 평균과 분산)

\[ \mathrm{E}[\bar{X}_n] = \mu, \qquad \mathrm{Var}(\bar{X}_n) = \frac{\sigma^2}{n}. \]

증명 스케치

기댓값의 선형성으로 \( \mathrm{E}[\bar{X}_n] = (1/n) \sum \mathrm{E}[X_i] = \mu \). 분산은 스케일과 독립합 법칙을 함께 써서

\[ \mathrm{Var}(\bar{X}_n) = \mathrm{Var}\!\left(\tfrac{1}{n}\sum X_i\right) = \tfrac{1}{n^2} \sum \mathrm{Var}(X_i) = \tfrac{n\sigma^2}{n^2} = \tfrac{\sigma^2}{n}. \]

∎

중요한 포인트는 표본 평균의 표준편차가 \( \sigma/\sqrt{n} \)으로 줄어든다는 것입니다. 표본을 100배로 늘려도 정확도는 10배밖에 좋아지지 않아요. 이 "1/제곱근" 비율이 통계학 비용 구조의 본질입니다.

정리 20.4.2 (체비셰프 기반 표본 크기 공식)

오차 허용범위 \( \varepsilon > 0 \)과 신뢰도 \( 1 - \delta \)에 대해, 표본 크기 \( n \)이 \[ n \ge \frac{\sigma^2}{\varepsilon^2 \delta} \] 을 만족하면 \( \Pr[|\bar{X}_n - \mu| \ge \varepsilon] \le \delta \).

증명

표본 평균 \( \bar{X}_n \)에 체비셰프(분산 형태)를 적용하면 \[ \Pr[|\bar{X}_n - \mu| \ge \varepsilon] \le \frac{\mathrm{Var}(\bar{X}_n)}{\varepsilon^2} = \frac{\sigma^2}{n \varepsilon^2}. \] 이걸 \( \delta \)보다 작거나 같게 만들면 \( n \ge \sigma^2 / (\varepsilon^2 \delta) \).

∎

예제 20.4.3 (여론조사)

어떤 후보의 지지율 \( p \)를 추정한다고 합시다. 한 사람의 응답 \( X_i \)는 0 또는 1이고 \( \mathrm{E}[X_i] = p, \mathrm{Var}(X_i) = p(1-p) \le 1/4 \). 오차 \( \pm 3\%p\) 안쪽에 95% 확률로 들어오게 하려면 \( \varepsilon = 0.03, \delta = 0.05 \)로 두고 \[ n \ge \frac{1/4}{(0.03)^2 \cdot 0.05} = \frac{0.25}{0.0000045} \approx 55{,}556. \] 체비셰프는 분포 모양에 무지한 보편 보장이라 큰 표본을 요구합니다. 실제 여론조사가 1000~2000명으로 끝나는 건 정규근사(중심극한정리)를 가정하기 때문이에요. 그래도 "모르는 분포에서 안전하게" 가려면 체비셰프가 합리적 출발선입니다.

노트 (신뢰구간의 해석)

"95% 신뢰구간"이라는 말은 미묘합니다. 한 번 계산한 구간 \([\bar{X}_n - \varepsilon, \bar{X}_n + \varepsilon]\)이 모평균 \( \mu \)를 95% 확률로 포함한다는 뜻이 아니에요. 같은 절차를 여러 번 반복했을 때, 그렇게 만들어진 구간들 중 약 95%가 \( \mu \)를 덮는다는 뜻입니다. \( \mu \)는 (빈도주의 시각에서는) 고정된 미지의 수이지 확률변수가 아니에요.

20.5 확률변수의 합과 큰 수의 법칙 Sums of Random Variables

지난 절들에서 우리는 두 가지 사실을 모았습니다. 첫째, 독립합의 분산은 분산의 합이다. 둘째, 표본 평균의 분산은 \( \sigma^2/n \)이다. 이 두 도구만 가지고도 확률론에서 가장 유명한 정리 중 하나인 "큰 수의 법칙"의 약한 형태를 단단하게 증명할 수 있어요. 이름이 거창해서 어려워 보이지만, 본질은 한 줄입니다. "표본을 충분히 모으면 표본 평균은 모평균에 거의 확실하게 가깝다."

정리 20.5.1 (약한 큰 수의 법칙, Weak Law of Large Numbers)

\( X_1, X_2, \ldots \)이 평균 \( \mu \), 분산 \( \sigma^2 < \infty \)인 동분포 독립 확률변수열이고 \( \bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \)이면, 임의의 \( \varepsilon > 0 \)에 대해 \[ \lim_{n \to \infty} \Pr\!\left[|\bar{X}_n - \mu| \ge \varepsilon\right] = 0. \]

증명 (체비셰프 한 줄)

표본 평균에 체비셰프를 적용하면 이미 봤듯이 \[ \Pr\!\left[|\bar{X}_n - \mu| \ge \varepsilon\right] \le \frac{\sigma^2}{n \varepsilon^2}. \] \( \varepsilon \)을 고정한 채 \( n \to \infty \)로 보내면 우변이 0으로 수렴하므로 좌변도 0으로 수렴합니다.

∎

증명 한 줄이 너무 짧아 보일지도 모르지만, 그 한 줄을 가능하게 한 인프라는 결코 짧지 않았어요. 기댓값의 선형성, 독립합의 분산, 분산의 계산식, 마르코프, 체비셰프, 표본 평균의 분산 공식 — 이 모든 부품이 있어야 마지막 한 줄이 의미를 가집니다. 책의 한 챕터가 어떻게 모여 큰 정리를 받쳐 주는지 보여주는 좋은 예시예요.

예제 20.5.2 (몬테카를로 적분)

함수 \( f: [0,1] \to \mathbb{R} \)의 적분 \( I = \int_0^1 f(x)\,dx \)를 컴퓨터로 추정하고 싶다고 합시다. \( U_1, \ldots, U_n \)을 \([0,1]\)에서 독립 균등 분포로 뽑고 \[ \hat{I}_n = \frac{1}{n} \sum_{i=1}^n f(U_i) \] 을 추정값으로 씁니다. \( \mathrm{E}[f(U_i)] = I \)이므로 약한 큰 수의 법칙에 의해 \( \hat{I}_n \)은 \( n \to \infty \)일 때 확률적으로 \( I \)에 수렴합니다. 추정 오차의 표준편차는 \( \mathrm{Var}(f(U_1))/\sqrt{n} \) 정도로 줄어들고요. 차원이 높아져도 \( 1/\sqrt{n} \)이라는 비율이 그대로 유지된다는 점이 몬테카를로의 강력함입니다.

예제 20.5.3 (도박꾼의 환상)

공정한 동전 던지기에서 앞면이 나오면 +1, 뒷면이면 -1이라고 합시다. 평균은 0. \( S_n = X_1 + \cdots + X_n \)은 시행 \( n \)회 후 잔고예요. 사람들은 종종 "큰 수의 법칙이 있으니 \( S_n \)도 0에 가까워질 것"이라 오해합니다. 그러나 큰 수의 법칙이 말하는 건 \( S_n/n \)이 0에 가까워진다는 것이지, \( S_n \) 자체는 평균적으로 \( \sqrt{n} \)만큼 흔들립니다. 표본 평균은 모평균에 가까워지지만, 합 자체는 점점 더 큰 폭으로 출렁여요. "공정한 도박을 오래 하면 본전을 회복한다"는 건 신화입니다.

노트 (약함 vs 강함, 그리고 그다음)

여기서 증명한 "약한" 큰 수의 법칙은 확률적 수렴(probability convergence)이라고 부르는 약한 형태의 수렴입니다. "강한" 큰 수의 법칙은 거의 확실한 수렴(almost sure convergence)을 보장하는데, 그건 더 정교한 도구가 필요해 보통 측도론을 다루는 강의에서 다뤄요. 또 한 단계 더 나아가면 \( \sqrt{n}(\bar{X}_n - \mu) \)의 분포가 정규분포로 가까워진다는 중심극한정리(CLT)가 기다리고 있습니다. 그러나 이번 챕터의 무대는 여기서 막을 내립니다. 부등식 두 개와 분산 한 줌으로도 큰 수의 법칙에 도달할 수 있다는 사실, 그게 오늘의 수확이에요.

정리 한 줄 요약

마르코프는 평균만으로 꼬리 확률을 누르고, 체비셰프는 \( (X-\mu)^2 \)에 마르코프를 다시 써서 분산으로 더 좁게 누른다. 분산의 선형성(독립일 때)은 합과 평균의 분산을 폭발하지 않게 통제해 주고, 그 통제를 체비셰프와 합치면 표본 평균은 \( n \)이 커질수록 모평균에 수렴한다. 이게 약한 큰 수의 법칙이다.