통계학에서 (아마도 가장) 자주 만날 부등식: 젠센 부등식


수학적으로 그렇게 빡센 트레이닝을 요구하지 않는 분야에 종사하는 사람들이라면 들어보지 못했을 법한, 하지만 수리통계를 공부해 본 사람이라면 누구나 아는 부등식이 하나 있는데 그것은 바로 젠센 부등식 Jensen’s inequality 입니다. 오늘은 이 부등식에 대해 잠깐 이야기하겠습니다. 이 부등식은 아래로 또는 위로 볼록한 함수의 기댓값에 대한 유용한 관계식을 제공해 줍니다. 더불어 통계 응용에 있어서도 중요한 의미를 갖는데, 자세한 것은 다음 포스팅에 소개하겠습니다. 변수 변환과 관련하여 중요한 의미를 갖는 내용이기 때문에 따로 다루겠습니다.

부등식 자체는 간단합니다. \(f(x)\)가 아래로 볼록한 (convex) 함수라고 합시다. 이를테면 \( f(x) = x^2 \) 입니다. 그러면 임의의 확률변수 X에 대해 다음 관계식이 성립합니다:

이 부등식을 말로 풀면 다음과 같습니다: 아래로 볼록한 함수에 대해, 함수값의 기댓값은 기댓값의 함수값보다 크거나 같다. 좀 더 쉽게 말하자면 다음과 같습니다. 아래로 볼록한 함수에 대해, 함수값의 평균은 평균의 함수값보다 크거나 같다. 수학적 증명은 검색하면 많이 나오니 생략하겠습니다.

사실 이 부등식은 그림으로 이해하는 게 가장 직관적입니다. 아래 그림을 봅시다.

(출처: https://jadecci.github.io/notes/AEVB.html)

편의상 \(x_1\)과 \(x_2\) 두 점만 고려합니다. 평균을 먼저 취한 후 함수값을 계산하려면 람다에 \(\frac{1}{2}\) 을 대입하고 \(x_1\)과 \(x_2\)의 평균인 \(\frac{1}{2}x_1 + \frac{1}{2} x_2\) 에서 쭉 위로 올라가서 곡선과 만나는 데를 찾으면 됩니다. 그러면 \(f(\frac{1}{2}x_1 + \frac{1}{2}x_2)\) 가 되겠죠. 그런데 거기서 위로 쭉 더 올라가면 함수값을 먼저 취한 뒤 평균을 구한 점을 만날 수 있습니다. 이것이 \(\frac{1}{2}f(x_1) + \frac{1}{2}f(x_2)\) 에 해당됩니다. 이 점은 더 위에 있으니까, 우리는 쉽게 다음과 같은 결론을 낼 수 있습니다 [1]:

즉 함수값을 먼저 취하고 평균을 낸 것이 평균을 낸 다음 함수값을 취한 것보다 큽니다. 이 관계는 어떤 아래로 볼록한 함수에 대해서도 성립합니다. 반대로 위로 볼록한 함수의 경우에는 부등호 방향이 역전됩니다. 그래프 모양을 생각해 보면 쉽게 이해할 수 있겠죠? 이런 함수의 대표적인 케이스로는 로그 함수가 있습니다. 즉 다음의 관계식이 양의 값을 갖는 어떤 확률변수 X에 대해서나 성립합니다:

간단한 R 시뮬레이션을 통해 확인해 봅시다. \(X \sim \text{Uniform}(0.1, 1.9)\) 라고 가정해 봅시다. \(\mathbb{E}[X]=1\) 이니까, \(\log(\mathbb{E}[X])=\log(1)=0\) 이겠죠? 이건 시뮬레이션 안 해도 알 수 있습니다. 그러면 \(\mathbb{E}[\log(X)]\)는 어떨까요? (3)에 의하면 0과 같거나 더 작아야겠죠? 이제 이것을 몬테칼로 시뮬레이션으로 확인해 봅시다.

X <- runif(1000000, 0.1, 1.9)

round(mean(log(X)), 3)

[1] -0.193

우리가 예상한 대로 \( \mathbb{E}[\log(X)]\) 는 0보다 작은 값이 나왔습니다. 여기서 \( X \)는 양의 값을 가지면서 평균이 1인 어떤 분포든 관계없습니다. 이를테면 \( X \) 가 지수분포, 즉 \(X \sim \exp(1)\) 도 비슷한 결과를 산출합니다:

X <- rexp(1000000, 1)

round(mean(log(X)), 3)

[1] -0.576

젠센 부등식은 통계학에서 워낙 널리 활용돼서 용례를 일일이 열거하기조차 힘든데, 가장 대표적인 용례는 Kullback-Leibler divergence가 0보다 작지 않다는 것을 보이는 것입니다. 두 확률분포 \(p(x)\)와 \(q(x)\)에 대한 KL divergence는 다음과 같이 정의됩니다.

여기서 \(\mathbb{E}_p\)는 확률분포 p에 대한 기댓값이라는 뜻입니다. 그런데 (4) 의 우변은 다음과 같이 다시 쓸 수 있습니다.

여기서 젠센 부등식을 적용하면 다음을 얻습니다:

그런데 (6) 의 우변을 기댓값의 정의에 따라 전개하면 다음과 같습니다:

여기서 q(x)는 임의의 확률분포이기 때문에, \(\int q(x)dx = 1\) 이라는 사실을 사용했습니다. 그래서 (6)을 다시 쓰면 다음과 같습니다.

이렇게 KL divergence가 음의 값을 가지지 않는다는 것을 증명했습니다. 물론 (7)에서 등호는 \(p=q\) 일 때만 성립합니다. [2]

지금까지 젠센 부등식에 대해 꽤 길게 설명했습니다. 그런데 사실 응용통계학을 하는 사람들 입장에서는 젠센 부등식이 왜 필요한지 잘 와닿지 않습니다. 예를 들어 KL divergence가 non-negative라는 것은 그냥 수학적 사실로 받아들이면 되고, 통계의 실제 적용에는 큰 상관이 없겠죠? 하지만 이게 실제 데이터분석 장면에서 문제가 되는 경우가 존재합니다. 그것에 대해서는 다음 글에서 다루도록 하겠습니다.

[1] 사실 람다에 0과 1 사이의 어떤 값을 넣어도 이 관계가 성립한다는 것은 함수의 모양을 보면 자명합니다.

[2] Gibb’s inequality에서도 바로 유도 가능합니다.