Post

Probability Random Process

Probability Random Process

Bernoulli process에서 시작하여 Poisson process로 확장되는 확률과정의 흐름을 정리했습니다.
discrete-time 모델과 continuous-time 모델이 어떻게 대응되는지를 중심으로 정리했습니다.

Bernoulli process는 시간 슬롯 단위로 사건의 발생 여부를 표현하는 가장 기본적인 discrete-time 확률 process입니다.
Poisson process는 이를 연속시간으로 확장한 모델입니다.
이 과정에서 Binomial, Geometric, Pascal 분포가 Poisson, Exponential, Erlang 분포와 어떻게 연결되는지도 함께 정리합니다.

Random Process의 기본 관점

확률과정은 시간에 따라 정의된 랜덤변수들의 모임입니다.

  • discrete-time process: $X_1, X_2, X_3, \dots$
  • continuous-time process: $X(t), \; t \ge 0$

값의 형태에 따라 다음과 같이 나눌 수 있습니다.

  • discrete time, discrete value
  • discrete time, continuous value
  • continuous time, discrete value
  • continuous time, continuous value

본 문서에서 다루는 핵심은 다음 두 가지입니다.

  • Bernoulli process: discrete time, discrete value
  • Poisson process: continuous time, discrete value

Bernoulli Process

정의

Bernoulli process는 각 시간 슬롯마다 성공 또는 실패가 발생하는 확률과정입니다.

각 슬롯에서

\[X_i \sim \text{Bernoulli}(p)\]

이고, 모든 $X_i$는 서로 독립입니다.
즉,

  • $X_i = 1$: 성공 또는 arrival
  • $X_i = 0$: 실패 또는 no arrival

로 해석합니다.

이 과정은 discrete-time에서 가장 기본적인 random process입니다.


첫 $n$개 슬롯에서의 성공 횟수

첫 $n$개 슬롯 동안의 성공 횟수를

\[S_n = X_1 + X_2 + \cdots + X_n\]

라고 두면,

\[S_n \sim \text{Binomial}(n,p)\]

입니다.

확률질량함수는

\[P(S_n = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0,1,\dots,n\]

입니다.

평균과 분산은

\[E[S_n] = np\] \[\mathrm{Var}(S_n) = np(1-p)\]

입니다.

Bernoulli process에서 일정한 길이의 슬롯 구간 안 성공 횟수를 보면 Binomial distribution이 나옵니다.


첫 성공까지 걸리는 시간

첫 성공이 나올 때까지 걸리는 슬롯 수를 $T_1$이라고 하면,

\[T_1 \sim \text{Geometric}(p)\]

입니다.

확률질량함수는

\[P(T_1 = k) = (1-p)^{k-1}p, \quad k = 1,2,3,\dots\]

입니다.

평균과 분산은

\[E[T_1] = \frac{1}{p}\] \[\mathrm{Var}(T_1) = \frac{1-p}{p^2}\]

입니다.

이 분포는 첫 성공까지 몇 개의 discrete slot을 기다려야 하는지를 나타냅니다.


$k$번째 성공까지 걸리는 시간

$k$번째 성공이 발생하는 시점을 $Y_k$라고 하면,

\[Y_k \sim \text{Pascal}(k,p)\]

입니다.

확률질량함수는

\[P(Y_k = t) = \binom{t-1}{k-1} p^k (1-p)^{t-k}, \quad t = k, k+1, \dots\]

입니다.

이 식의 의미는 다음과 같습니다.

$Y_k = t$가 되려면

  • 처음 $t-1$번 시행에서 성공이 정확히 $k-1$번 있어야 하고
  • $t$번째 시행에서 성공해야 합니다.

$k$번째 성공이 정확히 $t$번째에 처음 완성되는 경우를 세는 것입니다.

Geometric distribution은 Pascal distribution의 $k=1$인 특수한 경우입니다.


Bernoulli Process의 Fresh-Start 성질

Bernoulli process에서는 시간 슬롯 간 독립성이 매우 중요합니다.

예를 들어, 고정된 시점 $n$ 이후의 과정

\[(X_n, X_{n+1}, X_{n+2}, \dots)\]

를 다시 보면, 이전까지 무엇이 일어났는지와 무관하게 여전히 같은 Bernoulli process로 보입니다.

deterministic time 이후에는 fresh-start property가 성립합니다.

이 성질은 random time에서도 항상 성립하는 것은 아닙니다.
random time $N$이 stopping time일 때에만 같은 형태의 fresh-start를 기대할 수 있습니다.

예를 들어,

  • 3번째 arrival 시점: stopping time이므로 가능
  • 처음으로 3연속 arrival이 관측된 시점: stopping time이므로 가능
  • 3연속 arrival 직전 시점: 미래 정보가 필요하므로 불가능

입니다.

핵심은
$N=n$인지 여부를 $X_1,\dots,X_n$만으로 판단할 수 있어야 한다는 점입니다.


Binomial에서 Poisson으로

이제 Bernoulli process를 continuous-time으로 확장하기 위한 준비를 합니다.

Binomial random variable

\[S \sim \text{Bin}(n,p)\]

의 확률질량함수는

\[P(S=k)=\binom{n}{k}p^k(1-p)^{n-k}\]

입니다.

여기서

\[n \to \infty, \quad p \to 0, \quad np=\lambda\]

인 상황을 생각합니다.

즉,

  • 슬롯 수는 무한히 많아지고
  • 각 슬롯의 길이는 무한히 짧아지며
  • 각 슬롯에서 성공확률은 매우 작아지지만
  • 전체 평균 성공 횟수는 $\lambda$로 유지됩니다.

이때 Binomial distribution은 다음과 같이 Poisson distribution으로 수렴합니다.

\[P(S=k) \to e^{-\lambda}\frac{\lambda^k}{k!}\]

따라서

\[\text{Binomial}(n,p) \to \text{Poisson}(\lambda)\]

로 이해할 수 있습니다.

이 결과는 Bernoulli process의 continuous-time 버전이 왜 Poisson process가 되는지를 설명하는 핵심 연결고리입니다.


Poisson Distribution

Poisson random variable $Z$가 parameter $\lambda$를 가지면,

\[Z \sim \text{Poisson}(\lambda)\]

이고, 확률질량함수는

\[P(Z=k)=e^{-\lambda}\frac{\lambda^k}{k!}, \quad k=0,1,2,\dots\]

입니다.

평균과 분산은 모두

\[E[Z]=\lambda\] \[\mathrm{Var}(Z)=\lambda\]

입니다.

Poisson distribution은 일정한 시간 또는 구간 안에서 발생한 사건 수를 모델링하는 데 사용됩니다.


Exponential Distribution

continuous-time에서 첫 arrival까지의 대기시간은 Exponential distribution으로 모델링됩니다.

확률변수 $X$가 parameter $\lambda$를 가지는 지수분포를 따르면,

\[X \sim \text{Exponential}(\lambda)\]

이고, 확률밀도함수는

\[f_X(x)=\lambda e^{-\lambda x}, \quad x \ge 0\]

입니다.

누적분포함수는

\[F_X(x)=1-e^{-\lambda x}, \quad x \ge 0\]

입니다.

tail probability는

\[P(X>x)=e^{-\lambda x}\]

입니다.

평균과 분산은

\[E[X]=\frac{1}{\lambda}\] \[\mathrm{Var}(X)=\frac{1}{\lambda^2}\]

입니다.

Exponential distribution은 Geometric distribution의 continuous-time 대응입니다.


Memoryless Property

Geometric distribution과 Exponential distribution은 모두 memoryless property를 가집니다.

Geometric

\[P(T>m+n \mid T>m)=P(T>n)\]

Exponential

\[P(X>s+t \mid X>s)=P(X>t)\]

이 성질은
지금까지 오래 기다렸다는 사실이 앞으로 남은 대기시간의 분포를 바꾸지 않는다는 뜻입니다.

Geometric은 discrete-time waiting time의 memoryless model이고,
Exponential은 continuous-time waiting time의 memoryless model입니다.


Poisson Process

정의

Poisson process ${N_t}_{t \ge 0}$는 시간 $t$까지 발생한 arrival의 누적 개수를 나타내는 counting process입니다.

즉,

\[N_t = \text{time } [0,t] \text{ 동안의 총 arrival 수}\]

입니다.


핵심 성질

(1) Independent increments

서로 겹치지 않는 시간구간의 arrival 수는 서로 독립입니다.

예를 들어,

\[N_{s+\tau_1}-N_s\]

\[N_{t+\tau_2}-N_t\]

는 구간이 겹치지 않으면 독립입니다.

즉,

\[t > s+\tau_1\]

이면

\[N_{s+\tau_1}-N_s \perp\!\!\!\perp N_{t+\tau_2}-N_t\]

입니다.

이는 서로 다른 시간구간에서 일어나는 사건 수가 영향을 주지 않는다는 뜻입니다.


(2) Time homogeneity

어떤 시작점 $s$를 잡더라도 길이가 $\tau$인 구간에서의 arrival 수 분포는 같습니다.

즉,

\[N_{s+\tau}-N_s \overset{d}{=} N_\tau\]

입니다.

이 말은 arrival count의 분포가 시간의 절대 위치가 아니라 구간 길이 $\tau$에만 의존한다는 뜻입니다.


(3) 분포

길이가 $\tau$인 구간에서의 arrival 수는 Poisson distribution을 따릅니다.

\[N_\tau \sim \text{Poisson}(\lambda \tau)\]

따라서

\[P(N_\tau = k)=e^{-\lambda \tau}\frac{(\lambda\tau)^k}{k!}, \quad k=0,1,2,\dots\]

입니다.

여기서 $\lambda$는 단위 시간당 평균 arrival rate입니다.


Poisson Process의 Fresh-Start 성질

Poisson process에도 Bernoulli process와 유사한 fresh-start property가 있습니다.

Deterministic time 이후

고정된 시각 $t$ 이후부터 과정을 다시 보더라도,
그 이후의 과정은 과거와 독립이며 여전히 같은 Poisson process로 보입니다.

Random time 이후

random time $T$에 대해서도 stopping time이면 비슷한 성질이 성립합니다.

예를 들어 첫 arrival time $T_1$ 이후부터 과정을 다시 보더라도,
그 이후는 다시 같은 Poisson process처럼 작동합니다.

이는 Poisson process의 strong Markov property와 연결됩니다.


Interarrival Time과 $k$번째 Arrival Time

Interarrival time

Poisson process에서 연속된 두 arrival 사이 시간은 interarrival time이라고 합니다.

\[T_1 = Y_1\] \[T_k = Y_k - Y_{k-1}, \quad k \ge 2\]

각 $T_k$는 서로 독립이고 동일하게

\[T_k \sim \text{Exponential}(\lambda)\]

를 따릅니다.


$k$번째 arrival time

$k$번째 arrival이 일어난 시각을 $Y_k$라고 하면,

\[Y_k = T_1 + T_2 + \cdots + T_k\]

입니다.

$Y_k$는 i.i.d. exponential random variables의 합입니다.

평균과 분산은

\[E[Y_k]=\frac{k}{\lambda}\] \[\mathrm{Var}(Y_k)=\frac{k}{\lambda^2}\]

입니다.


Erlang Distribution

Poisson process에서 $k$번째 arrival time $Y_k$의 분포는 Erlang distribution입니다.

\[Y_k \sim \text{Erlang}(k,\lambda)\]

확률밀도함수는

\[f_{Y_k}(y)=\frac{\lambda^k y^{k-1} e^{-\lambda y}}{(k-1)!}, \quad y \ge 0\]

입니다.

이 식은
$k$번째 도착이 시간 $y$ 근처에서 일어날 density를 나타냅니다.

의미를 직관적으로 보면,

  • 시간 $y$ 이전까지 정확히 $k-1$번 arrival이 있어야 하고
  • $[y, y+\delta]$ 같은 아주 짧은 구간 안에서 한 번 더 arrival이 일어나야 합니다.

이 구조로부터 Erlang pdf가 도출됩니다.

Erlang distribution은 Pascal distribution의 continuous-time 대응입니다.


Bernoulli Process와 Poisson Process의 대응

다음 표로 요약할 수 있습니다.

항목Bernoulli ProcessPoisson Process
시간DiscreteContinuous
일정 구간의 arrival 수BinomialPoisson
interarrival timeGeometricExponential
$k$번째 arrival timePascalErlang
arrival rate$p$ per slot$\lambda$ per unit time

전체 흐름 정리

지금까지의 흐름은 다음과 같이 요약할 수 있습니다.

Bernoulli process

  • 한 슬롯의 성공 여부: Bernoulli
  • 첫 $n$개 슬롯의 성공 횟수: Binomial
  • 첫 성공까지 시간: Geometric
  • $k$번째 성공까지 시간: Pascal

Poisson process

  • 길이 $\tau$ 구간의 arrival 횟수: Poisson
  • 첫 arrival까지 시간: Exponential
  • $k$번째 arrival까지 시간: Erlang

대응 관계는 다음과 같습니다.

\[\text{Binomial} \leftrightarrow \text{Poisson}\] \[\text{Geometric} \leftrightarrow \text{Exponential}\] \[\text{Pascal} \leftrightarrow \text{Erlang}\]

이 관계는 discrete-time 모델이 continuous-time 모델로 자연스럽게 확장된다는 사실을 보여줍니다.


맺음말

본 정리의 핵심은 Bernoulli process와 Poisson process가 서로 전혀 다른 모델이 아니라, 같은 구조를 discrete-time과 continuous-time이라는 두 관점에서 표현한 것이라는 점입니다. Bernoulli process에서는 시간 슬롯마다 사건의 발생 여부를 관찰하고, 그 안에서 Binomial, Geometric, Pascal 분포가 등장합니다. Poisson process에서는 연속시간에서 사건의 누적 개수를 관찰하고, 그 안에서 Poisson, Exponential, Erlang 분포가 등장합니다.

중요한 것은 개별 분포를 따로 외우는 것이 아니라, 어떤 과정에서 어떤 랜덤변수를 정의했을 때 어떤 분포가 자연스럽게 나오는지를 구조적으로 이해하는 것입니다.

This post is licensed under CC BY 4.0 by the author.