Probability Random Process
Bernoulli process에서 시작하여 Poisson process로 확장되는 확률과정의 흐름을 정리했습니다.
discrete-time 모델과 continuous-time 모델이 어떻게 대응되는지를 중심으로 정리했습니다.
Bernoulli process는 시간 슬롯 단위로 사건의 발생 여부를 표현하는 가장 기본적인 discrete-time 확률 process입니다.
Poisson process는 이를 연속시간으로 확장한 모델입니다.
이 과정에서 Binomial, Geometric, Pascal 분포가 Poisson, Exponential, Erlang 분포와 어떻게 연결되는지도 함께 정리합니다.
Random Process의 기본 관점
확률과정은 시간에 따라 정의된 랜덤변수들의 모임입니다.
- discrete-time process: $X_1, X_2, X_3, \dots$
- continuous-time process: $X(t), \; t \ge 0$
값의 형태에 따라 다음과 같이 나눌 수 있습니다.
- discrete time, discrete value
- discrete time, continuous value
- continuous time, discrete value
- continuous time, continuous value
본 문서에서 다루는 핵심은 다음 두 가지입니다.
- Bernoulli process: discrete time, discrete value
- Poisson process: continuous time, discrete value
Bernoulli Process
정의
Bernoulli process는 각 시간 슬롯마다 성공 또는 실패가 발생하는 확률과정입니다.
각 슬롯에서
\[X_i \sim \text{Bernoulli}(p)\]이고, 모든 $X_i$는 서로 독립입니다.
즉,
- $X_i = 1$: 성공 또는 arrival
- $X_i = 0$: 실패 또는 no arrival
로 해석합니다.
이 과정은 discrete-time에서 가장 기본적인 random process입니다.
첫 $n$개 슬롯에서의 성공 횟수
첫 $n$개 슬롯 동안의 성공 횟수를
\[S_n = X_1 + X_2 + \cdots + X_n\]라고 두면,
\[S_n \sim \text{Binomial}(n,p)\]입니다.
확률질량함수는
\[P(S_n = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0,1,\dots,n\]입니다.
평균과 분산은
\[E[S_n] = np\] \[\mathrm{Var}(S_n) = np(1-p)\]입니다.
Bernoulli process에서 일정한 길이의 슬롯 구간 안 성공 횟수를 보면 Binomial distribution이 나옵니다.
첫 성공까지 걸리는 시간
첫 성공이 나올 때까지 걸리는 슬롯 수를 $T_1$이라고 하면,
\[T_1 \sim \text{Geometric}(p)\]입니다.
확률질량함수는
\[P(T_1 = k) = (1-p)^{k-1}p, \quad k = 1,2,3,\dots\]입니다.
평균과 분산은
\[E[T_1] = \frac{1}{p}\] \[\mathrm{Var}(T_1) = \frac{1-p}{p^2}\]입니다.
이 분포는 첫 성공까지 몇 개의 discrete slot을 기다려야 하는지를 나타냅니다.
$k$번째 성공까지 걸리는 시간
$k$번째 성공이 발생하는 시점을 $Y_k$라고 하면,
\[Y_k \sim \text{Pascal}(k,p)\]입니다.
확률질량함수는
\[P(Y_k = t) = \binom{t-1}{k-1} p^k (1-p)^{t-k}, \quad t = k, k+1, \dots\]입니다.
이 식의 의미는 다음과 같습니다.
$Y_k = t$가 되려면
- 처음 $t-1$번 시행에서 성공이 정확히 $k-1$번 있어야 하고
- $t$번째 시행에서 성공해야 합니다.
$k$번째 성공이 정확히 $t$번째에 처음 완성되는 경우를 세는 것입니다.
Geometric distribution은 Pascal distribution의 $k=1$인 특수한 경우입니다.
Bernoulli Process의 Fresh-Start 성질
Bernoulli process에서는 시간 슬롯 간 독립성이 매우 중요합니다.
예를 들어, 고정된 시점 $n$ 이후의 과정
\[(X_n, X_{n+1}, X_{n+2}, \dots)\]를 다시 보면, 이전까지 무엇이 일어났는지와 무관하게 여전히 같은 Bernoulli process로 보입니다.
deterministic time 이후에는 fresh-start property가 성립합니다.
이 성질은 random time에서도 항상 성립하는 것은 아닙니다.
random time $N$이 stopping time일 때에만 같은 형태의 fresh-start를 기대할 수 있습니다.
예를 들어,
- 3번째 arrival 시점: stopping time이므로 가능
- 처음으로 3연속 arrival이 관측된 시점: stopping time이므로 가능
- 3연속 arrival 직전 시점: 미래 정보가 필요하므로 불가능
입니다.
핵심은
$N=n$인지 여부를 $X_1,\dots,X_n$만으로 판단할 수 있어야 한다는 점입니다.
Binomial에서 Poisson으로
이제 Bernoulli process를 continuous-time으로 확장하기 위한 준비를 합니다.
Binomial random variable
\[S \sim \text{Bin}(n,p)\]의 확률질량함수는
\[P(S=k)=\binom{n}{k}p^k(1-p)^{n-k}\]입니다.
여기서
\[n \to \infty, \quad p \to 0, \quad np=\lambda\]인 상황을 생각합니다.
즉,
- 슬롯 수는 무한히 많아지고
- 각 슬롯의 길이는 무한히 짧아지며
- 각 슬롯에서 성공확률은 매우 작아지지만
- 전체 평균 성공 횟수는 $\lambda$로 유지됩니다.
이때 Binomial distribution은 다음과 같이 Poisson distribution으로 수렴합니다.
\[P(S=k) \to e^{-\lambda}\frac{\lambda^k}{k!}\]따라서
\[\text{Binomial}(n,p) \to \text{Poisson}(\lambda)\]로 이해할 수 있습니다.
이 결과는 Bernoulli process의 continuous-time 버전이 왜 Poisson process가 되는지를 설명하는 핵심 연결고리입니다.
Poisson Distribution
Poisson random variable $Z$가 parameter $\lambda$를 가지면,
\[Z \sim \text{Poisson}(\lambda)\]이고, 확률질량함수는
\[P(Z=k)=e^{-\lambda}\frac{\lambda^k}{k!}, \quad k=0,1,2,\dots\]입니다.
평균과 분산은 모두
\[E[Z]=\lambda\] \[\mathrm{Var}(Z)=\lambda\]입니다.
Poisson distribution은 일정한 시간 또는 구간 안에서 발생한 사건 수를 모델링하는 데 사용됩니다.
Exponential Distribution
continuous-time에서 첫 arrival까지의 대기시간은 Exponential distribution으로 모델링됩니다.
확률변수 $X$가 parameter $\lambda$를 가지는 지수분포를 따르면,
\[X \sim \text{Exponential}(\lambda)\]이고, 확률밀도함수는
\[f_X(x)=\lambda e^{-\lambda x}, \quad x \ge 0\]입니다.
누적분포함수는
\[F_X(x)=1-e^{-\lambda x}, \quad x \ge 0\]입니다.
tail probability는
\[P(X>x)=e^{-\lambda x}\]입니다.
평균과 분산은
\[E[X]=\frac{1}{\lambda}\] \[\mathrm{Var}(X)=\frac{1}{\lambda^2}\]입니다.
Exponential distribution은 Geometric distribution의 continuous-time 대응입니다.
Memoryless Property
Geometric distribution과 Exponential distribution은 모두 memoryless property를 가집니다.
Geometric
\[P(T>m+n \mid T>m)=P(T>n)\]Exponential
\[P(X>s+t \mid X>s)=P(X>t)\]이 성질은
지금까지 오래 기다렸다는 사실이 앞으로 남은 대기시간의 분포를 바꾸지 않는다는 뜻입니다.
Geometric은 discrete-time waiting time의 memoryless model이고,
Exponential은 continuous-time waiting time의 memoryless model입니다.
Poisson Process
정의
Poisson process ${N_t}_{t \ge 0}$는 시간 $t$까지 발생한 arrival의 누적 개수를 나타내는 counting process입니다.
즉,
\[N_t = \text{time } [0,t] \text{ 동안의 총 arrival 수}\]입니다.
핵심 성질
(1) Independent increments
서로 겹치지 않는 시간구간의 arrival 수는 서로 독립입니다.
예를 들어,
\[N_{s+\tau_1}-N_s\]와
\[N_{t+\tau_2}-N_t\]는 구간이 겹치지 않으면 독립입니다.
즉,
\[t > s+\tau_1\]이면
\[N_{s+\tau_1}-N_s \perp\!\!\!\perp N_{t+\tau_2}-N_t\]입니다.
이는 서로 다른 시간구간에서 일어나는 사건 수가 영향을 주지 않는다는 뜻입니다.
(2) Time homogeneity
어떤 시작점 $s$를 잡더라도 길이가 $\tau$인 구간에서의 arrival 수 분포는 같습니다.
즉,
\[N_{s+\tau}-N_s \overset{d}{=} N_\tau\]입니다.
이 말은 arrival count의 분포가 시간의 절대 위치가 아니라 구간 길이 $\tau$에만 의존한다는 뜻입니다.
(3) 분포
길이가 $\tau$인 구간에서의 arrival 수는 Poisson distribution을 따릅니다.
\[N_\tau \sim \text{Poisson}(\lambda \tau)\]따라서
\[P(N_\tau = k)=e^{-\lambda \tau}\frac{(\lambda\tau)^k}{k!}, \quad k=0,1,2,\dots\]입니다.
여기서 $\lambda$는 단위 시간당 평균 arrival rate입니다.
Poisson Process의 Fresh-Start 성질
Poisson process에도 Bernoulli process와 유사한 fresh-start property가 있습니다.
Deterministic time 이후
고정된 시각 $t$ 이후부터 과정을 다시 보더라도,
그 이후의 과정은 과거와 독립이며 여전히 같은 Poisson process로 보입니다.
Random time 이후
random time $T$에 대해서도 stopping time이면 비슷한 성질이 성립합니다.
예를 들어 첫 arrival time $T_1$ 이후부터 과정을 다시 보더라도,
그 이후는 다시 같은 Poisson process처럼 작동합니다.
이는 Poisson process의 strong Markov property와 연결됩니다.
Interarrival Time과 $k$번째 Arrival Time
Interarrival time
Poisson process에서 연속된 두 arrival 사이 시간은 interarrival time이라고 합니다.
\[T_1 = Y_1\] \[T_k = Y_k - Y_{k-1}, \quad k \ge 2\]각 $T_k$는 서로 독립이고 동일하게
\[T_k \sim \text{Exponential}(\lambda)\]를 따릅니다.
$k$번째 arrival time
$k$번째 arrival이 일어난 시각을 $Y_k$라고 하면,
\[Y_k = T_1 + T_2 + \cdots + T_k\]입니다.
$Y_k$는 i.i.d. exponential random variables의 합입니다.
평균과 분산은
\[E[Y_k]=\frac{k}{\lambda}\] \[\mathrm{Var}(Y_k)=\frac{k}{\lambda^2}\]입니다.
Erlang Distribution
Poisson process에서 $k$번째 arrival time $Y_k$의 분포는 Erlang distribution입니다.
\[Y_k \sim \text{Erlang}(k,\lambda)\]확률밀도함수는
\[f_{Y_k}(y)=\frac{\lambda^k y^{k-1} e^{-\lambda y}}{(k-1)!}, \quad y \ge 0\]입니다.
이 식은
$k$번째 도착이 시간 $y$ 근처에서 일어날 density를 나타냅니다.
의미를 직관적으로 보면,
- 시간 $y$ 이전까지 정확히 $k-1$번 arrival이 있어야 하고
- $[y, y+\delta]$ 같은 아주 짧은 구간 안에서 한 번 더 arrival이 일어나야 합니다.
이 구조로부터 Erlang pdf가 도출됩니다.
Erlang distribution은 Pascal distribution의 continuous-time 대응입니다.
Bernoulli Process와 Poisson Process의 대응
다음 표로 요약할 수 있습니다.
| 항목 | Bernoulli Process | Poisson Process |
|---|---|---|
| 시간 | Discrete | Continuous |
| 일정 구간의 arrival 수 | Binomial | Poisson |
| interarrival time | Geometric | Exponential |
| $k$번째 arrival time | Pascal | Erlang |
| arrival rate | $p$ per slot | $\lambda$ per unit time |
전체 흐름 정리
지금까지의 흐름은 다음과 같이 요약할 수 있습니다.
Bernoulli process
- 한 슬롯의 성공 여부: Bernoulli
- 첫 $n$개 슬롯의 성공 횟수: Binomial
- 첫 성공까지 시간: Geometric
- $k$번째 성공까지 시간: Pascal
Poisson process
- 길이 $\tau$ 구간의 arrival 횟수: Poisson
- 첫 arrival까지 시간: Exponential
- $k$번째 arrival까지 시간: Erlang
대응 관계는 다음과 같습니다.
\[\text{Binomial} \leftrightarrow \text{Poisson}\] \[\text{Geometric} \leftrightarrow \text{Exponential}\] \[\text{Pascal} \leftrightarrow \text{Erlang}\]이 관계는 discrete-time 모델이 continuous-time 모델로 자연스럽게 확장된다는 사실을 보여줍니다.
맺음말
본 정리의 핵심은 Bernoulli process와 Poisson process가 서로 전혀 다른 모델이 아니라, 같은 구조를 discrete-time과 continuous-time이라는 두 관점에서 표현한 것이라는 점입니다. Bernoulli process에서는 시간 슬롯마다 사건의 발생 여부를 관찰하고, 그 안에서 Binomial, Geometric, Pascal 분포가 등장합니다. Poisson process에서는 연속시간에서 사건의 누적 개수를 관찰하고, 그 안에서 Poisson, Exponential, Erlang 분포가 등장합니다.
중요한 것은 개별 분포를 따로 외우는 것이 아니라, 어떤 과정에서 어떤 랜덤변수를 정의했을 때 어떤 분포가 자연스럽게 나오는지를 구조적으로 이해하는 것입니다.