확률과 통계 | 모집단(Population), 표본(Sample), 확률변수(Random Variable) 개념 정리
우리가 어떤 문제를 다룰 때, 모집단의 분포와 그 파라미터(매개변수)가 이미 주어진 경우가 있습니다.
예를 들어, 확률변수가 밑과 같다고 하면
해당 분포의 성질들을 그대로 이용하면 됩니다.
이는 이론적인 상황이며, 기본 공식들도 대부분 이 전제하에서 설명됩니다.
하지만 실제 상황에서는 모집단 전체를 알 수 없고, 오직 표본(sample)만 관측할 수 있습니다. 즉, 모집단의 분포 형태는 추정할 수 있지만, 그 안에 있는 매개변수(μ, σ² 등)는 알려지지 않습니다. 따라서 우리의 목표는 알 수 없는 모집단의 특성을, 한정된 표본을 통해 추정하는 것입니다.
✅ 모집단(Population)과 분포
모집단(Population)이란, 우리가 관심을 가지는 전체 집단을 말합니다. 이 모집단은 어떤 분포를 따른다고 가정합니다. 예를 들어:
“이 모집단은 정규분포 N(μ, σ²) 를 따른다”
라는 말은, 우리가 이 모집단에서 하나의 값을 임의로 뽑는다면, 그 값은 확률적으로 정규분포 N(μ, σ²) 에 따라 정해진다는 뜻입니다.
✅ 확률변수(Random Variable)란?
모집단에는 무수한 객체들이 존재하며, 이들은 어떤 확률 분포를 따른다고 가정합니다. 예를 들어, 모집단이 정규분포를 따른다고 해봅시다. 이제, 모집단이제, 우리가 이 모집단에서 하나의 객체를 무작위로 뽑는다고 할 때,
- 그 값은 아직 정해지지 않았지만,
- 분포가 알려져 있기 때문에,
- 그 값은 확률적으로 정규분포로부터 나올 것임을 압니다.
이처럼 아직 관측되지 않았고 확률적으로 결정될 값을 우리는 확률변수(Random Variable) 라고 부릅니다.
예를 들어, X ~ N(μ, σ²)
- E(X) = μ : 기대값은 μ
- Var(X) = σ² : 분산은 σ²
즉, X는 정규분포에서 뽑히게 될 어떤 값을 나타내는 확률적 개념입니다.
✅ 관측값(Observed Value)이란?
실제로 표본을 추출하고 나면, X의 실제 값이 결정됩니다.
예를 들어, 우리가 하나의 표본을 뽑았더니 x = 172.3이 나왔다면,
- x = 172.3은 확률변수 X의 관측값(observed value) 입니다.
이제 더 이상 확률적인 개념이 아니라, 숫자로 확정된 값입니다.
✅ 여러 개를 추출하면?
이번에는 모집단에서 n개의 객체를 독립적으로 뽑는 경우를 생각해봅시다.
- 각 표본 X₁, X₂, …, Xₙ 은 여전히 정규분포 N(μ, σ²) 를 따릅니다.
- 이들은 서로 독립(independent)적 이고, 동일한 분포(identically distributed) 를 따릅니다.
- → 즉, X₁, …, Xₙ ~ iid N(μ, σ²)
이 상태에서 아직 표본을 추출하지 않았다면, X₁, …, Xₙ 은 모두 확률변수입니다. 하지만 표본을 실제로 추출한 후에는 다음과 같은 관측값(observed values) 을 얻게 됩니다.
x₁, x₂, …, xₙ
이제 이 값들은 무작위(random)가 아닌, 실제 데이터입니다. 이들은 이제 정해진 값들로, 이 표본을 기반으로 평균, 분산 등을 계산하고, 이를 통해 모집단을 추정하게 됩니다.