확률과 통계 | 표본공간, 사건, 집합 이론 이해하기
·
Statistics/Probability & Statistics
통계를 처음 공부할 때 가장 먼저 마주치는 개념이 바로 표본공간(Sample Space)과 사건(Event)이다. 이 개념들이 잡히면 그 뒤의 확률과 통계 이론이 훨씬 더 쉽게 다가온다. 이 글에서는 이 두 개념과 그 배경이 되는 집합 이론(Set Theory)에 대해 간단하고 명확하게 정리해보겠다.표본공간(Sample Space)이란?표본공간(sample space)은 어떤 확률 실험에서 가능한 모든 결과들의 집합을 말한다. 예시 상황:한 개의 퓨즈가 정상(Not defective, N)인지 불량(Defective, D) 인지 검사하는 실험1. 한 개의 퓨즈 검사이 실험의 결과는 두 가지 중 하나다N: 정상D: 불량따라서 표본공간(Sample Space)는 다음과 같이 나타낼 수 있다S = {N, D}..
R로 배우는 통계 | 통계 컴퓨팅이란? 그리고 R 문법의 기초
·
Statistics/R
통계 컴퓨팅이란?“통계 컴퓨팅(statistical computing)”이란 단순히 숫자를 계산하는 것이 아니다. 데이터를 다루고 분석하며, 시각화하고 결과를 프로그래밍적으로 구현하는 모든 과정을 포함하는 넓은 개념이다. 통계 컴퓨팅은 다음과 같은 작업을 포함한다.데이터 처리 및 변환 (data manipulation)통계 모델링과 분석 (statistical modeling)시각화 (graphics)시뮬레이션 (예: 몬테카를로 시뮬레이션)프로그래밍 (모듈화, 함수 작성, 디버깅 등)이러한 작업을 쉽게 수행할 수 있도록 만들어진 언어가 바로 R이다.R 문법의 기초R은 인터프리터 언어다. 즉, 우리가 콘솔에 한 줄을 입력하면 R이 바로 실행 결과를 보여준다. 반면 여러 줄의 코드를 작성할 때는 .R 파일에..
확률과 통계 | 산포도 이해하기: 표준편차부터 박스플롯까지
·
Statistics/Probability & Statistics
통계에서 데이터의 중심(평균, 중앙값 등)을 파악하는 것만으로는 부족하다. 데이터가 얼마나 퍼져 있는지, 즉 산포(variability)를 함께 이해해야 데이터 전체의 특성을 제대로 해석할 수 있다. 이번 글에서는 산포를 측정하는 대표적인 지표들과 함께, boxplot과 이상치(outlier) 해석까지 다루어 보겠다. 왜 평균만으로는 부족할까?데이터 분석에서 평균(mean)이나 중앙값(median) 같은 중심 경향치(measures of center)는 중요한 정보를 제공한다. 하지만 이들만 보고 전체 데이터의 특성을 완전히 이해하기는 어렵다.“평균이 같다고 해서 데이터가 같다고 말할 수는 없다!” 예를 들어, 샘플 A: 5, 5, 5샘플 B: 1, 5, 9샘플 C: 0, 5, 10이 세 샘플은 모두 ..
확률과 통계 | 평균(mean), 중앙값(median), 절사평균(trimmed mean) 쉽게 이해하기
·
Statistics/Probability & Statistics
평균(mean)과 중앙값(median)은 데이터가 어디쯤 중심을 이루는지 보여주는 수치이다. 이번 글에서는 이 두 가지 중심 위치 척도뿐만 아니라, 극단값(outlier)에 대한 민감도, 그리고 이를 보완해주는 절사 평균(trimmed mean)까지 함께 살펴본다.평균값(mean)과 중앙값(median)평균 (Mean): 모든 값을 더해 개수로 나눈 값. 중앙값 (Median): 데이터를 정렬했을 때 정확히 가운데에 위치한 값.둘 다 데이터의 중심을 나타내지만, 데이터 분포가 비대칭이거나 극단값(outlier)이 존재할 경우 서로 다른 이야기를 한다. 그리고 실제 통계 분석에서는 전체 모집단의 데이터를 알 수 없는 경우가 많기 때문에 표본(sample)을 사용한다. 이때 나오는 개념은 표본 평균(samp..
확률과 통계 | 통계 시각화 기초 쉽게 이해하기: 줄기-잎 그림부터 히스토그램까지
·
Statistics/Probability & Statistics
통계에서 데이터의 분포를 파악하는 것은 매우 중요하다. 이번 글에서는 대표적인 시각적 도구인 줄기-잎 그림(Stem-and-Leaf Plot), 점 그래프(Dotplot), 그리고 히스토그램(Histogram)에 대해 공부해보려 한다.줄기-잎 그림(Stem-and-Leaf Plot)줄기-잎 그림은 각 수치를 줄기(stem)와 잎(leaf)으로 나누어 데이터를 정렬된 형태로 표현한다. 실제 값을 그대로 보존하면서 분포를 쉽게 파악할 수 있어, 소규모 정수형 데이터에 자주 사용된다. 줄기-잎 그림 만드는 5단계줄기(Stem)로 사용할 숫자 자릿수를 정한다관측값에서 한 개 또는 여러 개의 앞자리 숫자를 줄기 값으로 선택한다.나머지 뒷자리 숫자가 잎(Leaf)이 된다.가능한 줄기 값들을 세로로 나열한다관측값 범..
확률과 통계 | 꼭 알아야 할 핵심 개념: 모집단부터 추론통계까지
·
Statistics/Probability & Statistics
통계를 공부하다 보면 처음부터 낯선 개념들이 쏟아져 들어온다. Population, Sample, Variable같은 용어부터 Descriptive vs Inferential Statistics까지. 이 글에서는 통계의 기초가 되는 핵심 개념을 간단하게 정리해보려고 한다. Data (데이터)란 무엇인가?데이터(Data)란 관찰이나 측정을 통해 얻은 정보다. 숫자일 수도 있고, 분류된 텍스트일 수도 있다. 예를 들어 “키 170cm”, “성별: 여자”, “지역: 토론토” 모두 데이터에 해당한다. Population, Census, Sample, Variable Population (모집단)조사의 출발점이자 중심이 되는 것이 바로 모집단이다. 정의하자면, 어떤 조사가 집중하는 명확하게 정의된 대상 전체를 말..
올리브한입
'Statistics' 카테고리의 글 목록