-
[K-MOOC/데이터로 배우는 통계학] 4-2. 표본조사방법통계학 2021. 12. 13. 21:33728x90
이 포스트는 K-MOOC의 데이터로 배우는 통계학(장원철 교수님)의 강의를 듣고 정리한 포스트입니다.
데이터로 배우는 통계학 4. 부분에서 전체를 추론하기
4-2. 표본조사방법
센서스(Census)
표본을 선택하는 대신 전체 모집단에 대해서 조사를 하는 경우
ex) 통계청에서 5년마다 실시하는 인구주택 총조사
- 센서스의 문제점
- 센서스에 잡히지 않는 사람이 있고, 이런 사람들은 특정 집단(불법체류자 등)에 속하는 경우가 많음
- 모집단은 계속 변하기 때문에 센서스 기간을 고려해 완벽하게 모집단의 모든 사람을 조사하는 것은 불가능하다.
- 센서스가 샘플링보다 복잡 할 수 있다.
표본 편의(Sampling Bias)
- 무응답 편의(Non-response Bias) : 임의로 뽑인 사람 중 일부만 대답하는 경우, 전체 모집단을 대표한다고 할 수 없다.
- 자원응답 편의(Vountary Response Bias) : 원하는 사람만 답변을 한 경우 전체를 대표한다고 하기 힘들다. ex) 웹 설문조사, 학생들이 개설한 자체 강의 평가 웹사이트 => 강제성이 없어 하고싶은 사람만 한다
- 선택 편의(Selection Bias) : 목표모집단과 연구모집단이 상이한 경우 생기는 문제
전통적인 임의표본조사 방법
모든 연구에는 모집단의 대표성을 가질 수 있도록 임의표본추출(Random Sampling)이 가정된다.
1. 단순임의 추출(Simple Random Sampling)
모집단에서 임의로 n개의 표본을 추출할 때 각 표본이 추출될 확률이 모두 둉일한 확률이 되도록 추출하는 방법, 모집단이 클 수록 비효율적이다.
from sklearn.model_selection import train_test_split # 사이킷런의 train_test_split은 기본적으로 단순임의추출 방식이다. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
2. 층화 추출(Stratified Sampling)
비슷한 관측치로 이루어진 층(strata)를 만들고 각 층에서 임의로 표본을 추출하는 방법, 층안은 동질적으로 층 사이는 이질적으로 만들어야 한다.
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.3, random_state=42, stratify=y_data) # stratify : 층화 추출 옵션, 랜덤으로 추출하지만 원래 데이터의 분포와 유사하게 샘플링하게 한다.
3. 집락 추출(Cluster Sampling)
모집단을 몇개의 집락(Cluster)로 나눈 후 집락 가운데 몇 개의 집락을 단순임의 추출한 후 추출된 집락 안의 자료를 모두 표본으로 간주하는 방법
집락 간은 비슷하지만 개개의 집락은 모집단 전체의 특징을 반영할 수 있어야 한다.
4. 다단계추출(Multistage Sampling) : Cluster + Simple Random Sampling
집락추출과 동일하게 각 집락을 추출하고 집락안의 자료를 대상으로 단순임의추출 하여 최종표본을 선정
'통계학' 카테고리의 다른 글
[K-MOOC/데이터로 배우는 통계학] 4-3. 개인정보 보호 (0) 2021.12.21 [K-MOOC/데이터로 배우는 통계학] 4-1. 모집단과 표본 (0) 2021.12.13 - 센서스의 문제점