ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [K-MOOC/데이터로 배우는 통계학] 4-2. 표본조사방법
    통계학 2021. 12. 13. 21:33
    728x90

    이 포스트는 K-MOOC의 데이터로 배우는 통계학(장원철 교수님)의 강의를 듣고 정리한 포스트입니다.


    데이터로 배우는 통계학 4. 부분에서 전체를 추론하기

    4-2. 표본조사방법

    센서스(Census)

    표본을 선택하는 대신 전체 모집단에 대해서 조사를 하는 경우

    ex) 통계청에서 5년마다 실시하는 인구주택 총조사

     

     

    • 센서스의 문제점
      1. 센서스에 잡히지 않는 사람이 있고, 이런 사람들은 특정 집단(불법체류자 등)에 속하는 경우가 많음
      2. 모집단은 계속 변하기 때문에 센서스 기간을 고려해 완벽하게 모집단의 모든 사람을 조사하는 것은 불가능하다.
      3. 센서스가 샘플링보다 복잡 할 수 있다.

     

     

    표본 편의(Sampling Bias)

    1. 무응답 편의(Non-response Bias) : 임의로 뽑인 사람 중 일부만 대답하는 경우, 전체 모집단을 대표한다고 할 수 없다.
    2. 자원응답 편의(Vountary Response Bias) : 원하는 사람만 답변을 한 경우 전체를 대표한다고 하기 힘들다.            ex) 웹 설문조사, 학생들이 개설한 자체 강의 평가 웹사이트 => 강제성이 없어 하고싶은 사람만 한다
    3. 선택 편의(Selection Bias) : 목표모집단과 연구모집단이 상이한 경우 생기는 문제

     

    전통적인 임의표본조사 방법

    모든 연구에는 모집단의 대표성을 가질 수 있도록 임의표본추출(Random Sampling)이 가정된다.

     

    1. 단순임의 추출(Simple Random Sampling)

    모집단에서 임의로 n개의 표본을 추출할 때 각 표본이 추출될 확률이 모두 둉일한 확률이 되도록 추출하는 방법, 모집단이 클 수록 비효율적이다.

    from sklearn.model_selection import train_test_split
    # 사이킷런의 train_test_split은 기본적으로 단순임의추출 방식이다.
    
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

     

    2. 층화 추출(Stratified Sampling)

    비슷한 관측치로 이루어진 층(strata)를 만들고 각 층에서 임의로 표본을 추출하는 방법, 층안은 동질적으로 층 사이는 이질적으로 만들어야 한다.

    x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, 
    test_size=0.3, random_state=42, stratify=y_data) 
    # stratify : 층화 추출 옵션, 랜덤으로 추출하지만 원래 데이터의 분포와 유사하게 샘플링하게 한다.

     

    3. 집락 추출(Cluster Sampling)

    모집단을 몇개의 집락(Cluster)로 나눈 후 집락 가운데 몇 개의 집락을 단순임의 추출한 후 추출된 집락 안의 자료를 모두 표본으로 간주하는 방법

    집락 간은 비슷하지만 개개의 집락은 모집단 전체의 특징을 반영할 수 있어야 한다.

     

     

    4. 다단계추출(Multistage Sampling) : Cluster + Simple Random Sampling

    집락추출과 동일하게 각 집락을 추출하고 집락안의 자료를 대상으로 단순임의추출 하여 최종표본을 선정

     


     

     

    댓글

Designed by Tistory.