ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [K-MOOC/데이터로 배우는 통계학] 4-1. 모집단과 표본
    통계학 2021. 12. 13. 18:14
    728x90

    이 포스트는 K-MOOC의 데이터로 배우는 통계학(장원철 교수님)의 강의를 듣고 정리한 포스트입니다.


    데이터로 배우는 통계학 4. 부분에서 전체를 추론하기

    4-1. 모집단과 표본

    ex) 영국인의 실제 성관계 상대 수는 몇명인가?

    라는 질문에 대답을 하기 위해서는 아래와 같은 귀납적 추론의 4단계의 과정을 거친다. 각 단계를 거치기 위해서는 대표성을 가져야 한다.

     

    ※ 귀납적 추론 : 부분을 가지고 전체를 추론, 특수한 상황을 일반화 시키는 과정

     

    • 1단계 데이터 - 설문조사 참가자들이 보고한 성관계 상대 수
    • 2단계 표본 (Sample) - 설문조사 대상이 된 영국인의 실제 성관계 상대 수
    • 3단계 연구모집단(Study Popluation) - 설문조사에 포함될 가능성이 있는 모든 사람들의 성관계 상대 수
    • 4단계 목표모집단(Target Popluation) - 영국인 전체의 성관계 상대

    여기서 핵심은 연구모집단인 설문조사로 수집한 표본(3단계 , 설문조사 대상인 영국인)을 가지고 전체모집단(4단계 ,영국인 전체)를 추측해도 문제가 없나..? 즉 대표성이 있는가? 라는 것이 핵심이였다.

     

    데이터(1단계)에서 표본(2단계)로 넘어가기 위한 특성은 아래와 같다.

    데이터가 우리의 관심사를 정확히 반영하는가?

    • 데이터 자체의 변동이 작고 반복 가능하다
    • 알고자 하는 항목에 대해 어떤 편의도 없이 정확히 측정하고 있다.

    어떤 편의도 없이 정확히 측정한다는 의미는, 설문조사의 문항에 따라서 같은 내용을 물어봐도 다른 결과를 수집할 수도 있다.

    ex) 참정권 확대를 위해 선거연령을 낮추는데 동의하는가? or 학습권을 침해할 우려가 있는 고등학생에게도 선거권을 주어야 하는가? => 후자는 부정적인 의미를 내포하는 문구 추가

     

     

    표본(2단계)가 연구모집단(3단계)의 대표성을 가지는 경우는, 내적타당성을 지닌다고 한다.

    • 내적타당성 : 임의 추출(Random Sapling)과 같은 방법으로 표본을 뽑아 연구 모집단의 대표성을 유지하도록 함

     

    연구모집단(3단계)과 목적모집단(4단계)이 정확히 일치 하지 않을 경우, 연구모집단의 결과를 목접모집단으로 확장할 수 있는 경우는 외적타당성을 가지고 있다고 한다.

    ex) 1. 설문조사의 포함된 영국인의 결과로 영국인 전체의 성관계 상대 수를 알 수 있다

         2. 성인 남성(연구모집단)을 대상으로 신약에 대한 임상시험을 진행한 결과를 전 국민에 대한 결과로 확대 해석하는 경우

     


     

    후기 및 생각

    모집단을 조사할 수 없으니, 임의로 수집한 데이터에서 표본을 뽑아 연구모집단으로 결론을 내리고 그것을 모집단으로 확장시킬 수 있는가? 라는 고민에 대한 내용이였다.

     

    인공지능은 내가 수집한 한정된 데이터를 분리하여(Train / Validation / Test) Train 셋을 가지고 학습시키고 Valid 셋을 통해 모델을 튜닝하여 마지막으로 Test셋으로 모델의 성능을 평가하는 과정이 일반적인 인공지능 모델 개발 과정이다.

     

    같은 개념은 아니겠지만 Test 셋을 얼마나 잘 통과하는가?를 가지고 모델을 평가하는 것에서 마치 이 모델의 성능이 얼마나 외적타당성을 갖고있는가를 확인하기 위한 방법인 것 같다. 인공지능은 무언가를 자동화 하기 위함인데 이 인공지능 모델이 얼마나 바깥세상에서 문제 없이 잘 돌아갈지를 검증하기 위한 과정을 거치는 것이다.

     

    하지만 현실에서 잘 작동하기 위해선 꾸준한 관리가 필요한데, 현실세계(모집단)은 계속해서 변화를 하고 그에 따라서 모델의 성능이 떨어지니 꾸준히 데이터를 수집하고 재학습을 계속 진행해야 성능 유지가 가능한게 당연하다 싶다.

     

     

     

    댓글

Designed by Tistory.