ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 클래스 불균형
    인공지능/Data preprocessing 2021. 12. 10. 12:53
    728x90

    인공지능에서 분류(Classification)과제인 경우, 특히 다중 분류일 경우 많이 겪는 문제가 클래스 불균형(Class Imbalanced)이다.

     

    이는 클래스(타겟)간의 비율이 맞지 않는 경우를 말한다. 

    ex) 은행 거래 : 평소에는 큰 문제가 없지만 갑자기 생기는 금융 사기 거래 등 , 공장에서의 불량률

    위와 같은 사례를 해결하기 위한 방법들을 비정상 탐지(Anomaly Detection)이라고 한다.

     

    이를 해결하기 위한 방법론으로는 Under Sampling , Over Sampling 이 있다.

     

    과소표집(Under Sampling) & 과대표집(Over Sampling)

    Under Sampling & Over Sampling / https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

    과소표집은 다른 클래스에 비해 상대적으로 큰 클래스의 개수를 줄인다. 다만 균형은 맞게 되지만 전체적으로 학습할 데이터의 숫자가 줄어드는 것이 큰 단점이다.

     

    과대표집은 데이터를 복제한다. 하지만 이 경우 그대로 데이터를 복제 하게 된다면 과적합(overfitting)문제가 발생 할수 있다.  전체 데이터 셋에서 그대로 복제하게 된다면 똑같은 데이터가 train / test에 동일하게 많은 양이 분포 할 수 있기때문이다.

     

    이를 방지하기 위한 방법론으로는 SMOTE(Synthetic Minority Over-Sampling Techinque)을 사용한다. 

     

    댓글

Designed by Tistory.