김현희 / 동덕여대 정보통계학과 교수

인공지능 경험의 시대 ③ 편향된 데이터는 불편(不便)하다

우리는 모두가 연결된 상태로 수많은 정보를 교환하는 시대에서 살고 있다. 이번 기획에서는 AI 활용에 적극적인 움직임을 보이는 세상에 발맞춰, 인공지능 서비스의 현주소와 새롭게 도입될 기술에 대해 다루고자 한다. 이를 통해 인공지능 경험의 시대를 살아가는 ‘유저’로서 반드시 알아야 하는 것에 대해 통찰해본다. 그와 더불어 빠르게 변화해가는 세상에서 인간이 생존을 위해 길러야 할 역량 역시 제안해본다. <편집자 주>

[글 싣는 순서] ① 우리가 경험하는 AI ② 혁신과 프라이버시의 조화 ③ 편향된 데이터는 불편(不便)하다 ④ 선택은 우리의 몫, AI 유토피아

 

 
 

데이터 특성에 따른 빅데이터 분석 기술


김현희 / 동덕여대 정보통계학과 교수


  사람이 경험을 통해 학습하듯이 기계는 데이터를 통해 학습한다. 다양한 환경에서 고르게 학습한 사람일수록 편향되지 않고 균형 잡힌 시각을 가질 수 있는 것과 같이, 기계도 예측하고자 하는 범주에 대한 데이터가 고르게 분포돼야 최적의 성능을 낼 수 있다. 그러나 실세계에서 기계학습을 적용해 문제를 해결하고자 할 때, 데이터가 한 범주로 치우쳐 있어 불균형을 이루는 경우가 많은데, 이를 데이터 불균형(Imbalanced Data)이라고 한다.
  일례로, 국민건강보험공단의 건강검진 데이터 중 만성 위염을 진단받은 환자 중에서 위암으로 발전한 환자를 예측하고자 데이터를 추출했었다. 하지만 위암으로 발전한 환자는 만성 위염에 그친 환자의 약 3%에 불과하며, 위암으로 발전한 환자의 특성을 학습하기에 그 데이터 수가 매우 적었다. 이러한 데이터 불균형 상황에서 기계학습 알고리즘은 상대적으로 데이터가 풍부한 만성 위염에 그친 사람들의 특성을 훨씬 쉽게 학습하고 정확히 예측할 수 있다. 결국 전체 데이터에서 만성 위염에 그친 사람이 약 97%를 차지하므로 전체 정확도가 매우 높을지라도, 주요 관심 대상이었던 위암으로 발전한 사람에 대한 예측 정확도는 낮게 측정되는 문제가 발생한 것이다. 이에 본 글에서는 이러한 데이터 불균형의 문제를 해결할 수 있는 다양한 방법을 알아보고자 한다.

랜덤 언더샘플링 기법
  첫 번째 방법은 ‘랜덤 언더샘플링’으로, 이는 다수 클래스(Major Class)의 값들을 임의로 제거해 소수 클래스(Minor Class)와 그 비율을 맞추는 원리를 가진다. 이 방법의 가장 큰 장점은 사용이 쉽고 훈련 데이터 집합의 크기가 줄어들어 실행 시간 역시 단축될 수 있다는 점이다. 반면 무작위로 삭제한 데이터에 중요한 내용이 있을 수 있고, 샘플링된 데이터가 모집단의 특성과 다를 수도 있기에 그 정확도가 떨어질 우려가 있다. 이를 극복하기 위해선 학습하는 데 불필요한 데이터를 삭제하는 것이 좋다. 결측치(Missing Value)가 많거나 예측 경계에 있는 데이터 등이 그 좋은 예가 된다. 또한 중요한 특성의 분포에 맞춰 언더샘플링을 실행할 수 있다.
랜덤 오버샘플링 기법
  한편, 언더샘플링과 반대로 소수 클래스의 데이터를 임의로 복제해 그 크기를 유사하게 맞추는 방법을 ‘랜덤 오버샘플링’이라고 한다. 이 방법은 의미 있는 데이터를 잃을 가능성이 없으므로 대체적으로 더 뛰어난 성능을 보인다. 그럼에도 데이터 크기가 많이 커지게 될 경우 실행 속도가 떨어지며, 소수 클래스 예측 시에 성능이 좋지 않을 수 있다. 소수 클래스의 특성을 학습하는 단계에서 같은 특성을 여러 번 학습하게 돼 테스트 데이터에 대해서는 성능이 좋지 않은 현상, 즉 ‘과적합’ 문제가 일어나기 때문이다.
SMOTE (Synthetic Minority Oversampling Technique)
  최근엔 오버샘플링의 과적합 현상을 방지하기 위해 딥러닝 생성모델을 적용함으로써 소수 클래스의 데이터를 생성하는 방법이 주목받고 있다. 동일한 데이터를 중복 사용하지 않아도 되는 것이다. 가장 널리 알려진 알고리즘은 SMOTE로, 이는 K-최근접 이웃 알고리즘인 일명 K-NN 알고리즘을 적용해서 소수 클래스 데이터의 이웃을 찾은 다음, 그 사이에 속하는 데이터를 새롭게 생성해 사용하는 방식이다.
적대적 신경망 기반 오버샘플링 (Generative Adversarial Network)
  한편 적대적 신경망(이하 GAN)을 적용해 데이터를 생성함으로써 오버샘플링 하는 방식 역시 관심의 대상이 되고 있다. 이때 GAN은 데이터를 생성하는 ‘생성기’와 생성된 데이터와 실제 데이터를 판별하는 ‘분류기’로 구성된다. 해당 알고리즘 제안자인 이안 굿펠로우는 위조지폐범과 경찰에 비유해 GAN의 동작 방식을 다음과 같이 설명했다. 위조지폐범은 기존 데이터를 파악해 위조지폐를 계속 생성하고, 경찰은 이를 진짜 지폐와 판별하는 작업을 한다. 범죄자의 경험이 축적돼 그가 점점 더 진짜 같은 위조지폐를 생성해내게 되고 경찰이 이를 제대로 판별하게 될 확률이 50% 정도가 된다면, 결국 그는 진짜 같은 위조지폐를 생성한 것이다. 그렇기에 GAN 알고리즘을 소수 클래스에 적용할 경우 실제 데이터와 매우 유사한 데이터를 생성함으로써 과적합의 문제를 피할 수 있는 것이다.


데이터 샘플링 이외의 방법들

 
  그러나 사용하고자 하는 도메인이 학습을 위한 데이터를 생성해 사용할 수 있는지는 생각해봐야 한다. 앞서 제시한 만성 위염 환자에서 위암 발전 가능성이 있는 환자 예측 문제의 경우는 실제 만성 위염에서 위암으로 발전되는 경우가 약 5% 정도로 알려져 있으므로, 이 비율을 그대로 유지해 모델을 생성하는 것이 더 좋은 해결책이 될 수 있다. 즉 의학 도메인의 경우 유사한 환자의 데이터를 활용해 모델의 성능을 향상시키는 것이 과연 실제 환자를 예측하는 데 활용될 수 있을지는 고려해 봐야 할 문제가 된다.
  반면 실제 해결하기 위한 문제에 따라 샘플링을 적용하는 것이 적절한 방안이 되지 못하는 경우, 학습과정에서 목적 함수의 손실(Loss)을 계산할 때 더 큰 가중치를 두는 방법도 활용되고 있다. 이때 목적 함수란 기계학습을 통해 예측한 값과 실제값의 차이를 계산하는 함수이며, 그 차이는 ‘손실값’이 된다. 기계는 손실값이 작아지는 방향으로 학습을 진행하는데, 이 과정에서 소수 클래스를 틀렸을 경우는 가중치를 보다 크게 둬 소수 클래스의 중요도를 높이는 것이다. 이 방법은 오버샘플링의 적용이 적절하지 않은 도메인에서 적용해 볼 수 있으며, 불균형 데이터를 그대로 사용해 최적의 성능을 낼 수 있다는 장점이 있다. 그러나 샘플링을 적용해 클래스 균형을 맞춘 경우보다는 성능이 높지 않을 수 있다.
  여러 가지 분류 알고리즘을 함께 사용해 최대한 소수 클래스의 특성을 추출하고 분류하는 스태킹 앙상블 기법 역시 존재한다. 특성을 추출하는 데에 능한 알고리즘인 딥러닝을 적용해 해당 클래스의 속성을 추출한 다음, 그 결과를 다시 ‘XGBoost’와 같은 분류에 좋은 알고리즘에 적용함으로써 분류 정확도를 높이는 것이다. 클래스 간의 경계가 모호해 데이터의 복잡도가 큰 경우 알고리즘의 영향을 크게 받는 경향이 있으므로, 여러 분류의 알고리즘을 적용해 가장 좋은 모델을 선택하는 것이 좋다.
  마지막으로 분류 예측의 문제에서 정확도(Accuracy), 정밀도(Precision), 그리고 재현율(Recall)은 가장 일반적으로 사용되는 성능 평가 방식이지만, 데이터 불균형이 심할수록 적절하지 않을 수 있다. 예를 들어 건강검진을 받은 1천 명의 직장인 중 1명꼴로 암이 발견된다고 할 때, 암 환자를 예측하는 재현율은 매우 낮다. 그러나 전체 정확도를 계산할 때는 암에 걸린 사람과 걸리지 않은 사람을 모두 맞춘 경우를 계산하므로, 정확도는 매우 높지만 실제 관심 대상인 암 환자를 예측하는 것은 부정확한 경우가 종종 발생하는 것이다. 이러한 경우는 전체 정확도를 고려하기 보단 기계학습을 통해 높은 확률로 암이라고 예측한 사람들이 얼마나 실제 암 환자인지 파악하는 게 중요하다. 따라서 높은 확률로부터 시작해 맞춘 경우와 맞추지 못한 경우를 계산하기 위한 ROC 커브의 면적인 AUC(Area Under Curve) 값을 고려해볼 수 있겠다.


협업의 중요성

 
  데이터 분석가는 기계학습을 통해 문제를 해결하는 경우 최적의 모델을 위한 성능 향상에 주로 관심을 갖게 되지만, 분야에 따라 데이터의 특성과 고려해야 할 지점이 다르다. 이에 해당 분야 전문가와의 협업이 매우 중요해진다. 인문학계에서는 가치가 있는 오래된 문서들을 데이터베이스화하고 구축된 데이터베이스로부터 인문학적 의미를 도출하는 연구가 최근 관심을 받고 있다. 이때 인문학 분야와 협업을 할 경우 데이터 분석가는 해당 분야에서 소중히 여기는 가치가 시스템의 성능이 아니라 내재된 정보를 찾아내는 것임을 이해하고, 인문학자와의 공동 작업을 통해 결과를 도출하는 것이 필수적이다.
  기계도 다양한 기계학습 알고리즘을 적용한 결과를 혼합해 사용하는 앙상블 학습이 좋은 성능을 내는 경우가 많다. 인공지능 기술이 다양한 분야에서 응용되고 있는 시점에서 보다 효과적으로 기계학습을 활용하기 위해서는, 각 분야의 전문가들과 소통하고 전문 지식을 공유할 수 있는 능력이 더욱 필요할 것이다.

 

 

 

저작권자 © 대학원신문 무단전재 및 재배포 금지