불균형 데이터 분류: 랜덤 포레스트 및 XGBoost 성능 분석

Comprehensive Analysis of Random Forest and XGBoost Performance with SMOTE, ADASYN, and GNUS Under Varying Imbalance Levels

Mehdi Imani, Ali Beikmohammadi, Hamid R. Arabnia·Technologies·발표 2025.02· 161 인용

최근 1년 160회 인용· 분야 최상위· 떠오르는 연구

원문 읽기 내 논문 분석하기

한국어 핵심 요약

본 연구는 통신 분야의 고객 이탈 예측과 같은 불균형 데이터 분류 문제에서 Random Forest와 XGBoost 분류기의 성능을 SMOTE, ADASYN, GNUS 세 가지 업샘플링 기법과 결합하여 평가했습니다. 보통 수준(이탈률 15%)부터 극심한 수준(이탈률 1%)까지 다양한 불균형 레벨의 데이터셋을 활용하여 F1 점수, ROC AUC, PR AUC, MCC, Cohen’s Kappa 등의 지표로 성능을 종합적으로 분석했습니다. 연구 결과, 튜닝된 XGBoost와 SMOTE를 결합한 모델(Tuned_XGB_SMOTE)이 모든 불균형 레벨에서 가장 높은 F1 점수와 견고한 성능을 일관되게 보였습니다. 특히 SMOTE는 XGBoost와 함께 사용될 때 가장 효과적인 업샘플링 방법으로 나타났습니다. 반면 Random Forest는 심각한 불균형 조건에서 성능이 저조했습니다. ADASYN은 XGBoost와 함께 사용 시 중간 정도의 효과를 보였으나 Random Forest와는 성능이 좋지 않았고, GNUS는 일관성 없는 결과를 보였습니다. 데이터 불균형은 MCC, Kappa, F1 점수에 상당한 영향을 미쳤지만, ROC AUC와 PR AUC는 비교적 안정적이었습니다. 프리드먼 테스트와 네메니 사후 검정을 통한 통계 분석 결과, Tuned_XGB_SMOTE가 Tuned_RF_GNUS보다 F1 점수, PR-AUC, Kappa, MCC에서 통계적으로 유의미하게 우수한 성능을 보였습니다(p < 0.05). 이러한 결과는 불균형 분류 시나리오에서 모델 선택을 위한 신뢰할 수 있는 프레임워크를 제공합니다.

섹션 미리보기

연구 배경

데이터 불균형은 분류 모델의 성능을 저해하는 주요 요인입니다. 본 연구는 통신 분야의 고객 이탈 예측과 같이 클래스 불균형이 심한 데이터셋에서 효과적인 분류 모델 구축 방안을 모색합니다.

핵심 발견

튜닝된 XGBoost와 SMOTE를 결합한 모델(Tuned_XGB_SMOTE)이 다양한 불균형 수준에서 가장 우수한 성능을 보였습니다. SMOTE는 XGBoost와 함께 사용될 때 가장 효과적인 업샘플링 기법으로 확인되었습니다.

전체 8개 섹션 분석

내가 읽고 있는 논문도 이렇게 정리해드릴게요

연구 배경 · 방법론 · 결과 · 한계점까지 8개 섹션 풀 분석. PDF 업로드 한 번이면 끝.

내 논문 분석하기

불균형 데이터 분류: 랜덤 포레스트 및 XGBoost 성능 분석

연구 배경

핵심 발견

내가 읽고 있는 논문도 이렇게 정리해드릴게요

관련 컴퓨터 과학 논문

초저지연 대규모 집적 포토닉 가속기

ChatGPT가 학습에 미치는 영향 메타분석

심층 학습 손실 함수 및 평가 지표 종합 분석

PLIP 2025: 단백질-단백질 상호작용 분석