Collinearity: Principal Components와 Eigenvalues

통계
R
회귀분석
다중공선성 문제를 주성분 분석(PCA)과 고유값(Eigenvalue)으로 진단하고 해결하는 방법을 다룹니다.
Author

Heeyoung Kim

Published

2024.04.04

Principal Components

다중공선성(Collinearity)은 회귀 모형에서 예측 변수들 간에 강한 선형 관계가 있을 때 발생한다.

주성분 분석(PCA)은 변수들의 분산을 최대화하는 선형 결합인 주성분(PC)을 추출한다. 고유값(Eigenvalue)은 각 주성분이 설명하는 분산의 크기를 나타낸다.

Eigenvalues와 다중공선성 진단

고유값이 0에 가까울수록 해당 방향으로 변수들이 거의 선형 종속임을 의미한다. 조건 수(Condition Number) = \(\sqrt{\lambda_{max}/\lambda_{min}}\) 이 30 이상이면 심각한 다중공선성으로 본다.