PCA를 공부하기에 앞서 필요한 기초 개념인 공분산 행렬(Covariance Matrix)과 고유값(Eigenvalue), 고유벡터(Eigenvector)의 개념에 대해 먼저 살펴보겠습니다. 1. 공분산 행렬(Covariance Matrix)공분산(Covariance)이란?공분산은 두 변수(X, Y) 간의 변화하는 관계(상관성, Correlation)를 측정하는 값이다. 공분산이 양수(> 0) -> 두 변수가 같은 방향으로 변화함 (즉, 한 변수가 증가하면 다른 변수도 증가)공분산이 음수( 두 변수가 반대 방향으로 변화함 (즉, 한 변수가 증가하면 다른 변수는 감소)공분산이 0 -> 두 변수 간 상관성이 없음 공분산을 구하는 공식은 다음과 같다. $$COV(X, Y) = \frac{1}{n-1} \di..
탐색적 데이터 분석 (EDA) 주요 단계1. 데이터 구조 파악목적데이터의 기본적인 구조와 속성을 파악하여 분석 방향을 설정한다. 이를 통해 데이터 정제 필요성, 변수별 특징, 적절한 전처리 방법 및 모델링 전략을 결정할 수 있다. 주요 확인 사항데이터 크기 (행, 열 개수) -> 데이터의 전체 규모 파악변수(컬럼)의 개수 및 이름 -> 주요 변수 확인, 불필요한 변수 제거 여부 검토데이터 타입 (숫자형, 범주형, 문자열 등)숫자형 (int, float): 수치형 분석 및 통계적 분석에 활용범주형 (object, category): 그룹별 분석 및 원-핫 인코딩 필요 여부 확인문자열 (텍스트 데이터): 자연어 처리(NLP) 필요성 검토누락된 값 (결측치)의 개수 -> 데이터 품질 평가 및 적절한 결측치 ..
머신러닝에서 모델의 성능을 높이고 과적합(overfitting)을 방지하기 위해 특성 선택(Feature Selection)은 중요한 과정이다. 데이터셋의 모든 변수가 유용한 것은 아니며, 불필요한 변수를 제거하면 모델의 해석력과 학습 속도를 향상시킬 수 있다. 이번 글에서는 특성 선택의 개념, 주요 기법을 소개한다. 1. 특성 선택(Feature Selection)란?특성 선택은 모델 학습에 유용한 변수를 선택하고 불필요하거나 관련성이 낮은 변수를 제거하는 과정이다. 주된 목적은 다음과 같다.모델 성능 향상: 중요한 변수만을 사용하여 과적합을 방지하고 일반화 성능을 높인다.계산 비용 감소: 변수 수를 줄여 학습 속도를 개선한다.모델 해석력 증가: 핵심 변수만 남겨 가독성을 높인다. 2. 특성..