데이터 분석

PCA를 공부하기에 앞서 필요한 기초 개념인 공분산 행렬(Covariance Matrix)과 고유값(Eigenvalue), 고유벡터(Eigenvector)의 개념에 대해 먼저 살펴보겠습니다.  1. 공분산 행렬(Covariance Matrix)공분산(Covariance)이란?공분산은 두 변수(X, Y) 간의 변화하는 관계(상관성, Correlation)를 측정하는 값이다. 공분산이 양수(> 0) -> 두 변수가 같은 방향으로 변화함 (즉, 한 변수가 증가하면 다른 변수도 증가)공분산이 음수( 두 변수가 반대 방향으로 변화함 (즉, 한 변수가 증가하면 다른 변수는 감소)공분산이 0 -> 두 변수 간 상관성이 없음 공분산을 구하는 공식은 다음과 같다. $$COV(X, Y) = \frac{1}{n-1} \di..
1. 데이터 전처리란?데이터 전처리는 분석이나 모델링을 위해 데이터를 정제하고 변환하는 과정이다. 데이터는 수집 단계에서 결측치, 이상치, 다양한 형식의 값 등을 포함할 수 있으므로, 이를 적절히 처리해야 분석 및 모델 성능을 높일 수 있다.    2. 데이터 전처리 순서 데이터 전처리는 일반적으로 위 그림과 같은 순서로 진행된다.결측치 처리: 누락된 데이터를 제거하거나 적절한 값으로 대체이상치 처리: 통계적 방법으로 이상값을 탐지하고 제거 또는 수정데이터 변환: 로그 변환, 스케일링, 정규화 등을 수행인코딩: 범주형 변수를 숫자로 변환특성 선택 및 생성: 중요한 변수를 선택하거나 새로운 변수를 생성데이터 세트 분할: 훈련, 검증, 테스트 세트로 분할    3. 결측치 처리 (Missing Value H..
탐색적 데이터 분석 (EDA) 주요 단계1. 데이터 구조 파악목적데이터의 기본적인 구조와 속성을 파악하여 분석 방향을 설정한다. 이를 통해 데이터 정제 필요성, 변수별 특징, 적절한 전처리 방법 및 모델링 전략을 결정할 수 있다.  주요 확인 사항데이터 크기 (행, 열 개수) -> 데이터의 전체 규모 파악변수(컬럼)의 개수 및 이름 -> 주요 변수 확인, 불필요한 변수 제거 여부 검토데이터 타입 (숫자형, 범주형, 문자열 등)숫자형 (int, float): 수치형 분석 및 통계적 분석에 활용범주형 (object, category): 그룹별 분석 및 원-핫 인코딩 필요 여부 확인문자열 (텍스트 데이터): 자연어 처리(NLP) 필요성 검토누락된 값 (결측치)의 개수 -> 데이터 품질 평가 및 적절한 결측치 ..
범주형 데이터는 머신러닝 모델에서 중요한 역할을 하지만, 컴퓨터는 숫자만 이해할 수 있기 때문에 범주형 데이터를 숫자로 변환하는 작업이 필요하다. 이 과정을 통해 모델이 범주형 데이터를 잘 학습할 수 있게 된다. 범주형 데이터를 처리하는 주요 방법에는 원-핫 인코딩, 라벨 인코딩, 타깃 인코딩이 있다. 각 방법에 대해 자세히 살펴보자.    1. 원-핫 인코딩 (One-Hot Encoding)1.1 정의범주형 변수의 각 범주를 이진 변수(0과 1)로 변환하는 방법이다. 각 범주에 대해 하나의 새로운 열을 생성하고, 해당 범주에 해당하는 행에는 1을, 나머지에는 0을 할당한다. 범주 간 순서나 크기가 없고, 범주 수가 적은 경우에 적합하다.  위 그림을 살펴보면 각각 상품명에 해당하는 열을 만들고, 해당하..
머신러닝에서 모델의 성능을 높이고 과적합(overfitting)을 방지하기 위해 특성 선택(Feature Selection)은 중요한 과정이다. 데이터셋의 모든 변수가 유용한 것은 아니며, 불필요한 변수를 제거하면 모델의 해석력과 학습 속도를 향상시킬 수 있다. 이번 글에서는 특성 선택의 개념, 주요 기법을 소개한다.    1. 특성 선택(Feature Selection)란?특성 선택은 모델 학습에 유용한 변수를 선택하고 불필요하거나 관련성이 낮은 변수를 제거하는 과정이다. 주된 목적은 다음과 같다.모델 성능 향상: 중요한 변수만을 사용하여 과적합을 방지하고 일반화 성능을 높인다.계산 비용 감소: 변수 수를 줄여 학습 속도를 개선한다.모델 해석력 증가: 핵심 변수만 남겨 가독성을 높인다.    2. 특성..
데이터 분석과 머신러닝에서 데이터 전처리는 모델의 성능을 크게 좌우하는 중요한 과정이다. 특히, 변수의 범위가 서로 다를 경우 특정 변수가 모델 학습에 과도한 영향을 미칠 수 있다. 이를 방지하기 위해 사용하는 대표적인 기법이 표준화(Standardization)와 정규화(Normalization)이다. 이번 글에서는 표준화와 정규화의 개념, 차이점, 적용 방법을 설명하고, 실습 코드와 함께 분석 방법을 소개하겠다.    1. 표준화(Standardization)란?1.1 표준화의 개념표준화(Standardization)는 데이터의 평균을 0, 표준편차를 1로 변환하는 기법으로, 서로 다른 단위를 가진 데이터를 동일한 척도로 변환하는 데 사용된다. 특히, 선형 회귀, 로지스틱 회귀, SVM과 같은 기법에..
Woong's
'데이터 분석' 카테고리의 글 목록