Feature Engineering

1. 데이터 전처리란?데이터 전처리는 분석이나 모델링을 위해 데이터를 정제하고 변환하는 과정이다. 데이터는 수집 단계에서 결측치, 이상치, 다양한 형식의 값 등을 포함할 수 있으므로, 이를 적절히 처리해야 분석 및 모델 성능을 높일 수 있다.    2. 데이터 전처리 순서 데이터 전처리는 일반적으로 위 그림과 같은 순서로 진행된다.결측치 처리: 누락된 데이터를 제거하거나 적절한 값으로 대체이상치 처리: 통계적 방법으로 이상값을 탐지하고 제거 또는 수정데이터 변환: 로그 변환, 스케일링, 정규화 등을 수행인코딩: 범주형 변수를 숫자로 변환특성 선택 및 생성: 중요한 변수를 선택하거나 새로운 변수를 생성데이터 세트 분할: 훈련, 검증, 테스트 세트로 분할    3. 결측치 처리 (Missing Value H..
범주형 데이터는 머신러닝 모델에서 중요한 역할을 하지만, 컴퓨터는 숫자만 이해할 수 있기 때문에 범주형 데이터를 숫자로 변환하는 작업이 필요하다. 이 과정을 통해 모델이 범주형 데이터를 잘 학습할 수 있게 된다. 범주형 데이터를 처리하는 주요 방법에는 원-핫 인코딩, 라벨 인코딩, 타깃 인코딩이 있다. 각 방법에 대해 자세히 살펴보자.    1. 원-핫 인코딩 (One-Hot Encoding)1.1 정의범주형 변수의 각 범주를 이진 변수(0과 1)로 변환하는 방법이다. 각 범주에 대해 하나의 새로운 열을 생성하고, 해당 범주에 해당하는 행에는 1을, 나머지에는 0을 할당한다. 범주 간 순서나 크기가 없고, 범주 수가 적은 경우에 적합하다.  위 그림을 살펴보면 각각 상품명에 해당하는 열을 만들고, 해당하..
머신러닝에서 모델의 성능을 높이고 과적합(overfitting)을 방지하기 위해 특성 선택(Feature Selection)은 중요한 과정이다. 데이터셋의 모든 변수가 유용한 것은 아니며, 불필요한 변수를 제거하면 모델의 해석력과 학습 속도를 향상시킬 수 있다. 이번 글에서는 특성 선택의 개념, 주요 기법을 소개한다.    1. 특성 선택(Feature Selection)란?특성 선택은 모델 학습에 유용한 변수를 선택하고 불필요하거나 관련성이 낮은 변수를 제거하는 과정이다. 주된 목적은 다음과 같다.모델 성능 향상: 중요한 변수만을 사용하여 과적합을 방지하고 일반화 성능을 높인다.계산 비용 감소: 변수 수를 줄여 학습 속도를 개선한다.모델 해석력 증가: 핵심 변수만 남겨 가독성을 높인다.    2. 특성..
데이터 분석과 머신러닝에서 데이터 전처리는 모델의 성능을 크게 좌우하는 중요한 과정이다. 특히, 변수의 범위가 서로 다를 경우 특정 변수가 모델 학습에 과도한 영향을 미칠 수 있다. 이를 방지하기 위해 사용하는 대표적인 기법이 표준화(Standardization)와 정규화(Normalization)이다. 이번 글에서는 표준화와 정규화의 개념, 차이점, 적용 방법을 설명하고, 실습 코드와 함께 분석 방법을 소개하겠다.    1. 표준화(Standardization)란?1.1 표준화의 개념표준화(Standardization)는 데이터의 평균을 0, 표준편차를 1로 변환하는 기법으로, 서로 다른 단위를 가진 데이터를 동일한 척도로 변환하는 데 사용된다. 특히, 선형 회귀, 로지스틱 회귀, SVM과 같은 기법에..
데이터 분석과 머신러닝에서 데이터의 분포는 모델 성능에 직접적인 영향을 미친다. 특히, 데이터가 정규 분포를 따를 때 많은 통계적 기법화 머신러닝 모델이 더 잘 작동한다. 그러나 현실의 데이터는 대체로 정규성을 띠지 않는 경우가 많다. 이를 확인하는 대표적인 지표가 왜도(Skewness)와 첨도(Kurtosis)이며, 데이터의 왜곡을 줄이기 위한 대표적인 방법이 로그변환(Log Transformation)이다. 이번 글에서는 왜도, 첨도, 로그 변환에 대해 자세히 설명하고, 실습 코드와 함께 분석 방법을 소개하겠다.    1. 왜도(Skewness)란?1.1 왜도의 개념왜도(Skewness)는 데이터의 비대칭성을 나타내는 지표로, 데이터 분포가 평균을 기준으로 얼마나 기울어져 있는지를 측정한다. 정규 분..
Woong's
'Feature Engineering' 태그의 글 목록