특성 공학

범주형 데이터는 머신러닝 모델에서 중요한 역할을 하지만, 컴퓨터는 숫자만 이해할 수 있기 때문에 범주형 데이터를 숫자로 변환하는 작업이 필요하다. 이 과정을 통해 모델이 범주형 데이터를 잘 학습할 수 있게 된다. 범주형 데이터를 처리하는 주요 방법에는 원-핫 인코딩, 라벨 인코딩, 타깃 인코딩이 있다. 각 방법에 대해 자세히 살펴보자.    1. 원-핫 인코딩 (One-Hot Encoding)1.1 정의범주형 변수의 각 범주를 이진 변수(0과 1)로 변환하는 방법이다. 각 범주에 대해 하나의 새로운 열을 생성하고, 해당 범주에 해당하는 행에는 1을, 나머지에는 0을 할당한다. 범주 간 순서나 크기가 없고, 범주 수가 적은 경우에 적합하다.  위 그림을 살펴보면 각각 상품명에 해당하는 열을 만들고, 해당하..
머신러닝에서 모델의 성능을 높이고 과적합(overfitting)을 방지하기 위해 특성 선택(Feature Selection)은 중요한 과정이다. 데이터셋의 모든 변수가 유용한 것은 아니며, 불필요한 변수를 제거하면 모델의 해석력과 학습 속도를 향상시킬 수 있다. 이번 글에서는 특성 선택의 개념, 주요 기법을 소개한다.    1. 특성 선택(Feature Selection)란?특성 선택은 모델 학습에 유용한 변수를 선택하고 불필요하거나 관련성이 낮은 변수를 제거하는 과정이다. 주된 목적은 다음과 같다.모델 성능 향상: 중요한 변수만을 사용하여 과적합을 방지하고 일반화 성능을 높인다.계산 비용 감소: 변수 수를 줄여 학습 속도를 개선한다.모델 해석력 증가: 핵심 변수만 남겨 가독성을 높인다.    2. 특성..
데이터 분석과 머신러닝에서 데이터 전처리는 모델의 성능을 크게 좌우하는 중요한 과정이다. 특히, 변수의 범위가 서로 다를 경우 특정 변수가 모델 학습에 과도한 영향을 미칠 수 있다. 이를 방지하기 위해 사용하는 대표적인 기법이 표준화(Standardization)와 정규화(Normalization)이다. 이번 글에서는 표준화와 정규화의 개념, 차이점, 적용 방법을 설명하고, 실습 코드와 함께 분석 방법을 소개하겠다.    1. 표준화(Standardization)란?1.1 표준화의 개념표준화(Standardization)는 데이터의 평균을 0, 표준편차를 1로 변환하는 기법으로, 서로 다른 단위를 가진 데이터를 동일한 척도로 변환하는 데 사용된다. 특히, 선형 회귀, 로지스틱 회귀, SVM과 같은 기법에..
데이터 분석과 머신러닝에서 데이터의 분포는 모델 성능에 직접적인 영향을 미친다. 특히, 데이터가 정규 분포를 따를 때 많은 통계적 기법화 머신러닝 모델이 더 잘 작동한다. 그러나 현실의 데이터는 대체로 정규성을 띠지 않는 경우가 많다. 이를 확인하는 대표적인 지표가 왜도(Skewness)와 첨도(Kurtosis)이며, 데이터의 왜곡을 줄이기 위한 대표적인 방법이 로그변환(Log Transformation)이다. 이번 글에서는 왜도, 첨도, 로그 변환에 대해 자세히 설명하고, 실습 코드와 함께 분석 방법을 소개하겠다.    1. 왜도(Skewness)란?1.1 왜도의 개념왜도(Skewness)는 데이터의 비대칭성을 나타내는 지표로, 데이터 분포가 평균을 기준으로 얼마나 기울어져 있는지를 측정한다. 정규 분..
Woong's
'특성 공학' 태그의 글 목록