데이터 전처리

1. 데이터 전처리란?데이터 전처리는 분석이나 모델링을 위해 데이터를 정제하고 변환하는 과정이다. 데이터는 수집 단계에서 결측치, 이상치, 다양한 형식의 값 등을 포함할 수 있으므로, 이를 적절히 처리해야 분석 및 모델 성능을 높일 수 있다.    2. 데이터 전처리 순서 데이터 전처리는 일반적으로 위 그림과 같은 순서로 진행된다.결측치 처리: 누락된 데이터를 제거하거나 적절한 값으로 대체이상치 처리: 통계적 방법으로 이상값을 탐지하고 제거 또는 수정데이터 변환: 로그 변환, 스케일링, 정규화 등을 수행인코딩: 범주형 변수를 숫자로 변환특성 선택 및 생성: 중요한 변수를 선택하거나 새로운 변수를 생성데이터 세트 분할: 훈련, 검증, 테스트 세트로 분할    3. 결측치 처리 (Missing Value H..
범주형 데이터는 머신러닝 모델에서 중요한 역할을 하지만, 컴퓨터는 숫자만 이해할 수 있기 때문에 범주형 데이터를 숫자로 변환하는 작업이 필요하다. 이 과정을 통해 모델이 범주형 데이터를 잘 학습할 수 있게 된다. 범주형 데이터를 처리하는 주요 방법에는 원-핫 인코딩, 라벨 인코딩, 타깃 인코딩이 있다. 각 방법에 대해 자세히 살펴보자.    1. 원-핫 인코딩 (One-Hot Encoding)1.1 정의범주형 변수의 각 범주를 이진 변수(0과 1)로 변환하는 방법이다. 각 범주에 대해 하나의 새로운 열을 생성하고, 해당 범주에 해당하는 행에는 1을, 나머지에는 0을 할당한다. 범주 간 순서나 크기가 없고, 범주 수가 적은 경우에 적합하다.  위 그림을 살펴보면 각각 상품명에 해당하는 열을 만들고, 해당하..
데이터 분석과 머신러닝에서 데이터 전처리는 모델의 성능을 크게 좌우하는 중요한 과정이다. 특히, 변수의 범위가 서로 다를 경우 특정 변수가 모델 학습에 과도한 영향을 미칠 수 있다. 이를 방지하기 위해 사용하는 대표적인 기법이 표준화(Standardization)와 정규화(Normalization)이다. 이번 글에서는 표준화와 정규화의 개념, 차이점, 적용 방법을 설명하고, 실습 코드와 함께 분석 방법을 소개하겠다.    1. 표준화(Standardization)란?1.1 표준화의 개념표준화(Standardization)는 데이터의 평균을 0, 표준편차를 1로 변환하는 기법으로, 서로 다른 단위를 가진 데이터를 동일한 척도로 변환하는 데 사용된다. 특히, 선형 회귀, 로지스틱 회귀, SVM과 같은 기법에..
Woong's
'데이터 전처리' 태그의 글 목록