
데이터 사이언스 프로젝트 (신용 리스크 모델링) 3 | 데이터 전처리 (Preprocessing)
·
Data Science/Project
데이터 전처리(Data Preprocessing)는 데이터 사이언스 및 머신 러닝 프로젝트에서 원시 데이터를 분석 가능한 형태로 준비하는 과정입니다. 우선, 연속 변수를 숫자형으로 변환하는 것은 필수적입니다. 연속 변수가 숫자형으로 변환되면, 이를 기반으로 통계적 분석과 머신 러닝 모델링을 효과적으로 수행할 수 있습니다. 연속 변수를 숫자형으로 변환하는 과정에서 중요한 점 중 하나는, 특정 변수들이 예상과 다르게 object 타입으로 저장되어 있을 수 있다는 것입니다. 예를 들어, emp_length라는 변수는 숫자형으로 처리되어야 하지만 현재는 object 타입으로 되어 있을 수 있습니다. df['emp_length'] 열의 문자열에서 특정 패턴을 제거하고, 이 데이터를 정수형 형태로 변환하기 위해 여..