'Data Science/Project' 카테고리의 글 목록

데이터 사이언스 프로젝트 (신용 리스크 모델링) 3 | 데이터 전처리 (Preprocessing)

2024.09.11·

Data Science/Project

데이터 전처리(Data Preprocessing)는 데이터 사이언스 및 머신 러닝 프로젝트에서 원시 데이터를 분석 가능한 형태로 준비하는 과정입니다. 우선, 연속 변수를 숫자형으로 변환하는 것은 필수적입니다. 연속 변수가 숫자형으로 변환되면, 이를 기반으로 통계적 분석과 머신 러닝 모델링을 효과적으로 수행할 수 있습니다. 연속 변수를 숫자형으로 변환하는 과정에서 중요한 점 중 하나는, 특정 변수들이 예상과 다르게 object 타입으로 저장되어 있을 수 있다는 것입니다. 예를 들어, emp_length라는 변수는 숫자형으로 처리되어야 하지만 현재는 object 타입으로 되어 있을 수 있습니다. df['emp_length'] 열의 문자열에서 특정 패턴을 제거하고, 이 데이터를 정수형 형태로 변환하기 위해 여..

데이터 사이언스 프로젝트 (신용 리스크 모델링) 2 | 데이터셋 설명

2024.09.07·

Data Science/Project

첫 번째 단계는 데이터를 잘 이해하는 것입니다. 일반적으로 소비자 대출과 신용 카드는 신용 리스크 모델링이 적용되는 가장 전형적인 소매 금융 상품입니다. 본 프로젝트에서는 소비자 대출에 중점을 두어 모델 구축 과정에서 직면할 수 있는 다양한 도전 과제들을 살펴볼 것입니다. Lending Club의 데이터셋을 사용하여 신용 리스크 모델링을 진행할 것입니다. Lending Club은 미국 기반의 P2P 대출 회사로, 투자자와 대출자를 매칭하여 운영됩니다. 투자자들은 Lending Club을 통해 자금을 투자하며, 이 자금은 대출자에게 전달됩니다. 대출자는 대출금을 상환하면 원금과 이자가 투자자에게 반환됩니다. 이는 대출자에게는 보통 더 낮은 대출 이율을, 투자자에게는 더 높은 수익률을 제공하는 상호 이익을..

데이터 사이언스 프로젝트 (신용 리스크 모델링) 1 | 신용 위험(credit risk)은 무엇이며 왜 중요한가요?

2024.09.05·

Data Science/Project

신용 위험(credit risk)은 금융 기관이나 대출자가 대출받은 사람이 채무를 상환하지 못할 가능성으로 인해 발생하는 손실의 위험을 의미합니다. 신용 위험은 대출이나 투자에서 발생할 수 있는 가장 큰 위험 중 하나로, 대출자나 투자자는 자금을 회수하지 못하거나 이자를 받지 못할 위험에 직면하게 됩니다. 예를 들어, 주택 담보 대출(Home ownership loan)은 신용 위험을 설명하는 좋은 사례입니다. 주택 담보 대출은 집을 구입할 때 주택을 담보로 받는 대출입니다. 한 개인이 30만 달러짜리 집을 구매하려고 할 때, 자신의 저축으로는 5만 달러만 마련할 수 있다고 가정해 봅시다. 나머지 25만 달러는 은행에서 대출을 받아야 합니다. 은행은 주택을 담보로 제공하는 조건으로 25만 달러를 대출해 ..

티스토리툴바