Kaggle
-
[Kaggle] Titanic - Machine Learning from Disaster개발/머신러닝-딥러닝 2022. 1. 23. 02:29
이제 케글도 정리하고 싶어서 시작한다. 첫번째 글은 모두가 아는 타이타닉 생존자 예측. 0. 목표 데이터는 타이타닉호의 승객들에 대한 정보와 생존 유무가 있으며, TrainSet의 생존 유무를 label로 하여 학습한 후에, TestSet의 승객정보를 통해 생존 유무를 예측하는 것이 목표이다. 1. 전체 데이터 확인 총 12개의 feature가 있고, 이 중 Survived를 제외한 나머지 정보들을 이용해 Survived를 예측하는 것이 목표이다. 이 데이터에는 대부분 결측치가 없으나, 선실을 나타내는 Cabin에 결측이가 많이 있다. 총 891개의 데이터 중 687개의 결측치는 굉장히 크다. 또 Age에도 꽤 많은 결측값들이 있다. 숫자 데이터간 상관계수 확인. Survived와 상관계수가 높은 데이터..