일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 지도학습
- dacrew
- 데이터분석
- 직무역량평가
- IT
- 군집분석
- 파이썬
- Python
- IT용어
- jupyternotebook
- 머신러닝
- 은행채용
- 일반상식
- Jupyter Notebook
- 사전학습
- 디지털
- 디지털용어
- 금융권
- 과소완전
- 금융상식
- 디지털직무
- 비지도학습
- 알고리즘
- 데이콘
- 파이썬문법
- 과대완전
- 금융
- 주피터노트북
- 은행
- 데이크루
- Today
- Total
반응형
목록Kaggle (2)
Ming's blog
1. Modeling 앞에서 처리한 데이터를 이용하여 분석을 해보고자 합니다. 여러가지 모델 중 xgboost 와 randomforest를 이용한 분석을 하려고 합니다. 1.1. xgboost train 데이터를 train_test_split 함수로 7:3으로 나누어 CV방법을 이용하여 모델을 생성하고자 합니다. 우리가 예측하고자 하는 타켓변수는 0 또는 1의 값을 가지므로 XGBClassifier 모델을 이용하려 합니다. import xgboost as xgb from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report, accuracy_score #train 변수 나누기 X, y..
파이썬을 이용하여 kaggle에서 가장 기본으로 알려진 타이타닉 데이터를 분석하고자 합니다. 먼저, 데이터 분석에 앞서 필요한 패키지들을 불러옵니다. numpy와 pandas 그리고 시각화를 위함 matplotlib과 seaborn을 불러오겠습니다. 또한, 통계분석을 위해 scipy와 NA값을 쉽게 보여주는 missingno를 불러오겠습니다. 마지막으로, warnings를 불러와 필요없는 경고 메시지를 표현하지 않도록 하였습니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from scipy import stats %matplotlib inline #na값 쉽게 보는 함수 impor..