일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- IT
- 데이터분석
- 일반상식
- 데이크루
- 디지털
- 금융상식
- 과대완전
- 알고리즘
- jupyternotebook
- 군집분석
- 디지털직무
- Jupyter Notebook
- 파이썬
- 사전학습
- 은행채용
- 비지도학습
- 과소완전
- 금융
- 파이썬문법
- 데이콘
- 머신러닝
- 주피터노트북
- 금융권
- IT용어
- Python
- 은행
- dacrew
- 디지털용어
- 지도학습
- 직무역량평가
- Today
- Total
반응형
목록공모전 및 대외활동/프로젝트 (5)
Ming's blog
1. Data description 1. 데이터 설명 1) 자료 : Concrete Compressive Strength Data Set 2) 목적 : 다양한 설명변수들을 이용하여, Concrete compressive strength에 영향을 끼치는 변수를 찾아보고자 한다. * 출처 : https://archive.ics.uci.edu/ml/datasets.php 2. Data list Name Data type measurement Description Cement Quantitative kg in a m3 mixture Input Variable Blast Furnace Slag (고로재) Quantitative kg in a m3 mixture Input Variable Fly Ash (석탄재) ..
3. 최종 5장의 그림 선정 1) 각 도시별 에어비앤비의 가격을 나타낸 boxplot 2) 슈퍼호스트 여부에 따른 호스트 응답 시간을 나타낸 pie chart 3) 각 속성의 수를 나타낸 bar plot 4) Room type 별 가격을 나타낸 box plot 5) 각 지역별 가격을 나타낸 map 그림1과 그림4의 경우, 설명변수와 Y(Price)와의 관계가 유의하기에 선택을 하였으며, 그림2의 경우는 ‘슈퍼호스트’라는 변수의 특징을 잘 보여주기에 선택하였다. 그림3의 경우, 다양한 속성 중 상위 4개의 속성을 나타내기에 선택하게 되었고 그림5의 경우, 전체적인 데이터의 분포를 한 눈에 알아보기 쉬워 선택하게 되었다. 4. Conclusion 앞의 시각화를 통해 알 수 있었던 점 및 결론은 다음과 같다...
(3) Super Host 변수 * Super Host 란? 지난 1년간 최소 10회의 숙박을 호스팅했거나 , 장기 숙박을 호스팅하는 경우 최소 3회 , 총 100박 이상 호스팅한 경험이 있는 호스트 1) Super Host 여부[막대그래프] ###super_host### ###막대그래프를 이용한 super host의 수### ggplot(data=airbnb_us_new)+ geom_bar(mapping=aes(x=host_is_superhost)) #superhost가 더 적다. ###막대그래프를 이용한 super host의 신분보증 여부### ggplot(data=airbnb_us_new)+ geom_bar(mapping=aes(x=host_is_superhost,fill=host_identity_..
2. Data visualization (1) Y변수 (price) 1) 전체 Y 분포 #### 전체 Y #### ggplot(data=airbnb_us_new,mapping=aes(x = Y))+ theme_bw()+ #배경색 없애기 geom_freqpoly(col="skyblue") #그래프 선 색 변경 2) state 별 Y 분포 ###state별로 그려보기### ggplot(data=airbnb_us_new,mapping=aes(x = Y,y=..density..,colour=state))+ theme_bw()+ #배경색 없애기 geom_freqpoly() #알아보기 힘들다. 분포가 거의 비슷하다. 3) state 별 Y의 상자그림 ###state별 가격 상자그림으로 알아보기### ggplot(d..
1. Data description 1. 데이터 설명 1) 자료 : 미국의 에어비앤비 가격 및 숙소 세부 정보 데이터 2) 대상 지역 : New York, Los Angeles, San Francisco, Chicago, Boston, Washington, D.C, Seattle, San Diego, Hawaii (9개 도시) 3) 목적 : 에어비앤비 관련 데이터를 분석해 보고 각각의 데이터들이 어떠한 관련이 있는지, 그리고 각 변수들이 에어비앤비의 가격에 어떤 영향을 끼치는지 알아보고자 한다. * 출처 : http://insideairbnb.com/get-the-data.html 2. 데이터 전처리 과정 1) 총 9개의 도시 데이터를 필요 없는 열은 제외하고 ‘state’ 변수를 추가하여 병합하였다. ..