일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Jupyter Notebook
- 직무역량평가
- 과대완전
- dacrew
- 데이크루
- 디지털직무
- 은행
- 지도학습
- 데이터분석
- 비지도학습
- 알고리즘
- 디지털용어
- 파이썬문법
- 과소완전
- Python
- IT
- 금융
- jupyternotebook
- IT용어
- 일반상식
- 금융상식
- 은행채용
- 머신러닝
- 금융권
- 주피터노트북
- 군집분석
- 데이콘
- 디지털
- 사전학습
- 파이썬
- Today
- Total
Ming's blog
미국 에어비앤비 데이터 시각화 (3) Data visualization_ 본문
(3) Super Host 변수
* Super Host 란?
지난 1년간 최소 10회의 숙박을 호스팅했거나 , 장기 숙박을 호스팅하는 경우 최소 3회 , 총 100박 이상 호스팅한 경험이 있는 호스트
1) Super Host 여부[막대그래프]
###super_host###
###막대그래프를 이용한 super host의 수###
ggplot(data=airbnb_us_new)+
geom_bar(mapping=aes(x=host_is_superhost))
#superhost가 더 적다.
###막대그래프를 이용한 super host의 신분보증 여부###
ggplot(data=airbnb_us_new)+
geom_bar(mapping=aes(x=host_is_superhost,fill=host_identity_verified))
#superhost가 아닌사람들 중에 신분보증이 안된사람이 더 많다.
슈퍼 호스트 여부를 이용하여 막대 그래프를 그려보면 아래와 같다.
에어비앤비의 호스트 중 슈퍼호스트가 아닌 사람이 훨씬 더 많이 존재하며
신분이 보증되지 않은 사람의 비율은 슈퍼호스트가 아닌 사람들이 더 높다.
2) Super Host의 응답률 및 리뷰 평점[상자그림]
###상자그림을 이용한 host_response_rate분포###
ggplot(data=airbnb_us_new)+
geom_boxplot(mapping=aes(x=host_is_superhost,y=host_response_rate))
##superhost의 응답률은 100에 수렴한다.
#상자그림을 이용한 host_review_rating분포###
ggplot(data=airbnb_us_new)+
geom_boxplot(mapping=aes(x=host_is_superhost,y=review_scores_rating))
#superhost의 review rating이 더 좋음
또한, Super Host의 응답률은 100(%)에 수렴하며 Super Host의 리뷰 평점이 훨씬 높다.
(4) Host response time 변수
1) 호스트의 응답 시간
###막대그래프를 이용한 host_response_time의 분포###
h_s<-ggplot(data=airbnb_us_new)+
geom_bar(mapping=aes(x=host_response_time,alpha=0.9,fill=host_response_time))+
theme_bw()
h_s+scale_fill_brewer(palette=4)
#within an hour이 가장 많다.
일반적인 호스트의 응답시간은 한시간 이내가 가장 많이 존재한다.
2) 슈퍼호스트 여부에 따른 호스트 응답 시간[파이차트]
###host reponse time 원도표로 나타내기###
#not super host
ggplot()+theme_no_axes()+coord_fixed()+
geom_arc_bar(aes(x0=0,y0=0,r0=0,r=2,amount=n,fill=host_response_time),data=h,stat='pie')+
scale_fill_brewer(palette="YlOrRd")+
ggtitle("not super host")+
theme(plot.title=element_text(face="bold", size=30, vjust=2))
#super host
ggplot()+theme_no_axes()+coord_fixed()+
geom_arc_bar(aes(x0=0,y0=0,r0=0,r=2,amount=n,fill=host_response_time),data=s_h,stat='pie')+
scale_fill_brewer(palette="YlOrRd")+
ggtitle("super host")+
theme(plot.title=element_text(size=30, vjust=2))
호스트의 응답 시간을 슈퍼호스트와 슈퍼호스트가 아닌 호스트로 나누어 살펴보면 위와 같다.
슈퍼호스트의 경우가 한시간 이내에 답하는 비율이 훨씬 더 높다.
Q. 그렇다면 Super Host 의 숙소가 더 비쌀까?
###super host 여부에 따른 가격 상자그림으로 그리기###
ggplot(data=airbnb_us_new)+
geom_boxplot(mapping=aes(x=host_is_superhost,y=Y))
#superhost 여부는 가격에 큰 영향을 끼치지 않음
이 질문에 답을 하기 위해 슈퍼호스트 여부와 가격 데이터를 이용하여 boxplot 을 그려보았지만
A. Super Host 여부는 가격에 큰 영향을 끼치지 않는 것으로 보인다.
(6) Property 변수
1) Porperty의 종류[막대그래프]
###막대그래프를 이용한 property_type의 수###
ggplot(data=airbnb_us_new) +
geom_bar(mapping=aes(x=(property_type),fill=property_type),show.legend = "F")+
theme_bw()+
coord_flip()
airbnb_us_new%>%
count(property_type)
#apartment, house, condominium,townhouse 순으로 존재
###상위 4개 property_type의 수 막대그래프로 그리기###
new_prop<-airbnb_us_new %>%
filter(property_type%in% c("Apartment","House","Condominium","Townhouse"))
ggplot(data=new_prop)+
geom_bar(mapping=aes(x=property_type,fill=property_type))+
theme_bw()
숙소의 속성을 살펴보면 다음과 같이 굉장히 많은 속성이 존재한다.
위의 오른쪽 그래프는 이 중 "상위 4 곳"을 뽑아 그려본 것이다.
그래프를 통해 apartment, house, condominium, townhouse 순으로 많이 존재한다 는 것을 알 수 있다.
2) property 유형에 따른 가격
###상자그림을 이용한 property_type vs price###
ggplot(data=new_prop)+
geom_boxplot(mapping=aes(x=reorder(property_type,Y,FUN=median),y=Y,fill=property_type))+ #크기순 정렬
xlab("property_type")+ #x축 이름
theme_bw()
#condominium이 가장 비싸다
앞의 네가지 속성을 가진 에어비앤비의 가격 을 살펴보면 condominium 이 가장 비싸다.
(7) Room type 변수
###room_type##
###막대그래프를 이용한 room_type의 수###
ggplot(data=airbnb_us_new)+
geom_bar(mapping=aes(x=room_type,fill=room_type,alpha=0.5))+
theme_bw()
###room_type에 따른 가격 상자그림으로 그리기###
ggplot(data=airbnb_us_new)+
geom_boxplot(mapping=aes(x=room_type,y=Y,fill=room_type,color=room_type,alpha=0.5))+
theme_bw()
#entire home/apt가 가장 많다.
방의 종류의 경우, 전체 집과 아파트를 빌려주는 경우가 가장 많으며
이 경우가 가장 비싼 것을 확인할 수 있다.
(8) Bed type 변수
###상자그림을 이용한 bed type에 따른 가격###
ggplot(data=airbnb_us_new)+
geom_boxplot(mapping=aes(x=bed_type,y=Y))
#real bed가 가장 가격이 비씨다.
침대의 속성의 경우, 실제 침대를 가지고 있는 에어비앤비인 경우가
다른 종류의 침대를 가지고 있는 에어비앤비보다 가격이 더 비싼 것을 확인할 수 있다.
(9) extra
###막대그래프를 이용한 숙박인원의 수, 침대의 수, 침실의 개수의 분포###
#accommodates
ggplot(data=airbnb_us_new)+
geom_bar(mapping=aes(x=accommodates))
airbnb_us_new %>%
count(accommodates)
#2명이 가장 많다.
#beds
ggplot(data=airbnb_us_new)+
geom_bar(mapping=aes(x=beds))
#2개가 가장 많다.
#bedrooms
ggplot(data=airbnb_us_new)+
geom_bar(mapping=aes(x=bedrooms))
#2개가 가장 많다.
추가로 남은 변수들을 살펴보면
숙박인원은 2명을 위한 숙소가, 침대의 개수는 2개인 숙소가 가장 많으며
침실의 개수 역시 2개인 방이 가장 많다.
'공모전 및 대외활동 > 프로젝트' 카테고리의 다른 글
베이지안 분위 회귀 모형을 이용한 콘트리트 압축강도 분석(1) (2) | 2020.02.25 |
---|---|
미국 에어비앤비 데이터 시각화 (4) Conclusion (1) | 2020.01.28 |
미국 에어비앤비 데이터 시각화 (2) Data visualization (0) | 2020.01.26 |
미국 에어비앤비 데이터 시각화 (1) Data description (0) | 2020.01.26 |