Ming's blog

미국 에어비앤비 데이터 시각화 (3) Data visualization_ 본문

공모전 및 대외활동/프로젝트

미국 에어비앤비 데이터 시각화 (3) Data visualization_

H._.ming 2020. 1. 28. 13:32
반응형

(3) Super Host 변수

* Super Host 란?

지난 1년간 최소 10회의 숙박을 호스팅했거나 , 장기 숙박을 호스팅하는 경우 최소 3회 , 총 100박 이상 호스팅한 경험이 있는 호스트

 

1) Super Host 여부[막대그래프]

###super_host###
###막대그래프를 이용한 super host의 수###
ggplot(data=airbnb_us_new)+
  geom_bar(mapping=aes(x=host_is_superhost))
#superhost가 더 적다.

###막대그래프를 이용한 super host의 신분보증 여부###
ggplot(data=airbnb_us_new)+
  geom_bar(mapping=aes(x=host_is_superhost,fill=host_identity_verified))
#superhost가 아닌사람들 중에 신분보증이 안된사람이 더 많다.

 

슈퍼 호스트 여부를 이용하여 막대 그래프를 그려보면 아래와 같다.

 

슈퍼 호스트의 수 및 슈퍼호스트 여부에 따른 신분 보증이 된 호스트의 수

 

에어비앤비의 호스트 중 슈퍼호스트가 아닌 사람이 훨씬 더 많이 존재하며

신분이 보증되지 않은 사람의 비율은 슈퍼호스트가 아닌 사람들이 더 높다.

 

2) Super Host의 응답률 및 리뷰 평점[상자그림]

###상자그림을 이용한 host_response_rate분포###
ggplot(data=airbnb_us_new)+
  geom_boxplot(mapping=aes(x=host_is_superhost,y=host_response_rate))
##superhost의 응답률은 100에 수렴한다.

#상자그림을 이용한 host_review_rating분포###
ggplot(data=airbnb_us_new)+
  geom_boxplot(mapping=aes(x=host_is_superhost,y=review_scores_rating))
#superhost의 review rating이 더 좋음

슈퍼호스트 여부에 따른 응답률 및 리뷰평점

 

또한, Super Host의 응답률은 100(%)에 수렴하며 Super Host의 리뷰 평점이 훨씬 높다.

 

(4) Host response time 변수

1) 호스트의 응답 시간

###막대그래프를 이용한 host_response_time의 분포###
h_s<-ggplot(data=airbnb_us_new)+
  geom_bar(mapping=aes(x=host_response_time,alpha=0.9,fill=host_response_time))+
  theme_bw()
h_s+scale_fill_brewer(palette=4)
#within an hour이 가장 많다.

호스트 응답시간의 분포

 

일반적인 호스트의 응답시간은 한시간 이내가 가장 많이 존재한다.

 

2) 슈퍼호스트 여부에 따른 호스트 응답 시간[파이차트]

###host reponse time 원도표로 나타내기###
#not super host
ggplot()+theme_no_axes()+coord_fixed()+
  geom_arc_bar(aes(x0=0,y0=0,r0=0,r=2,amount=n,fill=host_response_time),data=h,stat='pie')+
  scale_fill_brewer(palette="YlOrRd")+
  ggtitle("not super host")+
  theme(plot.title=element_text(face="bold", size=30, vjust=2))
  
#super host
ggplot()+theme_no_axes()+coord_fixed()+
  geom_arc_bar(aes(x0=0,y0=0,r0=0,r=2,amount=n,fill=host_response_time),data=s_h,stat='pie')+
  scale_fill_brewer(palette="YlOrRd")+
  ggtitle("super host")+
  theme(plot.title=element_text(size=30, vjust=2))

슈퍼호스트와 슈퍼호스트가 아닌 호스트의 응답시간 비율

 

호스트의 응답 시간을 슈퍼호스트와 슈퍼호스트가 아닌 호스트로 나누어 살펴보면 위와 같다.
슈퍼호스트의 경우가 한시간 이내에 답하는 비율이 훨씬 더 높다.

 

 

Q. 그렇다면 Super Host 의 숙소가 더 비쌀까?

 

###super host 여부에 따른 가격 상자그림으로 그리기###
ggplot(data=airbnb_us_new)+
  geom_boxplot(mapping=aes(x=host_is_superhost,y=Y))
#superhost 여부는 가격에 큰 영향을 끼치지 않음

슈퍼호스트 여부에 따른 가격

 

이 질문에 답을 하기 위해 슈퍼호스트 여부와 가격 데이터를 이용하여 boxplot 을 그려보았지만

A. Super Host 여부는 가격에 큰 영향을 끼치지 않는 것으로 보인다.

 

(6) Property 변수

1) Porperty의 종류[막대그래프]

###막대그래프를 이용한 property_type의 수###
ggplot(data=airbnb_us_new) +
  geom_bar(mapping=aes(x=(property_type),fill=property_type),show.legend = "F")+
  theme_bw()+
  coord_flip()
airbnb_us_new%>%
  count(property_type)
#apartment, house, condominium,townhouse 순으로 존재

###상위 4개 property_type의 수 막대그래프로 그리기###
new_prop<-airbnb_us_new %>%
  filter(property_type%in% c("Apartment","House","Condominium","Townhouse"))

ggplot(data=new_prop)+
  geom_bar(mapping=aes(x=property_type,fill=property_type))+
  theme_bw()

property type의 종류

 

숙소의 속성을 살펴보면 다음과 같이 굉장히 많은 속성이 존재한다.

 

위의 오른쪽 그래프는 이 중 "상위 4 곳"을 뽑아 그려본 것이다.

 

그래프를 통해 apartment, house, condominium, townhouse 순으로 많이 존재한다 는 것을 알 수 있다.

 

2) property 유형에 따른 가격

###상자그림을 이용한 property_type vs price###
ggplot(data=new_prop)+
  geom_boxplot(mapping=aes(x=reorder(property_type,Y,FUN=median),y=Y,fill=property_type))+ #크기순 정렬
  xlab("property_type")+ #x축 이름
  theme_bw()  
#condominium이 가장 비싸다

상위 property type의 가격 분포 

 

앞의 네가지 속성을 가진 에어비앤비의 가격 을 살펴보면 condominium 이 가장 비싸다.

 

(7) Room type 변수

###room_type##
###막대그래프를 이용한 room_type의 수###
ggplot(data=airbnb_us_new)+
  geom_bar(mapping=aes(x=room_type,fill=room_type,alpha=0.5))+
  theme_bw()

###room_type에 따른 가격 상자그림으로 그리기###
ggplot(data=airbnb_us_new)+
  geom_boxplot(mapping=aes(x=room_type,y=Y,fill=room_type,color=room_type,alpha=0.5))+
  theme_bw()
#entire home/apt가 가장 많다.

room type의 종류와 가격 분포

 

방의 종류의 경우, 전체 집과 아파트를 빌려주는 경우가 가장 많으며 

이 경우가 가장 비싼 것을 확인할 수 있다.

 

(8) Bed type 변수

###상자그림을 이용한 bed type에 따른 가격###
ggplot(data=airbnb_us_new)+
  geom_boxplot(mapping=aes(x=bed_type,y=Y))
#real bed가 가장 가격이 비씨다.

bed type에 따른 가격 분포

 

침대의 속성의 경우, 실제 침대를 가지고 있는 에어비앤비인 경우가 

다른 종류의 침대를 가지고 있는 에어비앤비보다 가격이 더 비싼 것을 확인할 수 있다.

 

(9) extra

###막대그래프를 이용한 숙박인원의 수, 침대의 수, 침실의 개수의 분포###
#accommodates
ggplot(data=airbnb_us_new)+
  geom_bar(mapping=aes(x=accommodates))
airbnb_us_new %>%
  count(accommodates)
#2명이 가장 많다.

#beds
ggplot(data=airbnb_us_new)+
  geom_bar(mapping=aes(x=beds))
#2개가 가장 많다.

#bedrooms
ggplot(data=airbnb_us_new)+
  geom_bar(mapping=aes(x=bedrooms))
#2개가 가장 많다.

숙박인원, 침대의 개수, 침실의 개수의 분포

 

추가로 남은 변수들을 살펴보면

숙박인원은 2명을 위한 숙소가, 침대의 개수는 2개인 숙소가 가장 많으며

침실의 개수 역시 2개인 방이 가장 많다.

반응형
Comments