일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 과소완전
- 은행채용
- 디지털직무
- 데이콘
- 군집분석
- 비지도학습
- 금융권
- 디지털
- dacrew
- 금융
- 파이썬문법
- IT용어
- Jupyter Notebook
- 주피터노트북
- 디지털용어
- 데이터분석
- 데이크루
- 사전학습
- 과대완전
- 지도학습
- 알고리즘
- Python
- 은행
- 일반상식
- 파이썬
- jupyternotebook
- 머신러닝
- 금융상식
- 직무역량평가
- IT
- Today
- Total
Ming's blog
군집분석의 의미 및 종류(2) 본문
4. 계층적 군집분석
1) 계층적 군집분석의 절차
계층적 군집분석의 절차는 다음과 같은 형태입니다.
1. 각 관측치를 군집으로 정의하여 데이터 수만큼의 군집을 지정합니다.
2. 각 군집과 군집 간 거리들을 모두 계산합니다.
3. 가장 작은 거리를 갖는 두 개의 군집을 찾아 이를 하나의 군집으로 결합합니다.
4. 모든 관측치를 포함하는 하나의 군집이 형성될 때까지 앞의 두 단계를 계속 반복합니다.
2) 계층적 군집분석 예시
예시를 통해서 계층적 군집분석 알고리즘을 다시 한번 살펴보겠습니다.
다음과 같이 5쌍의 x, y 데이터가 있을 때, 이를 그래프로 나타내면 아래와 같은 형태입니다.
각각의 데이터끼리의 거리를 구해보면 아래와 같습니다.
이때, 가장 거리가 가까운 점은 P1과 P2이므로 이 두 점을 하나의 군집으로 묶어주게 됩니다.
군집 간의 거리를 구하는 방법은 크게 4가지로 나눌 수 있습니다.
첫 번째 그림은 최단연결방법(Single-link)으로 한 군집의 데이터와 다른 군집의 데이터 간의 길이 중 가장 짧은 거리를 기준으로 하는 방법입니다.
두 번째 그림은 최장 연결방법(Complete-link)으로 한 군집의 데이터와 다른 군집의 데이터 간의 길이 중 가장 긴 거리를 기준으로 하는 방법입니다.
세 번째 그림은, 평균 연결방법(Average-link)으로 한 군집의 각 데이터와 다른 군집의 각 데이터 간의 평균 거리를 이용한 방법입니다.
마지막 그림은 중심 연결방법(Centroid distance)으로 두 군집들의 centroids 간의 거리를 기준으로 하는 방법입니다.
이 네가지 방법 중에서 우리는 단일 연결법(Single-link)을 이용한 거리 행렬을 구해보겠습니다.
앞서, p1과 p2를 하나의 군집으로 묶었기 때문에
각 데이터와 이 군집의 거리는 각 데이터와 군집의 데이터들 간의 거리 중 더 작은 값을 선택하게 됩니다.
거리 행렬을 구해보면 아래와 같은 결과가 나와 p4와 p5를 하나의 군집으로 만들어 주게 됩니다.
이와 같은 방법을 반복하다 보면 아래와 같이 결국, 하나의 군집으로 만들어 지게 됩니다.
여기서 우리가 원하는 수만큼의 군집으로 나누고 싶으면,
덴드로그램을 원하는 수의 군집 부분에서 잘라서 구해주면 됩니다.
'수업 & 스터디 > 통계학' 카테고리의 다른 글
EM-algorithm을 이용한 예측하기 2. 나방의 색 예측하기 (0) | 2020.04.18 |
---|---|
EM-algorithm을 이용한 예측하기 1. EM-algorithm이란? (0) | 2020.04.17 |
군집분석의 의미 및 종류(3) (2) | 2020.02.25 |
군집분석의 의미 및 종류(1) (3) | 2020.02.13 |