일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 금융
- 데이크루
- 금융권
- 디지털직무
- 은행채용
- 과소완전
- 금융상식
- jupyternotebook
- 디지털용어
- Python
- 비지도학습
- dacrew
- 파이썬
- 일반상식
- 주피터노트북
- IT
- 데이터분석
- 머신러닝
- 파이썬문법
- 지도학습
- Jupyter Notebook
- 디지털
- 알고리즘
- 은행
- 사전학습
- 군집분석
- IT용어
- 데이콘
- 과대완전
- 직무역량평가
- Today
- Total
Ming's blog
군집분석의 의미 및 종류(3) 본문
5. 분할 군집화 분석
1) K-means clustering
K-menas clustering의 절차는 다음과 같은 형태입니다.
1. 무작위로 k개의 centroids를 선택 후, 각 데이터들을 거리가 가장 가까운 중심에 배정합니다.
2. 군집 안에 있는 모든 데이터의 평균을 구하고 이를 중심값으로 다시 재 설정합니다.
3. 데이터들을 자신과 가장 가까운 중심에 재 배정해줍니다.
4. 이러한 과정을 중심이 더 이상 변화하지 않을 때까지 반복합니다.
2) Paritioning around medoids(PAM)
Paritioning around medoids(PAM) 방법 역시 k-means 와 비슷한 방법이지만
이 방법의 경우, 총비용을 계산하여 이 값이 작을 때에만 그룹의 medoid를 바꿔준다는 차이가 있습니다.
Paritioning around medoids(PAM)의 절차는 다음과 같은 형태입니다.
1. 무작위로 K개의 medoids를 선택한다.
2. 각 medoid에 대한 모든 관측치들의 거리/비유사성을 계산한다.
3. 각 관측치를 가장 가까운 medoid에 배정한다.
4. 소속된 medoid와 각 관찰치들 간의 거리합을 계산한다.
5. Medoid가 아닌 포인트를 선택하여 medoid와 바꾼다.
6. 모든 포인트를 이와 가장 가까운 medoid에 다시 배정한다.
7. 총비용을 계산한다.
8. 이 총비용이 이전보다 더 작다면 새로운 포인트를 medoid에 다시 배정한다.
9. Medoid가 변하지 않을 때까지 단계 5-8을 반복한다.
이 과정을 다음의 예시를 통해 자세히 살펴보도록 하겠습니다.
다음과 같은 10개의 데이터가 있을 때, 이 중 무작위로 2개의 medoids를 선택합니다.
여기에서는 X2과 X8가 채택되었습니다.
그 후, 이 medoid를 중심으로 모든 관측치들의 거리 또는 비유사성을 계산하게 됩니다.
각각의 결과는 아래와 같으며
이때, 첫번째부터 네 번째 데이터는 c1에, 나머지 데이터는 c2에 더 가까운 것을 확인할 수 있습니다.
다음으로 현재의 medoid와는 다른 한 점을 선택해서 이 점을 기준으로 다시 거리를 계산해 줍니다.
여기에서는 O'이라는 점이 선택되었고,
c1과 O'두 점을 기준으로 거리 또는 비유사성을 계산하면 아래와 같은 결과가 나오게 됩니다.
이때, 총 비용을 계산해 보면 c1과 c2를 medoid로 선택하였을 경우(31+13=44)보다
c1과 O'를 선택했을 때(31+19=50)의 비용이 더 커진 것을 확인할 수 있습니다.
이에, medoid를 바꾸지 않는 것이 적합하다고 판단할 수 있습니다.
이와 같은 과정을 medoid가 더 이상 변화하지 않을 때까지 반복하게 됩니다.
R을 이용하여 그룹을 나누어 보면 아래와 같이 나누어지는 것을 확인할 수 있습니다.
6. conclusion
군집분석은 생물학 및 행동과학, 마케팅 그리고 의학연구 등에서 광범위하게 사용되고 있습니다.
더불어 다양한 군집분석의 방법들은 분석하고자 하는 데이터의 특성에 따라 선택해야 합니다.
예를 들어, categorical 변수의 경우, kmodes 방법을 이용하여 분석하는 것이 좋고,
변수가 가우시안 분포를 따른다는 전제하에 분석을 하는 gmm 분석도 있습니다.
데이터에 대한 충분한 이해가 선행된다면
이러한 분석 기법들을 이용해 적절한 clustering을 할 수 있을 것입니다.
'수업 & 스터디 > 통계학' 카테고리의 다른 글
EM-algorithm을 이용한 예측하기 2. 나방의 색 예측하기 (0) | 2020.04.18 |
---|---|
EM-algorithm을 이용한 예측하기 1. EM-algorithm이란? (0) | 2020.04.17 |
군집분석의 의미 및 종류(2) (3) | 2020.02.14 |
군집분석의 의미 및 종류(1) (3) | 2020.02.13 |