일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 디지털
- 주피터노트북
- 과소완전
- 비지도학습
- IT용어
- Python
- 과대완전
- 데이크루
- 데이터분석
- 디지털직무
- 지도학습
- 머신러닝
- IT
- 데이콘
- 알고리즘
- 금융
- 금융권
- 군집분석
- 직무역량평가
- dacrew
- 일반상식
- Jupyter Notebook
- 은행
- 은행채용
- 파이썬문법
- jupyternotebook
- 파이썬
- 디지털용어
- 금융상식
- 사전학습
- Today
- Total
Ming's blog
군집분석의 의미 및 종류(1) 본문
1. 군집분석(clustering analysis)이란?
군집분석이란, 많은 수의 관측치를 훨씬 적은 수의 군집이나 유형으로 축소시켜주는 기법입니다.
이때, 우리는 유사한 혹은 동질의 데이터끼리 하나의 군집으로 묶어주게 됩니다.
2. 군집분석의 용도
- Summarization of large date
- Data organization
- Outlier detection
- Clustering for classification
먼저, 많은 수의 관측치를 요약하기 위해서 클러스터링을 사용하게 됩니다.
데이터를 조직화하기 위해서, 또는, 많은 데이터들 중에서 outlier을 판별해 내기 위해서 사용하기도 합니다.
마지막으로, 많은 양의 데이터를 classification을 하기 위한 전 단계의 작업으로 이용하기도 합니다.
3. 군집분석의 종류
군집분석은 크게 계층적 군집화와 분할적 군집화 두가지로 나뉘게 됩니다.
1) 계층적 응집 군집화(hierarchical clustering)란?
각 관측치를 하나의 최초 군집으로 지정한 후, 한 번에 두 개씩 하나의 군집으로 만들어,
모든 군집들이 하나의 군집이 될 때까지 군집들을 결합해 나가는 방법입니다.
군집분석의 형태를 그림으로 나타내면 아래와 같은 덴드로그램을 만들 수 있습니다.
2) 분할적 군집화(partitional clustering)란?
처음에 군집수인 k를 지정한 후, 관측지들을 무작위로 k개의 집단으로 분할하고
다양한 기준(평균,최빈값 등)을 이용하여 centroid를 수정해나가며 집단을 다시 재분류하는 방법입니다.
분할 군집화의 예로는, k-means, k-modes, k-medoid 방법 등이 있습니다.
계층적 군집의 한 예로, r패키지의 hclust를 들 수 있으며,
분할적 군집의 예로는 군집을 평균을 기준으로 나누는 k-means, 최빈값을 기준으로 나누는 k-modes, 그리고 k-medoid 등이 있습니다.
'수업 & 스터디 > 통계학' 카테고리의 다른 글
EM-algorithm을 이용한 예측하기 2. 나방의 색 예측하기 (0) | 2020.04.18 |
---|---|
EM-algorithm을 이용한 예측하기 1. EM-algorithm이란? (0) | 2020.04.17 |
군집분석의 의미 및 종류(3) (2) | 2020.02.25 |
군집분석의 의미 및 종류(2) (3) | 2020.02.14 |