일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 디지털
- 지도학습
- IT
- jupyternotebook
- Python
- 은행
- 알고리즘
- 금융상식
- IT용어
- 과대완전
- 파이썬
- 금융권
- Jupyter Notebook
- 데이콘
- 데이터분석
- 비지도학습
- 은행채용
- 사전학습
- 직무역량평가
- 금융
- 일반상식
- 머신러닝
- 군집분석
- 과소완전
- 파이썬문법
- 디지털용어
- 데이크루
- 디지털직무
- dacrew
- 주피터노트북
- Today
- Total
반응형
목록수업 & 스터디/통계학 (5)
Ming's blog
1. Description 지난 포스팅에서 소개한 EM 알고리즘을 이용하여 나방의 색을 결정하는 각 유전자를 가지고 있는 나방의 개체 수를 알아보고자 합니다. 나방의 색은 C, I, T라는 세 개의 대립유전자에 의해 결정된다고 알려져 있습니다. 이때, 유전자 타입은 유전자형과 표현형으로 나뉘어져 있는데 CC, CI, CT와 같은 형태를 유전자형, C, I, T와 같은 형태를 표현형이라고 합니다. 혈액형을 예시로 들면, AO, BO, OO,와 같은 형태를 유전자형, O, A, B, AB와 같은 형태를 표현형이라 부릅니다. 나방의 유전자의 경우, C가 I보다, I가 T보다 우위에 있다고 알려져 있습니다.(C > I > T) 즉, 유전자형이 CC, CI, CT와 같은 경우는 표현형이 C로 나타나게 되며 유전자..
1. What is EM-algorithm? EM 알고리즘이란 expectation maximization이라는 의미로 반복 시행을 통해 MLE값을 추정하는 방법을 의미합니다. 특히나 missing value 상황에서 빛을 바란다고 알려져 있는데, missing value 상황이란 log-likelihood가 완전하지 않을 때 혹은 mle 값이 존재하지 않을 때를 의미합니다. EM알고리즘은 완전한 log-likelihood를 알지 못할 때, 특히나 missing value가 있는 경우에도 MLE 추정이 가능하다고 알려져 있습니다. 즉, EM 알고리즘이란 latent variable이 존재하는 모델의 MLE를 구하기 위한 알고리즘 중 하나입니다. * latent variable : 본래 가지고 있는 ran..
5. 분할 군집화 분석 1) K-means clustering K-menas clustering의 절차는 다음과 같은 형태입니다. 1. 무작위로 k개의 centroids를 선택 후, 각 데이터들을 거리가 가장 가까운 중심에 배정합니다. 2. 군집 안에 있는 모든 데이터의 평균을 구하고 이를 중심값으로 다시 재 설정합니다. 3. 데이터들을 자신과 가장 가까운 중심에 재 배정해줍니다. 4. 이러한 과정을 중심이 더 이상 변화하지 않을 때까지 반복합니다. 2) Paritioning around medoids(PAM) Paritioning around medoids(PAM) 방법 역시 k-means 와 비슷한 방법이지만 이 방법의 경우, 총비용을 계산하여 이 값이 작을 때에만 그룹의 medoid를 바꿔준다는 차..
4. 계층적 군집분석 1) 계층적 군집분석의 절차 계층적 군집분석의 절차는 다음과 같은 형태입니다. 1. 각 관측치를 군집으로 정의하여 데이터 수만큼의 군집을 지정합니다. 2. 각 군집과 군집 간 거리들을 모두 계산합니다. 3. 가장 작은 거리를 갖는 두 개의 군집을 찾아 이를 하나의 군집으로 결합합니다. 4. 모든 관측치를 포함하는 하나의 군집이 형성될 때까지 앞의 두 단계를 계속 반복합니다. 2) 계층적 군집분석 예시 예시를 통해서 계층적 군집분석 알고리즘을 다시 한번 살펴보겠습니다. 다음과 같이 5쌍의 x, y 데이터가 있을 때, 이를 그래프로 나타내면 아래와 같은 형태입니다. 각각의 데이터끼리의 거리를 구해보면 아래와 같습니다. 이때, 가장 거리가 가까운 점은 P1과 P2이므로 이 두 점을 하나의..
1. 군집분석(clustering analysis)이란? 군집분석이란, 많은 수의 관측치를 훨씬 적은 수의 군집이나 유형으로 축소시켜주는 기법입니다. 이때, 우리는 유사한 혹은 동질의 데이터끼리 하나의 군집으로 묶어주게 됩니다. 2. 군집분석의 용도 - Summarization of large date - Data organization - Outlier detection - Clustering for classification 먼저, 많은 수의 관측치를 요약하기 위해서 클러스터링을 사용하게 됩니다. 데이터를 조직화하기 위해서, 또는, 많은 데이터들 중에서 outlier을 판별해 내기 위해서 사용하기도 합니다. 마지막으로, 많은 양의 데이터를 classification을 하기 위한 전 단계의 작업으로 이..