일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 주피터노트북
- 디지털
- 머신러닝
- 지도학습
- Python
- IT용어
- 디지털직무
- dacrew
- 과소완전
- 금융상식
- 데이크루
- 금융권
- 사전학습
- 비지도학습
- Jupyter Notebook
- 은행채용
- 직무역량평가
- jupyternotebook
- 일반상식
- 디지털용어
- 파이썬문법
- 과대완전
- 은행
- 데이터분석
- 군집분석
- IT
- 알고리즘
- 파이썬
- 데이콘
- 금융
- Today
- Total
반응형
목록전체 글 (59)
Ming's blog
Country,OtherTotalCases China 80824 Italy 17660 Iran 11364 S. Korea 8086 Spain 5232 Germany 3675 France 3661 USA 2329 코로나 Total Cases는 중국이 80,824명으로 1위, 이탈리아가 17,660명으로 2위이고 한국은 8,086명으로 3위이다. 인구 1M당 발생 현황은 이탈리아가 292.1명으로 가장 높다. 그리고, 현재 Active Cases는 이탈리아가 14,955명, 중국은 12,066명, 이란은 7,321명, 한국은 7,300명 순이다. 현재 Total Cases 상위 6국가의 Closed Cases 기준으로 사망률을 계산해 보면 위와 같다.치사율 = 총 사망자 수 / (총 사망자 수 + 총 회복자..
확진일일별 확진자 수누적 확진자 수2020년 1월 23일 목요일112020년 1월 30일 목요일342020년 1월 31일 금요일372020년 2월 2일 일요일182020년 2월 5일 수요일2102020년 2월 6일 목요일1112020년 2월 7일 금요일1122020년 2월 16일 일요일2142020년 2월 19일 수요일2162020년 2월 20일 목요일5212020년 2월 21일 금요일2232020년 2월 22일 토요일4272020년 2월 23일 일요일4312020년 2월 24일 월요일4352020년 2월 25일 화요일17522020년 2월 26일 수요일11632020년 2월 27일 목요일12752020년 2월 28일 금요일7822020년 2월 29일 토요일5872020년 3월 1일 일요일5922020년..
1. Data description 1. 데이터 설명 1) 자료 : Concrete Compressive Strength Data Set 2) 목적 : 다양한 설명변수들을 이용하여, Concrete compressive strength에 영향을 끼치는 변수를 찾아보고자 한다. * 출처 : https://archive.ics.uci.edu/ml/datasets.php 2. Data list Name Data type measurement Description Cement Quantitative kg in a m3 mixture Input Variable Blast Furnace Slag (고로재) Quantitative kg in a m3 mixture Input Variable Fly Ash (석탄재) ..
5. 분할 군집화 분석 1) K-means clustering K-menas clustering의 절차는 다음과 같은 형태입니다. 1. 무작위로 k개의 centroids를 선택 후, 각 데이터들을 거리가 가장 가까운 중심에 배정합니다. 2. 군집 안에 있는 모든 데이터의 평균을 구하고 이를 중심값으로 다시 재 설정합니다. 3. 데이터들을 자신과 가장 가까운 중심에 재 배정해줍니다. 4. 이러한 과정을 중심이 더 이상 변화하지 않을 때까지 반복합니다. 2) Paritioning around medoids(PAM) Paritioning around medoids(PAM) 방법 역시 k-means 와 비슷한 방법이지만 이 방법의 경우, 총비용을 계산하여 이 값이 작을 때에만 그룹의 medoid를 바꿔준다는 차..
코로나19의 현황을 알아보기 위해 코로나 국제 현황 데이터를 시각화하고자 합니다. worldometer에서 제공하는 데이터를 이용하려 합니다. (1) Coronavirus data 크롤링 1. 크롤링에 필요한 pandas 와 requests, BeautifulSoup 모듈을 불러옵니다. # 모듈 불러오기 import pandas as pd import requests from bs4 import BeautifulSoup 2. BeautifulSoup을 이용해서 worldometer 페이지의 HTML 소스를 가져옵니다. req = requests.get('https://www.worldometers.info/coronavirus/') html=req.text soup=BeautifulSoup(html,'h..
4. 계층적 군집분석 1) 계층적 군집분석의 절차 계층적 군집분석의 절차는 다음과 같은 형태입니다. 1. 각 관측치를 군집으로 정의하여 데이터 수만큼의 군집을 지정합니다. 2. 각 군집과 군집 간 거리들을 모두 계산합니다. 3. 가장 작은 거리를 갖는 두 개의 군집을 찾아 이를 하나의 군집으로 결합합니다. 4. 모든 관측치를 포함하는 하나의 군집이 형성될 때까지 앞의 두 단계를 계속 반복합니다. 2) 계층적 군집분석 예시 예시를 통해서 계층적 군집분석 알고리즘을 다시 한번 살펴보겠습니다. 다음과 같이 5쌍의 x, y 데이터가 있을 때, 이를 그래프로 나타내면 아래와 같은 형태입니다. 각각의 데이터끼리의 거리를 구해보면 아래와 같습니다. 이때, 가장 거리가 가까운 점은 P1과 P2이므로 이 두 점을 하나의..
1. 군집분석(clustering analysis)이란? 군집분석이란, 많은 수의 관측치를 훨씬 적은 수의 군집이나 유형으로 축소시켜주는 기법입니다. 이때, 우리는 유사한 혹은 동질의 데이터끼리 하나의 군집으로 묶어주게 됩니다. 2. 군집분석의 용도 - Summarization of large date - Data organization - Outlier detection - Clustering for classification 먼저, 많은 수의 관측치를 요약하기 위해서 클러스터링을 사용하게 됩니다. 데이터를 조직화하기 위해서, 또는, 많은 데이터들 중에서 outlier을 판별해 내기 위해서 사용하기도 합니다. 마지막으로, 많은 양의 데이터를 classification을 하기 위한 전 단계의 작업으로 이..
3. 최종 5장의 그림 선정 1) 각 도시별 에어비앤비의 가격을 나타낸 boxplot 2) 슈퍼호스트 여부에 따른 호스트 응답 시간을 나타낸 pie chart 3) 각 속성의 수를 나타낸 bar plot 4) Room type 별 가격을 나타낸 box plot 5) 각 지역별 가격을 나타낸 map 그림1과 그림4의 경우, 설명변수와 Y(Price)와의 관계가 유의하기에 선택을 하였으며, 그림2의 경우는 ‘슈퍼호스트’라는 변수의 특징을 잘 보여주기에 선택하였다. 그림3의 경우, 다양한 속성 중 상위 4개의 속성을 나타내기에 선택하게 되었고 그림5의 경우, 전체적인 데이터의 분포를 한 눈에 알아보기 쉬워 선택하게 되었다. 4. Conclusion 앞의 시각화를 통해 알 수 있었던 점 및 결론은 다음과 같다...