일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 디지털용어
- Python
- 은행채용
- 직무역량평가
- 사전학습
- 데이크루
- 데이터분석
- 디지털직무
- 일반상식
- 은행
- Jupyter Notebook
- IT
- dacrew
- jupyternotebook
- 데이콘
- 디지털
- 주피터노트북
- 머신러닝
- 파이썬문법
- 알고리즘
- 과대완전
- 금융상식
- 비지도학습
- 금융권
- 금융
- IT용어
- 과소완전
- 파이썬
- 군집분석
- 지도학습
- Today
- Total
반응형
목록분류 전체보기 (59)
Ming's blog
1. 웨어러블 컴퓨터 : 신체에 착용할 수 있는 형태에서 컴퓨터 기능을 할 수 있는 모든 종류의 디바이스 2. 데이터 3법 1) 개인정보 보호법 2) 정보통신방법 3) 신용정보법 개인정보와 관련된 개정안 3가지 3. 애그테크 : 농업(Agriculture) + 기술(Technology) 생산 과정에서 첨단 기술(AI 등 4차혁명기술)을 활용해 생산량을 극대화하는 것이 목적 4. 지능형 로봇 : 외부 환경을 스스로 인식하고 판단하여 자율적으로 행동하는 로봇 5. 키오스크 : 은행, 지하철 등에서 사용되는 무인 단말기 6. U-헬스 : Ubiquitous - healthcare 유비쿼터스 네트워크 환경을 이용하여 언제 어디서나 실시간으로 건강상태를 평가, 진단 및 치료를 위한 모든 활동 7. 초연결사회 : ..
1. 도입 무식하게 푼다 = 컴퓨터의 빠른 계산 능력을 이용해 가능한 경우의수를 일일이 나열하면서 답을 찾는 방법 완전 탐색 : 가능한 방법을 전부 만들어 보는 알고리즘 2. 재귀 호출과 완전 탐색 1) 재귀 호출 재귀 함수 : 자신이 수행할 작업을 유사한 형태의 여러 조각으로 쪼갠 뒤, 그 중 한 조각을 수행하고 나머지를 자기 자신을 호출해 실행하는 함수 모든 재귀 함수는 더이상 쪼개지지 않는 최소한의 작업에 도달했을 때 답을 곧장 반환하는 조건문을 포함해야 합니다. 이때, 쪼개지지 않는 가장 작은 작업들을 재귀 호출의 기저 사례라고 합니다.
Q. 알고리즘이란? A. 어떤 작업이 주어졌을 때, 컴퓨터가 이 작업을 해결하는 방법 Q. 알고리즘의 평가 기준? A. 알고리즘이 사용하는 시간 + 알고리즘이 사용하는 공간 1. 도입 Q. 알고리즘의 수행시간측정 기준은? A. 반복문이 지배한다. 즉, 반복문이 수행되는 횟수로 측정가능하다. 2. 선형 시간 알고리즘 ex) 다이어트 현황 파악 - 이동평균 계산하기 Q. M-이동평균이란? A. 마지막 M개의 관찰 값의 평균! Q. 선형 시간 알고리즘이란? A. 입력의 크기에 대비해 걸리는 시간을 그래프로 나타내면 정확히 선형(직선)형태를 가진다. 3. 선형 이하 시간 알고리즘 ex) 성현 전 사진 찾기 - 이진탐색 Q. 선형 이하 시간 알고리즘이란? A. 입력의 크기가 커지는 것보다 수행시간이 느리게 증가하..
1. 좋은 코드를 짜기 위한 원칙 1) 간결한 코드 작성 ex) 전역 변수 사용 2) 코드 재사용 ex) 함수, 클래스 생성 3) 표준 라이브러리 공부 4) 같은 형태로 프로그램 작성 5) 일관적이고 명료한 명명법 사용 6) 자료 정규화하여 저장 7) 코드와 데이터 분리 2. 자주 하는 실수 1) 산술 오버플로 - 계산 과정에서 변수의 표현 범위를 벗어나는 값을 사용하는 것 2) 배열 범위 밖 원소에 접근 3) 일관되지 않은 범위 표현 방식 사용 -> 반 열린 구간 사용! ex) [a,b) 4) off-by-one 오류 - 큰 줄기는 맞지만 하나가 모자라거나 많아서 틀리는 코드의 오류 5) 상수 오타 6) 스택 오버플로 - 사용하는 환경의 스택 허용량에 대해 미리 숙지 7) 다차원 배열 인덱스 순서 바꿔..
1. Modeling 앞에서 처리한 데이터를 이용하여 분석을 해보고자 합니다. 여러가지 모델 중 xgboost 와 randomforest를 이용한 분석을 하려고 합니다. 1.1. xgboost train 데이터를 train_test_split 함수로 7:3으로 나누어 CV방법을 이용하여 모델을 생성하고자 합니다. 우리가 예측하고자 하는 타켓변수는 0 또는 1의 값을 가지므로 XGBClassifier 모델을 이용하려 합니다. import xgboost as xgb from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report, accuracy_score #train 변수 나누기 X, y..
파이썬을 이용하여 kaggle에서 가장 기본으로 알려진 타이타닉 데이터를 분석하고자 합니다. 먼저, 데이터 분석에 앞서 필요한 패키지들을 불러옵니다. numpy와 pandas 그리고 시각화를 위함 matplotlib과 seaborn을 불러오겠습니다. 또한, 통계분석을 위해 scipy와 NA값을 쉽게 보여주는 missingno를 불러오겠습니다. 마지막으로, warnings를 불러와 필요없는 경고 메시지를 표현하지 않도록 하였습니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from scipy import stats %matplotlib inline #na값 쉽게 보는 함수 impor..
1. Description 지난 포스팅에서 소개한 EM 알고리즘을 이용하여 나방의 색을 결정하는 각 유전자를 가지고 있는 나방의 개체 수를 알아보고자 합니다. 나방의 색은 C, I, T라는 세 개의 대립유전자에 의해 결정된다고 알려져 있습니다. 이때, 유전자 타입은 유전자형과 표현형으로 나뉘어져 있는데 CC, CI, CT와 같은 형태를 유전자형, C, I, T와 같은 형태를 표현형이라고 합니다. 혈액형을 예시로 들면, AO, BO, OO,와 같은 형태를 유전자형, O, A, B, AB와 같은 형태를 표현형이라 부릅니다. 나방의 유전자의 경우, C가 I보다, I가 T보다 우위에 있다고 알려져 있습니다.(C > I > T) 즉, 유전자형이 CC, CI, CT와 같은 경우는 표현형이 C로 나타나게 되며 유전자..
1. What is EM-algorithm? EM 알고리즘이란 expectation maximization이라는 의미로 반복 시행을 통해 MLE값을 추정하는 방법을 의미합니다. 특히나 missing value 상황에서 빛을 바란다고 알려져 있는데, missing value 상황이란 log-likelihood가 완전하지 않을 때 혹은 mle 값이 존재하지 않을 때를 의미합니다. EM알고리즘은 완전한 log-likelihood를 알지 못할 때, 특히나 missing value가 있는 경우에도 MLE 추정이 가능하다고 알려져 있습니다. 즉, EM 알고리즘이란 latent variable이 존재하는 모델의 MLE를 구하기 위한 알고리즘 중 하나입니다. * latent variable : 본래 가지고 있는 ran..