stack overflow란?

while(alive){ code();

Machine Learning 28

의사결정나무 Decision Tree

의사결정나무 Decision Tree  ID3ID3 알고리즘은 Iterative Dichotomiser 3의 약자입니다. Dichotomiser는 “이분하다”라는 뜻의 프랑스어로, 반복적으로 이분하는 알고리즘,  Impurity 값으로 엔트로피 (Entropy)를 사용   C4.5 알고리즘정교한 불순도 지표 (Information gain ratio) 활용 범주형 변수 뿐 아니라 연속형 변수를 사용 가능 결측치가 포함된 데이터도 사용 가능 과적합을 방지하기 위한 가지치기 ID3 알고리즘에서는 각 시점에서 모든 지표에 대한 분기 전후의 엔트로피를 기반으로 Information Gain (IG)을 계산하고, 이를 최대화하는 방향으로 지표를 결정했습니다.한계점 : 데이터를 너무 잘게 분해할 수록 Gain값이 ..

Machine Learning 2024.04.13

KNN (K-Nearest Neighbor, K-최근접 이웃)

Model based learning : 데이터로부터 모델을 생성하여 분류,예측함 Instance based learning : 별도의 모델생성없이 인접데이터를 분류,예측함 KNN 특징 KNN은 모델이 아니고 알고리즘이다. KNN 분류 알고리즘 KNN 예측 알고리즘 Y 평균을 취하는 것이 가장 잘 맞음 KNN 하이퍼파라미터 k 선택 Distance measure 유클리디안 거리 Euclidean Distance 맨하탄 거리 Manhattan Distance 마할라노비스 거리 Mahalanobis distance 마할라노비스거리는 공분산을 고려하기에 B는 상관관계에 반하는 위치이기에 더 멀어짐 Correlation distance signal, profile, spectral 등 패턴 유사성을 볼 때 사용..

Machine Learning 2024.04.13

정규화 Regularization

Regularization 좋은 모델은 현재 데이터를 잘 설명하고, 미래 데이터에 대해 잘 예측하는 모델이다. - train data error 최소 (현재) - test data error 최소 (미래) bias는 손해를 보더라도 variance를 좋게해서 성능을 좋게함 Regularization 개념 계수 β에 패널티를 준다. 결국 계수가 0이 되어야 되며, 차수가 낮아진다. Ridge Regression L2-norm제약(제곱) 판별식이 < 0이므로 타원의 형태임, 따라서 MSE contour는 타원의 형태를 가짐 최소제곱의 β는 unbias 이지만, ridge의 β는 bias된다. 그러나 variance가 작아져 예측이 좋아진다. ※ closed-form solution은 문제에 대한 해답을 식으..

Machine Learning 2024.04.13

선형회귀모델 Regression

X와 Y의 관계 - 확정적관계 : Y=f(x) - 확률적관계 : Y = f(x) + ε 선형회귀모델 종류 잔차(Residual) estimator(추정량) : 샘플의 함수 - 알려지지 않은 파라미터를 추정하는 용도 - 점추정, 구간추정 점추정 point estimator 구간추정 Interval estimation : 구간으로 추정하여 보다 유연한 정보 제공 가설검정 회귀분석 결과 R squared 결정계수 Coefficient of Determimation R squared 의 의미 - X변수가 Y변수의 분산을 얼마나 줄였는지 - 단순히 Y평균값을 쓰는 것 대비 X 변수를 사용함으로써 얻는 성능향상 정도 - X변수의 품질 수정 R squared

Machine Learning 2024.04.13

ML 개념

Machine learning 알고리즘을 컴퓨터언어로 기계에게 학습시키는 행위 학습 종류 1. 지도 학습(Supervised Learning) - 입력 값과 함께 결과 값(정답 레이블)을 같이 주고 학습을 시키는 방법 - 대표적인 알고리즘 – 분류(Classification), 회귀(Regression) 2. 비지도 학습(Unsupervised Learnging) - 지도 학습과 달리 정답을 알려주지 않고 예측하는 방법 - 대표적인 알고리즘 – 클러스터링(Clustering), 차원 축소(Dimension Reduction) 3. 반지도 학습(Semi-Supervised Learning) - 지도 학습과 비지도 학습을 섞어서 정답을 유추해 나가는 방법 - 군집을 학습한 후에, 군집의 일부 데이터만 사람이..

Machine Learning 2024.04.13