stack overflow란?

while(alive){ code();

전체 글 62

SVM (Support Vector Machine)

Support Vector Machine 고차원 분류에 높은 성능 train error가 줄면 test error도 줄어드는 generalization ability가 좋음 margin을 최대화하면 test error는 최소화된다는 것 Margin Margin을 w-norm으로 표현 Lagrangian Formulation 목적식과 제약식을 합쳐서 표현 Hard Margin SVM : 선형으로 분리하는 SVM , Linearly Separable case Soft Margin SVM : 선형으로 분리할 수 없는 SVM , Linearly Nonseparable case, 약간의 에러를 허용 Soft Margin SVM Lagrangian Fomulation Lagrangian Dual Kernel Met..

Machine Learning 2024.04.13

의사결정나무 Decision Tree

의사결정나무 Decision Tree  ID3ID3 알고리즘은 Iterative Dichotomiser 3의 약자입니다. Dichotomiser는 “이분하다”라는 뜻의 프랑스어로, 반복적으로 이분하는 알고리즘,  Impurity 값으로 엔트로피 (Entropy)를 사용   C4.5 알고리즘정교한 불순도 지표 (Information gain ratio) 활용 범주형 변수 뿐 아니라 연속형 변수를 사용 가능 결측치가 포함된 데이터도 사용 가능 과적합을 방지하기 위한 가지치기 ID3 알고리즘에서는 각 시점에서 모든 지표에 대한 분기 전후의 엔트로피를 기반으로 Information Gain (IG)을 계산하고, 이를 최대화하는 방향으로 지표를 결정했습니다.한계점 : 데이터를 너무 잘게 분해할 수록 Gain값이 ..

Machine Learning 2024.04.13

KNN (K-Nearest Neighbor, K-최근접 이웃)

Model based learning : 데이터로부터 모델을 생성하여 분류,예측함 Instance based learning : 별도의 모델생성없이 인접데이터를 분류,예측함 KNN 특징 KNN은 모델이 아니고 알고리즘이다. KNN 분류 알고리즘 KNN 예측 알고리즘 Y 평균을 취하는 것이 가장 잘 맞음 KNN 하이퍼파라미터 k 선택 Distance measure 유클리디안 거리 Euclidean Distance 맨하탄 거리 Manhattan Distance 마할라노비스 거리 Mahalanobis distance 마할라노비스거리는 공분산을 고려하기에 B는 상관관계에 반하는 위치이기에 더 멀어짐 Correlation distance signal, profile, spectral 등 패턴 유사성을 볼 때 사용..

Machine Learning 2024.04.13

정규화 Regularization

Regularization 좋은 모델은 현재 데이터를 잘 설명하고, 미래 데이터에 대해 잘 예측하는 모델이다. - train data error 최소 (현재) - test data error 최소 (미래) bias는 손해를 보더라도 variance를 좋게해서 성능을 좋게함 Regularization 개념 계수 β에 패널티를 준다. 결국 계수가 0이 되어야 되며, 차수가 낮아진다. Ridge Regression L2-norm제약(제곱) 판별식이 < 0이므로 타원의 형태임, 따라서 MSE contour는 타원의 형태를 가짐 최소제곱의 β는 unbias 이지만, ridge의 β는 bias된다. 그러나 variance가 작아져 예측이 좋아진다. ※ closed-form solution은 문제에 대한 해답을 식으..

Machine Learning 2024.04.13

선형회귀모델 Regression

X와 Y의 관계 - 확정적관계 : Y=f(x) - 확률적관계 : Y = f(x) + ε 선형회귀모델 종류 잔차(Residual) estimator(추정량) : 샘플의 함수 - 알려지지 않은 파라미터를 추정하는 용도 - 점추정, 구간추정 점추정 point estimator 구간추정 Interval estimation : 구간으로 추정하여 보다 유연한 정보 제공 가설검정 회귀분석 결과 R squared 결정계수 Coefficient of Determimation R squared 의 의미 - X변수가 Y변수의 분산을 얼마나 줄였는지 - 단순히 Y평균값을 쓰는 것 대비 X 변수를 사용함으로써 얻는 성능향상 정도 - X변수의 품질 수정 R squared

Machine Learning 2024.04.13