고전 ML 개요

분류: Layer 11 - AI 기초 & 머신러닝 | 선수지식: L11-10 (ML 수학 토대)

고전 ML 개요 — 회귀, 트리, regularization, bias-variance

1. 한 줄 정의

고전 ML은 신경망 이전 시대의 학습 알고리즘 모음으로, overfitting·regularization·bias-variance라는 ML 사고의 토대를 제공하고, LLM 시대에도 tabular·baseline·임베딩 후속 처리에서 살아있다.

2. 등장 배경과 왜 지금도 중요한가

신경망 1차 붐의 한계가 고전 ML 사고를 정형화했다

1980년대 backpropagation 부활 직후, 복잡한 신경망이 학습 데이터를 외우면서도 학습 외부 데이터에서 무너지는 현상이 반복됐다. Geman·Bienenstock·Doursat (1992)이 이 문제를 bias/variance dilemma로 정형화하면서 — “model complexity↑ → bias↓, 그러나 variance↑가 일반화 오차를 폭증시킨다” — regularization과 capacity 제어가 단순 휴리스틱이 아니라 비모수 통계의 토대 위에 있음을 보였다 (Neural Computation 4(1):1-58).

이 정형화가 1990~2000년대 고전 ML을 낳았다. SVM의 마진, Lasso/Ridge의 명시적 페널티, Random Forest/GBM의 앙상블 분산 감소는 모두 “bias-variance trade-off의 어느 지점을 어떻게 잡을 것인가”라는 단일 질문에 대한 서로 다른 답이다. 그리고 이 사고가 LLM 시대에 그대로 흡수됐다 — AdamW의 weight decay (L2 변형), dropout (Bagging의 NN 등가), early stopping이 모두 같은 토대다 (본문 3.6·3.7에서 매핑).

이 토픽이 사라지면: LLM fine-tuning에서 “왜 train loss는 계속 떨어지는데 평가는 안 좋아지는가”, “왜 weight decay를 0.01→0.1로 올려야 하는가” 같은 결정을 정량적으로 판단할 사고 도구가 없어진다. double descent (3.7) 같은 LLM 시대 새 현상도 고전 U곡선과의 대조 위에서만 의미가 잡힌다.

LLM 시대에 고전 ML이 여전히 가치 있는 이유

Tabular 영역: DB row·CSV 데이터(추천·금융·이상 탐지)는 XGBoost가 LLM·신경망보다 자주 이긴다. Kaggle tabular 우승의 대부분이 GBM 계열.
ML 사고의 토대: overfitting·regularization·bias-variance는 LLM 학습에도 그대로 작동. dropout·weight decay·early stopping은 모두 고전 regularization의 변형이다.
평가 baseline: “이 LLM이 logistic regression보다 나은가?” — 모든 LLM 도입 결정의 출발점.
비용 라우팅: 단순 분류 작업은 logistic regression(또는 임베딩 + LR)이 LLM보다 수십~수천 배 저렴하고 더 정확한 경우가 흔하다. Buckmann & Hill (2024, arXiv:2408.03414)는 17개 sentence classification 데이터셋 중 13개에서 클래스당 60~75 샘플 수준의 PLR(penalised logistic regression) + Llama2 7B 임베딩이 GPT-4를 능가했다. 작업·모델 매칭 사고가 운영자 핵심.

3. 핵심 개념

3.1 선형 회귀와 로지스틱 회귀

Linear regression: y = w^T x + b. 손실은 MSE(평균 제곱 오차). 연속값 예측.
Logistic regression: 분류용. y = sigmoid(w^T x + b). 손실은 cross-entropy.
신경망과의 관계: 1층 신경망 + 활성화 함수가 logistic regression이다. 트랜스포머 마지막 layer(next-token logit 계산)도 본질은 logistic regression.

3.2 결정트리와 앙상블

결정트리: feature 기준으로 데이터를 분할, leaf에서 예측. 해석이 쉽고 비선형 학습 가능. 깊이가 깊으면 overfitting.
Random Forest: 여러 트리의 평균(분류는 다수결). variance 감소.
Gradient Boosting: 순차적으로 트리를 더해 직전 모델의 잔차를 학습. XGBoost / LightGBM / CatBoost가 tabular 표준.
운영 가치: 트리는 if-else 규칙으로 떨어져 SQL CASE 문으로 export 가능. 추론 비용·해석 가능성 모두 우수.
2024-2025 흐름: TabPFN-2.5·RealMLP 등 tabular foundation model이 등장해 작은 데이터셋(≤10K samples)에서는 GBM을 추월하기 시작. 다만 GBM이 여전히 가장 강한 baseline이고, 큰 데이터셋·해석 가능성·낮은 추론 비용 측면에서는 우위가 유지된다.

3.3 SVM

마진 최대화: 두 클래스를 가르는 가장 넓은 띠를 찾는다.
커널 트릭: 비선형 분리를 위해 명시적 매핑 없이 커널 함수로만 고차원 공간의 내적을 계산.
작은 데이터셋·고차원 feature에서 강함. 신경망 시대에 밀렸지만 baseline·해석 모델로 살아있음.

3.4 k-means와 군집화

k-means: k개 군집 중심을 찾고 각 점을 가장 가까운 중심에 할당. 반복 수렴.
임베딩 시대 활용: OpenAI/Cohere 임베딩을 k-means로 군집화 → 토픽 그룹화·중복 탐지·RAG chunk 분류.
한계: k를 미리 정해야 함, 구형 군집 가정.
대안: HDBSCAN(밀도 기반, k 자동), spectral clustering.

3.5 PCA와 차원 축소

PCA: 분산이 큰 방향으로 축을 회전, 가장 의미 있는 차원만 남김. SVD로 계산.
임베딩 시대 활용: 1536차원 임베딩을 시각화용 2~3차원으로 축소, vector store 비용 절감.
Matryoshka 임베딩과의 차이: PCA는 학습 후 사후 축소. Matryoshka는 학습 시점에 차원별 의미를 정렬해 앞부분만 잘라도 정보 손실이 적도록 설계 (L11-10 참고).

3.6 Overfitting과 Regularization

ML 사고의 토대 중 하나. LLM 학습에도 그대로 작동한다.

Overfitting: 학습 데이터를 외운 모델이 새 데이터에 약함. 모델이 너무 복잡하거나 학습이 너무 길 때 발생.
L1 regularization (Lasso): 가중치 절댓값 합에 페널티. 일부 가중치를 정확히 0으로 만들어 sparse 모델.
L2 regularization (Ridge): 가중치 제곱 합에 페널티. 모든 가중치를 0에 가깝게 줄이지만 정확히 0은 아님 — smooth 모델.
Elastic Net: L1 + L2 결합.

LLM에서의 등장

고전 개념	LLM 학습 등가물
L2 regularization	AdamW의 decoupled weight decay (Adam에선 단순 L2와 다르게 동작)
Dropout	학습 중 일부 뉴런·연결을 무작위로 끔
Early stopping	validation 손실 상승 시 학습 중단
Data augmentation	LLM에서 paraphrasing, back-translation으로 적용

AdamW의 weight decay는 단순 L2 regularization과 등가가 아니다. SGD에서는 L2와 weight decay가 (학습률 스케일링 후) 같지만, Adam에서는 L2 페널티가 gradient의 second moment에 의해 왜곡되어 큰 gradient를 가진 가중치가 덜 정규화된다. AdamW는 이 결합을 끊어내(decouple) 모든 가중치를 동일한 비율 λ로 감쇠시킨다 (Loshchilov & Hutter, 2019).

디버깅 시그널

학습 손실 ↓, validation 손실 ↑ → overfitting. regularization 강화 또는 학습 단축
학습/validation 둘 다 높음 → underfitting. 모델 복잡도↑ 또는 feature 추가
학습 손실이 NaN → L11-10의 log-sum-exp/gradient clipping 점검
단, LLM fine-tuning의 catastrophic forgetting(이전에 학습한 일반 능력 상실)은 early stopping만으로 막기 어렵다 — task metric과 함께 일반 능력 retention을 동시 모니터링해야 한다

Silent Failure 패턴

손실·지표는 정상으로 보이지만 모델이 실제로는 망가진 경우. ML 운영에서 가장 위험한 부류다.

Data leakage: 학습 데이터에 검증 정보가 새어 들어가 비현실적으로 좋은 점수가 나온다.
- 예: train/test split 전에 정규화 적용 → test 통계가 train에 흘러감
- 예: 시계열 데이터에서 미래 정보를 feature로 사용
- 예: target에서 파생된 feature 사용 (target leakage)
- 복구: 모든 fit/transform은 split 직후에만. 시계열은 TimeSeriesSplit. SMOTE 같은 oversampling도 split 이후에만 (split 전 적용 시 test 평가가 흐려짐)
Label imbalance silent pass: 99% negative 데이터에서 “전부 negative” 예측해도 accuracy 99%. accuracy만 보면 은폐된다.
- 복구: classification_report(precision/recall/F1), confusion_matrix, ROC-AUC, class_weight="balanced", stratified sampling
Multicollinearity: 강한 상관관계 feature가 있으면 LR·Lasso 가중치가 불안정해 해석이 망가진다.
- 진단: VIF(Variance Inflation Factor) > 5, 공분산 행렬 condition number가 매우 큼
- 복구: feature 선택, PCA, Ridge(L2가 multicollinearity에 robust). RF·GBM은 상대적으로 영향이 적다.
Train/serve skew: 학습 시 feature 분포와 운영 시 분포가 다른 경우. 학습 점수는 그대로인데 운영 성능 폭락.
- 복구: 운영 환경에서 feature 분포 모니터링(mean·std·null rate·cardinality), data drift 알림.

3.7 Bias-Variance Trade-off

모든 학습 알고리즘에 깔린 trade-off.

Bias: 모델이 단순해서 일관되게 틀리는 경향 (underfit). 정답 평면을 직선으로 근사하는 식.
Variance: 모델이 복잡해서 학습 데이터마다 결과가 크게 달라지는 경향 (overfit). noise까지 외우는 식.
모델 복잡도를 늘리면 bias 감소·variance 증가. 둘의 합 + 노이즈가 일반화 오차의 이론적 하한.

직관 그림

오차
  |
  | bias                       variance
  |\\                          /
  | \\                        /
  |  \\______________________/
  |          최적 복잡도
  +-------------------------------> 모델 복잡도

운영 적용

모델 크기 선택: 7B vs 70B vs 405B 중 무엇을 쓸지의 토대. 작업 데이터 양과 복잡도가 결정.
fine-tuning 길이: 너무 길면 variance, 너무 짧으면 bias.
LoRA rank 선택: 낮은 rank = 강한 bias, 높은 rank = variance 위험. 데이터 양이 결정.

단, double descent (Belkin et al. 2019): over-parameterized 모델(LLM처럼 파라미터 수 ≫ 데이터 수)에서는 보간점을 지나면 test error가 다시 감소하는 현상이 관측된다. 고전 bias-variance U곡선이 LLM 시대에 전부는 아니라는 뜻이며, 모델 크기를 키울수록 일반화가 더 좋아지기도 하는 LLM 시대 직관의 토대다.

3.8 Feature Engineering의 시대 변화

고전 ML 시대: 사람이 도메인 지식으로 feature를 설계했다 (예: “지난 7일 평균 거래액”, “사용자 가입 후 경과 일수”). 결과의 80%를 feature가 결정한다는 통념이 있을 정도.
딥러닝/LLM 시대: end-to-end 학습이 feature를 자동 추출. 임베딩이 feature를 대체.
현재 hybrid:
- Tabular는 여전히 feature engineering이 우선
- 텍스트·이미지는 임베딩
- 결합 작업(추천, 사용자 분석)은 두 방식을 같이 씀

3.9 새 알고리즘 분석 체크리스트

새 ML 알고리즘이나 모델 변형(LoRA, MoE, DPO 등)을 만났을 때 다음 4질문이 빠른 분석 도구가 된다 — logistic regression부터 트랜스포머·LLM 신기법까지 그대로 적용된다.

어떤 가정을 하는가?
- 데이터 분포(정규성, 독립성)
- feature 간 관계 (선형성, 단조성)
- 군집 구조 (구형 vs 비정형)
어떤 손실을 최적화하는가?
- MSE? Cross-entropy? Hinge loss? Custom (예: DPO의 preference loss)?
- 손실의 기하학(convex/non-convex, smooth/sparse)이 학습 거동을 결정한다
어떤 hyperparameter가 capacity를 조절하는가?
- 트리: max_depth, n_estimators
- LR/Ridge/Lasso: regularization alpha
- NN: 층 수, hidden size, dropout rate
- LoRA: rank
- LLM: 모델 크기, context length, temperature
어떤 실패 모드가 있는가?
- 가정 위반 (예: 비선형 데이터를 LR로)
- 데이터 부족 (overfitting)
- data leakage·imbalance·distribution shift 같은 silent failure

이 4질문 프레임은 새로운 기법을 만났을 때 읽고 잊을 키워드와 이해하고 운영할 도구를 가르는 기준이다.

4. 실무에서 어디에 쓰이나

추천 시스템 baseline (logistic regression, GBM)
A/B 테스트 통계 분석 (linear regression, t-test)
이상 탐지 (Isolation Forest, k-means)
신용 평가·리스크 모델 (해석 가능성 요구 영역)
LLM 시스템 평가 baseline
LLM 임베딩 후속 처리 (k-means 군집화, PCA 시각화)

5. 현재 내 업무와 연결점

플랫폼 엔지니어가 LLM 앱을 운영할 때 고전 ML 직관이 다음에 도움 된다.

모델·작업 매칭 사고: 모든 분류를 LLM에 맡기면 비용 폭증. tabular 결정은 GBM이 LLM보다 훨씬 저렴하고(수십~수천 배 단위) 더 정확한 경우가 흔하다.
LLM 도입 가치 측정: logistic regression baseline을 먼저 만들고 LLM이 그것보다 나은지 측정 (L12-90 eval). 구체 결정 임계값 예시: LLM F1이 LR baseline 대비 +3 pp 이상이고, 추론 단가 차이(예: LR $0.0001/call vs GPT-4 ~~$0.01/call ≈ 100배)를 트래픽 × 단가로 환산한 월 비용 증가분이 그 +3 pp가 가져오는 사업 가치보다 작아야 LLM 채택. 차이가 0~~3 pp이면 임베딩 + LR 또는 작은 LLM 우선, 음수면 LR 유지. (실패 시나리오: GPT-4가 평균 F1만 12 pp 높지만 클래스 imbalance 큰 minority class recall에서 LR이 오히려 더 안정 → 가중 평균 metric만 보고 LLM 채택하면 운영에서 minority 케이스가 폭락한다.)
LLM 비용 라우팅 (L12-70 model gateway): 작은 모델/큰 모델 분리 사고가 고전 ML의 작업 분류 사고와 동일.
Hyperparameter 직관: learning rate·regularization·dropout 모두 고전 ML에서 검증된 trade-off가 LLM에도 적용.

6. 자주 헷갈리는 개념 비교

개념 A	개념 B	차이점
Linear regression	Logistic regression	회귀(연속값) vs 분류(확률). 손실은 MSE vs cross-entropy
결정트리	Random Forest	단일 트리 vs 여러 트리 평균. RF는 variance 감소
Random Forest	Gradient Boosting	병렬 평균 vs 순차 잔차 학습. RF는 robust, GBM은 정확도 우위
L1 regularization	L2 regularization	sparse(일부 0) vs smooth(전체 축소). L1은 feature 선택 효과
Bias	Variance	일관된 오차(underfit) vs 데이터별 변동(overfit)
지도학습	비지도학습	정답 레이블 유무. 분류·회귀 vs 군집화·차원 축소
Feature engineering	Embedding	사람이 설계 vs 모델이 학습. tabular는 전자, 텍스트·이미지는 후자

알고리즘 선택 정량 가이드

데이터 크기·종류·운영 제약 기준 1차 추천 (scikit-learn algorithm cheat sheet의 sample-size cutoff를 기준선으로 사용).

조건	1차 선택	비고
< 50 samples	데이터 더 모음	모든 모델이 unstable
50~10K samples, tabular	XGBoost / LightGBM	작은 데이터엔 TabPFN-2.5도 후보 (2024+)
10K~100K samples, tabular	XGBoost / LightGBM	tabular 챔피언 영역
> 100K samples, tabular	XGBoost / LightGBM, NN	feature 수가 많고 비선형이면 NN이 GBM과 경쟁
텍스트 분류, < 100K samples	임베딩 + Logistic Regression	LLM 분류기보다 수십~수천 배 저렴 (arXiv:2408.03414)
이미지 분류	사전 학습 CNN/ViT fine-tune	scratch 학습은 거의 안 함
이상 탐지	Isolation Forest, k-means, autoencoder	label 부족 시 비지도 우선
해석 가능성 1순위 (금융·의료)	Linear/Logistic Regression, 결정트리	블랙박스 모델은 규제·신뢰 측면 어려움
추론 latency < 1ms	Linear/Logistic, 결정트리	LLM·NN은 latency 문제
추론 latency 100ms~ OK + 정확도	XGBoost / NN / LLM	정확도-비용 trade-off
feature 강한 상관관계	Ridge, RF, GBM	LR/Lasso는 multicollinearity에 약함

깨지는 조건 (1차 선택을 바꾸는 신호)

GBM이 약해지는 경우: 매우 작은 데이터(< 1K), 강한 비선형 + 많은 feature interaction (NN 우위), 또는 이미지·텍스트 raw 입력 (임베딩 필요)
LR이 약해지는 경우: 비선형 관계, multicollinearity, 고차원 sparse(L1 도움), 클래스 imbalance 큰 경우
LLM이 약해지는 경우: tabular 데이터, latency 민감(<10ms), 비용 폭증 우려, 해석 가능성 요구, 일관성 요구(determinism)

정량 근거: McElfresh et al. (2024, arXiv:2408.14817)이 111개 tabular 데이터셋 벤치마크에서 CatBoost가 단일 모델 기준 최다(19/111 ≈ 17%)로 우승, 최고 단일 deep learning 모델(AutoGluon-DL)은 11/111(≈ 10%)에 그쳤다. > 10K 행 큰 데이터셋(31개)에서는 LightGBM·CatBoost가 각각 8회 우승, AutoGluon-DL은 5회. 즉 “데이터가 커지면 DL이 GBM을 추월”이라는 통념과 달리 큰 데이터셋에서도 GBM 우위가 유지된다. 다만 GBM + DL 앙상블(AutoGluon)이 단일 GBM을 큰 폭으로 능가(39/111 ≈ 35%)했으므로, 정확도 1순위·인프라 여유가 있는 경우 단일 GBM이 아닌 stacking이 최적이다.

7. 체크리스트

선형 회귀와 로지스틱 회귀의 손실 함수 차이를 설명할 수 있다 (MSE vs cross-entropy)
Tabular 데이터에서 XGBoost가 LLM·신경망보다 자주 이기는 이유를 정확도·비용·해석 가능성으로 설명할 수 있다
L1과 L2 regularization의 효과 차이(sparse vs smooth)를 설명할 수 있다
Bias-variance trade-off가 모델 복잡도 선택에 어떻게 작용하는지 설명할 수 있다
AdamW의 weight decay가 L2 regularization과 어떻게 관련되는지, 그리고 왜 Adam에서는 단순 L2와 동작이 다른지 설명할 수 있다
LLM 시대에도 고전 ML이 살아 있는 영역 3개 이상을 들 수 있다

8. 추가 학습 키워드

회귀: Ridge, Lasso, Elastic Net, polynomial regression
트리/앙상블: XGBoost, LightGBM, CatBoost, AdaBoost, stacking
분류: SVM, kernel methods, naive Bayes, k-NN
비지도: HDBSCAN, GMM, t-SNE, UMAP
평가 지표: ROC-AUC, F1, precision-recall curve, calibration plot, log loss
검증: k-fold cross-validation, stratified sampling, time-series split

9. 내가 직접 확인해볼 것

기본 비교

sklearn으로 California Housing 데이터에 LinearRegression + RandomForestRegressor를 학습하고 R² 비교 — 예상: RF가 더 높음
같은 회귀 데이터에 Lasso(alpha=0.1)와 Ridge(alpha=0.1)를 적용해 coef_ == 0 개수를 비교 — 예상: Lasso가 0이 더 많음

Bias-Variance를 직접 관측

sklearn.model_selection.learning_curve로 train/validation 점수를 sample 수에 따라 plot. 해석:
- 둘 다 낮음(수렴) → underfit · 모델 복잡도↑ 또는 feature 추가
- train↑ + validation↓ + 큰 gap → overfit · regularization 강화 또는 데이터 추가
- train↑ + validation↑ + 작은 gap → 적정
validation_curve로 단일 hyperparameter(예: 결정트리의 max_depth 1~20)별 train/val 점수를 그린다. 그래프에서 underfit↔overfit 구간이 보이고 최적 값을 찾는다
GridSearchCV(cv=5)로 교차검증 + hyperparameter 탐색. 평균 점수와 std가 같이 나온다. std가 크면 모델이 데이터 split에 민감 → variance 큼 신호. (출처: scikit-learn docs)

Silent failure 진단

분류 모델에 classification_report 출력. 한 클래스의 recall이 0에 가까우면 imbalance 의심
confusion_matrix 시각화. 한 행이 다른 곳에 몰리면 silent failure (특정 클래스가 모두 다른 클래스로 예측됨)
feature 간 상관계수 행렬을 그려 0.9 이상 쌍이 있으면 multicollinearity 검토 → Ridge로 학습 vs Lasso로 학습 비교

임베딩과 차원 축소

OpenAI 임베딩 100개(서로 다른 토픽)를 sklearn PCA(n_components=2)로 줄여 산점도 plot. 토픽별 군집이 보이는가? 안 보이면 PCA가 부적합 (UMAP 시도)

결과가 예상과 다를 때 다음 행동

learning curve 둘 다 낮음 → 모델 복잡도↑(max_depth↑), feature 추가, polynomial features, 임베딩 도입 검토
learning curve gap 큼 → regularization↑(alpha↑), min_samples_leaf↑, dropout↑, early stopping, 데이터 추가
recall이 0에 가까운 클래스 → class_weight="balanced", SMOTE(split 이후), 추가 데이터 수집, threshold 조정
한 split에서만 점수 폭락 → data leakage 또는 distribution shift 의심. split 방식 점검(time-based, stratified)

10. 5줄 요약

고전 ML은 신경망 이전 학습 알고리즘 모음이며 회귀·트리·SVM·군집화·PCA가 핵심.
Overfitting·regularization·bias-variance는 LLM 학습에도 그대로 적용되는 사고 모델이다.
Tabular 데이터에서는 XGBoost가 LLM보다 자주 더 잘하고 더 싸다 — 작업·모델 매칭 사고가 운영자 기본기.
L1/L2 regularization은 sparse vs smooth 가중치를 만들고, AdamW의 weight decay·dropout·early stopping이 모두 같은 토대.
LLM 시대에도 고전 ML은 평가 baseline·tabular·임베딩 후속 처리에서 살아있다.

11. 출처

Geman, Bienenstock & Doursat, Neural Networks and the Bias/Variance Dilemma (Neural Computation 4(1):1-58, 1992) — bias-variance 정형화의 원전, 본문 lineage 절 근거
scikit-learn — Validation curves: plotting scores to evaluate models
scikit-learn — Choosing the right estimator (algorithm cheat sheet)
Loshchilov & Hutter, Decoupled Weight Decay Regularization (arXiv:1711.05101 / ICLR 2019)
Belkin et al., Reconciling modern ML practice and the bias-variance trade-off (PNAS 2019)
Shwartz-Ziv & Armon, Tabular Data: Deep Learning is Not All You Need (arXiv:2106.03253)
McElfresh et al., A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets (arXiv:2408.14817, 2024) — 111 데이터셋 정량 비교 근거
Hollmann et al., TabPFN: Accurate predictions on small tabular data (Nature 2024)
Buckmann & Hill, Logistic Regression makes small LLMs strong tens-of-shot classifiers (arXiv:2408.03414, 2024) — 클래스당 60-75 샘플 PLR이 GPT-4 능가, 13/17 datasets
Overview of leakage scenarios in supervised ML (Journal of Big Data 2025)
Scalability and Maintainability Challenges in ML — SLR (arXiv:2504.11079)

최종 수정: 2026-04-25