고전 ML 개요
분류: Layer 11 - AI 기초 & 머신러닝 | 선수지식: L11-10 (ML 수학 토대)
고전 ML 개요 — 회귀, 트리, regularization, bias-variance
섹션 제목: “고전 ML 개요 — 회귀, 트리, regularization, bias-variance”1. 한 줄 정의
섹션 제목: “1. 한 줄 정의”고전 ML은 신경망 이전 시대의 학습 알고리즘 모음으로, overfitting·regularization·bias-variance라는 ML 사고의 토대를 제공하고, LLM 시대에도 tabular·baseline·임베딩 후속 처리에서 살아있다.
2. 등장 배경과 왜 지금도 중요한가
섹션 제목: “2. 등장 배경과 왜 지금도 중요한가”신경망 1차 붐의 한계가 고전 ML 사고를 정형화했다
섹션 제목: “신경망 1차 붐의 한계가 고전 ML 사고를 정형화했다”1980년대 backpropagation 부활 직후, 복잡한 신경망이 학습 데이터를 외우면서도 학습 외부 데이터에서 무너지는 현상이 반복됐다. Geman·Bienenstock·Doursat (1992)이 이 문제를 bias/variance dilemma로 정형화하면서 — “model complexity↑ → bias↓, 그러나 variance↑가 일반화 오차를 폭증시킨다” — regularization과 capacity 제어가 단순 휴리스틱이 아니라 비모수 통계의 토대 위에 있음을 보였다 (Neural Computation 4(1):1-58).
이 정형화가 1990~2000년대 고전 ML을 낳았다. SVM의 마진, Lasso/Ridge의 명시적 페널티, Random Forest/GBM의 앙상블 분산 감소는 모두 “bias-variance trade-off의 어느 지점을 어떻게 잡을 것인가”라는 단일 질문에 대한 서로 다른 답이다. 그리고 이 사고가 LLM 시대에 그대로 흡수됐다 — AdamW의 weight decay (L2 변형), dropout (Bagging의 NN 등가), early stopping이 모두 같은 토대다 (본문 3.6·3.7에서 매핑).
이 토픽이 사라지면: LLM fine-tuning에서 “왜 train loss는 계속 떨어지는데 평가는 안 좋아지는가”, “왜 weight decay를 0.01→0.1로 올려야 하는가” 같은 결정을 정량적으로 판단할 사고 도구가 없어진다. double descent (3.7) 같은 LLM 시대 새 현상도 고전 U곡선과의 대조 위에서만 의미가 잡힌다.
LLM 시대에 고전 ML이 여전히 가치 있는 이유
섹션 제목: “LLM 시대에 고전 ML이 여전히 가치 있는 이유”- Tabular 영역: DB row·CSV 데이터(추천·금융·이상 탐지)는 XGBoost가 LLM·신경망보다 자주 이긴다. Kaggle tabular 우승의 대부분이 GBM 계열.
- ML 사고의 토대: overfitting·regularization·bias-variance는 LLM 학습에도 그대로 작동. dropout·weight decay·early stopping은 모두 고전 regularization의 변형이다.
- 평가 baseline: “이 LLM이 logistic regression보다 나은가?” — 모든 LLM 도입 결정의 출발점.
- 비용 라우팅: 단순 분류 작업은 logistic regression(또는 임베딩 + LR)이 LLM보다 수십~수천 배 저렴하고 더 정확한 경우가 흔하다. Buckmann & Hill (2024, arXiv:2408.03414)는 17개 sentence classification 데이터셋 중 13개에서 클래스당 60~75 샘플 수준의 PLR(penalised logistic regression) + Llama2 7B 임베딩이 GPT-4를 능가했다. 작업·모델 매칭 사고가 운영자 핵심.
3. 핵심 개념
섹션 제목: “3. 핵심 개념”3.1 선형 회귀와 로지스틱 회귀
섹션 제목: “3.1 선형 회귀와 로지스틱 회귀”- Linear regression:
y = w^T x + b. 손실은 MSE(평균 제곱 오차). 연속값 예측. - Logistic regression: 분류용.
y = sigmoid(w^T x + b). 손실은 cross-entropy. - 신경망과의 관계: 1층 신경망 + 활성화 함수가 logistic regression이다. 트랜스포머 마지막 layer(next-token logit 계산)도 본질은 logistic regression.
3.2 결정트리와 앙상블
섹션 제목: “3.2 결정트리와 앙상블”- 결정트리: feature 기준으로 데이터를 분할, leaf에서 예측. 해석이 쉽고 비선형 학습 가능. 깊이가 깊으면 overfitting.
- Random Forest: 여러 트리의 평균(분류는 다수결). variance 감소.
- Gradient Boosting: 순차적으로 트리를 더해 직전 모델의 잔차를 학습. XGBoost / LightGBM / CatBoost가 tabular 표준.
- 운영 가치: 트리는 if-else 규칙으로 떨어져 SQL CASE 문으로 export 가능. 추론 비용·해석 가능성 모두 우수.
- 2024-2025 흐름: TabPFN-2.5·RealMLP 등 tabular foundation model이 등장해 작은 데이터셋(≤10K samples)에서는 GBM을 추월하기 시작. 다만 GBM이 여전히 가장 강한 baseline이고, 큰 데이터셋·해석 가능성·낮은 추론 비용 측면에서는 우위가 유지된다.
3.3 SVM
섹션 제목: “3.3 SVM”- 마진 최대화: 두 클래스를 가르는 가장 넓은 띠를 찾는다.
- 커널 트릭: 비선형 분리를 위해 명시적 매핑 없이 커널 함수로만 고차원 공간의 내적을 계산.
- 작은 데이터셋·고차원 feature에서 강함. 신경망 시대에 밀렸지만 baseline·해석 모델로 살아있음.
3.4 k-means와 군집화
섹션 제목: “3.4 k-means와 군집화”- k-means: k개 군집 중심을 찾고 각 점을 가장 가까운 중심에 할당. 반복 수렴.
- 임베딩 시대 활용: OpenAI/Cohere 임베딩을 k-means로 군집화 → 토픽 그룹화·중복 탐지·RAG chunk 분류.
- 한계: k를 미리 정해야 함, 구형 군집 가정.
- 대안: HDBSCAN(밀도 기반, k 자동), spectral clustering.
3.5 PCA와 차원 축소
섹션 제목: “3.5 PCA와 차원 축소”- PCA: 분산이 큰 방향으로 축을 회전, 가장 의미 있는 차원만 남김. SVD로 계산.
- 임베딩 시대 활용: 1536차원 임베딩을 시각화용 2~3차원으로 축소, vector store 비용 절감.
- Matryoshka 임베딩과의 차이: PCA는 학습 후 사후 축소. Matryoshka는 학습 시점에 차원별 의미를 정렬해 앞부분만 잘라도 정보 손실이 적도록 설계 (L11-10 참고).
3.6 Overfitting과 Regularization
섹션 제목: “3.6 Overfitting과 Regularization”ML 사고의 토대 중 하나. LLM 학습에도 그대로 작동한다.
- Overfitting: 학습 데이터를 외운 모델이 새 데이터에 약함. 모델이 너무 복잡하거나 학습이 너무 길 때 발생.
- L1 regularization (Lasso): 가중치 절댓값 합에 페널티. 일부 가중치를 정확히 0으로 만들어 sparse 모델.
- L2 regularization (Ridge): 가중치 제곱 합에 페널티. 모든 가중치를 0에 가깝게 줄이지만 정확히 0은 아님 — smooth 모델.
- Elastic Net: L1 + L2 결합.
LLM에서의 등장
섹션 제목: “LLM에서의 등장”| 고전 개념 | LLM 학습 등가물 |
|---|---|
| L2 regularization | AdamW의 decoupled weight decay (Adam에선 단순 L2와 다르게 동작) |
| Dropout | 학습 중 일부 뉴런·연결을 무작위로 끔 |
| Early stopping | validation 손실 상승 시 학습 중단 |
| Data augmentation | LLM에서 paraphrasing, back-translation으로 적용 |
AdamW의 weight decay는 단순 L2 regularization과 등가가 아니다. SGD에서는 L2와 weight decay가 (학습률 스케일링 후) 같지만, Adam에서는 L2 페널티가 gradient의 second moment에 의해 왜곡되어 큰 gradient를 가진 가중치가 덜 정규화된다. AdamW는 이 결합을 끊어내(decouple) 모든 가중치를 동일한 비율 λ로 감쇠시킨다 (Loshchilov & Hutter, 2019).
디버깅 시그널
섹션 제목: “디버깅 시그널”- 학습 손실 ↓, validation 손실 ↑ → overfitting. regularization 강화 또는 학습 단축
- 학습/validation 둘 다 높음 → underfitting. 모델 복잡도↑ 또는 feature 추가
- 학습 손실이 NaN → L11-10의 log-sum-exp/gradient clipping 점검
- 단, LLM fine-tuning의 catastrophic forgetting(이전에 학습한 일반 능력 상실)은 early stopping만으로 막기 어렵다 — task metric과 함께 일반 능력 retention을 동시 모니터링해야 한다
Silent Failure 패턴
섹션 제목: “Silent Failure 패턴”손실·지표는 정상으로 보이지만 모델이 실제로는 망가진 경우. ML 운영에서 가장 위험한 부류다.
- Data leakage: 학습 데이터에 검증 정보가 새어 들어가 비현실적으로 좋은 점수가 나온다.
- 예: train/test split 전에 정규화 적용 → test 통계가 train에 흘러감
- 예: 시계열 데이터에서 미래 정보를 feature로 사용
- 예: target에서 파생된 feature 사용 (target leakage)
- 복구: 모든 fit/transform은 split 직후에만. 시계열은
TimeSeriesSplit. SMOTE 같은 oversampling도 split 이후에만 (split 전 적용 시 test 평가가 흐려짐)
- Label imbalance silent pass: 99% negative 데이터에서 “전부 negative” 예측해도 accuracy 99%. accuracy만 보면 은폐된다.
- 복구:
classification_report(precision/recall/F1),confusion_matrix, ROC-AUC,class_weight="balanced", stratified sampling
- 복구:
- Multicollinearity: 강한 상관관계 feature가 있으면 LR·Lasso 가중치가 불안정해 해석이 망가진다.
- 진단: VIF(Variance Inflation Factor) > 5, 공분산 행렬 condition number가 매우 큼
- 복구: feature 선택, PCA, Ridge(L2가 multicollinearity에 robust). RF·GBM은 상대적으로 영향이 적다.
- Train/serve skew: 학습 시 feature 분포와 운영 시 분포가 다른 경우. 학습 점수는 그대로인데 운영 성능 폭락.
- 복구: 운영 환경에서 feature 분포 모니터링(mean·std·null rate·cardinality), data drift 알림.
3.7 Bias-Variance Trade-off
섹션 제목: “3.7 Bias-Variance Trade-off”모든 학습 알고리즘에 깔린 trade-off.
- Bias: 모델이 단순해서 일관되게 틀리는 경향 (underfit). 정답 평면을 직선으로 근사하는 식.
- Variance: 모델이 복잡해서 학습 데이터마다 결과가 크게 달라지는 경향 (overfit). noise까지 외우는 식.
- 모델 복잡도를 늘리면 bias 감소·variance 증가. 둘의 합 + 노이즈가 일반화 오차의 이론적 하한.
직관 그림
섹션 제목: “직관 그림”오차 | | bias variance |\\ / | \\ / | \\______________________/ | 최적 복잡도 +-------------------------------> 모델 복잡도운영 적용
섹션 제목: “운영 적용”- 모델 크기 선택: 7B vs 70B vs 405B 중 무엇을 쓸지의 토대. 작업 데이터 양과 복잡도가 결정.
- fine-tuning 길이: 너무 길면 variance, 너무 짧으면 bias.
- LoRA rank 선택: 낮은 rank = 강한 bias, 높은 rank = variance 위험. 데이터 양이 결정.
단, double descent (Belkin et al. 2019): over-parameterized 모델(LLM처럼 파라미터 수 ≫ 데이터 수)에서는 보간점을 지나면 test error가 다시 감소하는 현상이 관측된다. 고전 bias-variance U곡선이 LLM 시대에 전부는 아니라는 뜻이며, 모델 크기를 키울수록 일반화가 더 좋아지기도 하는 LLM 시대 직관의 토대다.
3.8 Feature Engineering의 시대 변화
섹션 제목: “3.8 Feature Engineering의 시대 변화”- 고전 ML 시대: 사람이 도메인 지식으로 feature를 설계했다 (예: “지난 7일 평균 거래액”, “사용자 가입 후 경과 일수”). 결과의 80%를 feature가 결정한다는 통념이 있을 정도.
- 딥러닝/LLM 시대: end-to-end 학습이 feature를 자동 추출. 임베딩이 feature를 대체.
- 현재 hybrid:
- Tabular는 여전히 feature engineering이 우선
- 텍스트·이미지는 임베딩
- 결합 작업(추천, 사용자 분석)은 두 방식을 같이 씀
3.9 새 알고리즘 분석 체크리스트
섹션 제목: “3.9 새 알고리즘 분석 체크리스트”새 ML 알고리즘이나 모델 변형(LoRA, MoE, DPO 등)을 만났을 때 다음 4질문이 빠른 분석 도구가 된다 — logistic regression부터 트랜스포머·LLM 신기법까지 그대로 적용된다.
- 어떤 가정을 하는가?
- 데이터 분포(정규성, 독립성)
- feature 간 관계 (선형성, 단조성)
- 군집 구조 (구형 vs 비정형)
- 어떤 손실을 최적화하는가?
- MSE? Cross-entropy? Hinge loss? Custom (예: DPO의 preference loss)?
- 손실의 기하학(convex/non-convex, smooth/sparse)이 학습 거동을 결정한다
- 어떤 hyperparameter가 capacity를 조절하는가?
- 트리:
max_depth,n_estimators - LR/Ridge/Lasso: regularization
alpha - NN: 층 수, hidden size, dropout rate
- LoRA: rank
- LLM: 모델 크기, context length, temperature
- 트리:
- 어떤 실패 모드가 있는가?
- 가정 위반 (예: 비선형 데이터를 LR로)
- 데이터 부족 (overfitting)
- data leakage·imbalance·distribution shift 같은 silent failure
이 4질문 프레임은 새로운 기법을 만났을 때 읽고 잊을 키워드와 이해하고 운영할 도구를 가르는 기준이다.
4. 실무에서 어디에 쓰이나
섹션 제목: “4. 실무에서 어디에 쓰이나”- 추천 시스템 baseline (logistic regression, GBM)
- A/B 테스트 통계 분석 (linear regression, t-test)
- 이상 탐지 (Isolation Forest, k-means)
- 신용 평가·리스크 모델 (해석 가능성 요구 영역)
- LLM 시스템 평가 baseline
- LLM 임베딩 후속 처리 (k-means 군집화, PCA 시각화)
5. 현재 내 업무와 연결점
섹션 제목: “5. 현재 내 업무와 연결점”플랫폼 엔지니어가 LLM 앱을 운영할 때 고전 ML 직관이 다음에 도움 된다.
- 모델·작업 매칭 사고: 모든 분류를 LLM에 맡기면 비용 폭증. tabular 결정은 GBM이 LLM보다 훨씬 저렴하고(수십~수천 배 단위) 더 정확한 경우가 흔하다.
- LLM 도입 가치 측정: logistic regression baseline을 먼저 만들고 LLM이 그것보다 나은지 측정 (L12-90 eval). 구체 결정 임계값 예시: LLM F1이 LR baseline 대비 +3 pp 이상이고, 추론 단가 차이(예: LR
$0.0001/call vs GPT-42 pp 높지만 클래스 imbalance 큰 minority class recall에서 LR이 오히려 더 안정 → 가중 평균 metric만 보고 LLM 채택하면 운영에서 minority 케이스가 폭락한다.)$0.01/call ≈ 100배)를 트래픽 × 단가로 환산한 월 비용 증가분이 그 +3 pp가 가져오는 사업 가치보다 작아야 LLM 채택. 차이가 03 pp이면 임베딩 + LR 또는 작은 LLM 우선, 음수면 LR 유지. (실패 시나리오: GPT-4가 평균 F1만 1 - LLM 비용 라우팅 (L12-70 model gateway): 작은 모델/큰 모델 분리 사고가 고전 ML의 작업 분류 사고와 동일.
- Hyperparameter 직관: learning rate·regularization·dropout 모두 고전 ML에서 검증된 trade-off가 LLM에도 적용.
6. 자주 헷갈리는 개념 비교
섹션 제목: “6. 자주 헷갈리는 개념 비교”| 개념 A | 개념 B | 차이점 |
|---|---|---|
| Linear regression | Logistic regression | 회귀(연속값) vs 분류(확률). 손실은 MSE vs cross-entropy |
| 결정트리 | Random Forest | 단일 트리 vs 여러 트리 평균. RF는 variance 감소 |
| Random Forest | Gradient Boosting | 병렬 평균 vs 순차 잔차 학습. RF는 robust, GBM은 정확도 우위 |
| L1 regularization | L2 regularization | sparse(일부 0) vs smooth(전체 축소). L1은 feature 선택 효과 |
| Bias | Variance | 일관된 오차(underfit) vs 데이터별 변동(overfit) |
| 지도학습 | 비지도학습 | 정답 레이블 유무. 분류·회귀 vs 군집화·차원 축소 |
| Feature engineering | Embedding | 사람이 설계 vs 모델이 학습. tabular는 전자, 텍스트·이미지는 후자 |
알고리즘 선택 정량 가이드
섹션 제목: “알고리즘 선택 정량 가이드”데이터 크기·종류·운영 제약 기준 1차 추천 (scikit-learn algorithm cheat sheet의 sample-size cutoff를 기준선으로 사용).
| 조건 | 1차 선택 | 비고 |
|---|---|---|
| < 50 samples | 데이터 더 모음 | 모든 모델이 unstable |
| 50~10K samples, tabular | XGBoost / LightGBM | 작은 데이터엔 TabPFN-2.5도 후보 (2024+) |
| 10K~100K samples, tabular | XGBoost / LightGBM | tabular 챔피언 영역 |
| > 100K samples, tabular | XGBoost / LightGBM, NN | feature 수가 많고 비선형이면 NN이 GBM과 경쟁 |
| 텍스트 분류, < 100K samples | 임베딩 + Logistic Regression | LLM 분류기보다 수십~수천 배 저렴 (arXiv:2408.03414) |
| 이미지 분류 | 사전 학습 CNN/ViT fine-tune | scratch 학습은 거의 안 함 |
| 이상 탐지 | Isolation Forest, k-means, autoencoder | label 부족 시 비지도 우선 |
| 해석 가능성 1순위 (금융·의료) | Linear/Logistic Regression, 결정트리 | 블랙박스 모델은 규제·신뢰 측면 어려움 |
| 추론 latency < 1ms | Linear/Logistic, 결정트리 | LLM·NN은 latency 문제 |
| 추론 latency 100ms~ OK + 정확도 | XGBoost / NN / LLM | 정확도-비용 trade-off |
| feature 강한 상관관계 | Ridge, RF, GBM | LR/Lasso는 multicollinearity에 약함 |
깨지는 조건 (1차 선택을 바꾸는 신호)
섹션 제목: “깨지는 조건 (1차 선택을 바꾸는 신호)”- GBM이 약해지는 경우: 매우 작은 데이터(< 1K), 강한 비선형 + 많은 feature interaction (NN 우위), 또는 이미지·텍스트 raw 입력 (임베딩 필요)
- LR이 약해지는 경우: 비선형 관계, multicollinearity, 고차원 sparse(L1 도움), 클래스 imbalance 큰 경우
- LLM이 약해지는 경우: tabular 데이터, latency 민감(<10ms), 비용 폭증 우려, 해석 가능성 요구, 일관성 요구(determinism)
정량 근거: McElfresh et al. (2024, arXiv:2408.14817)이 111개 tabular 데이터셋 벤치마크에서 CatBoost가 단일 모델 기준 최다(19/111 ≈ 17%)로 우승, 최고 단일 deep learning 모델(AutoGluon-DL)은 11/111(≈ 10%)에 그쳤다. > 10K 행 큰 데이터셋(31개)에서는 LightGBM·CatBoost가 각각 8회 우승, AutoGluon-DL은 5회. 즉 “데이터가 커지면 DL이 GBM을 추월”이라는 통념과 달리 큰 데이터셋에서도 GBM 우위가 유지된다. 다만 GBM + DL 앙상블(AutoGluon)이 단일 GBM을 큰 폭으로 능가(39/111 ≈ 35%)했으므로, 정확도 1순위·인프라 여유가 있는 경우 단일 GBM이 아닌 stacking이 최적이다.
7. 체크리스트
섹션 제목: “7. 체크리스트”- 선형 회귀와 로지스틱 회귀의 손실 함수 차이를 설명할 수 있다 (MSE vs cross-entropy)
- Tabular 데이터에서 XGBoost가 LLM·신경망보다 자주 이기는 이유를 정확도·비용·해석 가능성으로 설명할 수 있다
- L1과 L2 regularization의 효과 차이(sparse vs smooth)를 설명할 수 있다
- Bias-variance trade-off가 모델 복잡도 선택에 어떻게 작용하는지 설명할 수 있다
- AdamW의 weight decay가 L2 regularization과 어떻게 관련되는지, 그리고 왜 Adam에서는 단순 L2와 동작이 다른지 설명할 수 있다
- LLM 시대에도 고전 ML이 살아 있는 영역 3개 이상을 들 수 있다
8. 추가 학습 키워드
섹션 제목: “8. 추가 학습 키워드”- 회귀: Ridge, Lasso, Elastic Net, polynomial regression
- 트리/앙상블: XGBoost, LightGBM, CatBoost, AdaBoost, stacking
- 분류: SVM, kernel methods, naive Bayes, k-NN
- 비지도: HDBSCAN, GMM, t-SNE, UMAP
- 평가 지표: ROC-AUC, F1, precision-recall curve, calibration plot, log loss
- 검증: k-fold cross-validation, stratified sampling, time-series split
9. 내가 직접 확인해볼 것
섹션 제목: “9. 내가 직접 확인해볼 것”기본 비교
섹션 제목: “기본 비교”- sklearn으로 California Housing 데이터에
LinearRegression+RandomForestRegressor를 학습하고 R² 비교 — 예상: RF가 더 높음 - 같은 회귀 데이터에
Lasso(alpha=0.1)와Ridge(alpha=0.1)를 적용해coef_ == 0개수를 비교 — 예상: Lasso가 0이 더 많음
Bias-Variance를 직접 관측
섹션 제목: “Bias-Variance를 직접 관측”-
sklearn.model_selection.learning_curve로 train/validation 점수를 sample 수에 따라 plot. 해석:- 둘 다 낮음(수렴) → underfit · 모델 복잡도↑ 또는 feature 추가
- train↑ + validation↓ + 큰 gap → overfit · regularization 강화 또는 데이터 추가
- train↑ + validation↑ + 작은 gap → 적정
-
validation_curve로 단일 hyperparameter(예: 결정트리의max_depth1~20)별 train/val 점수를 그린다. 그래프에서 underfit↔overfit 구간이 보이고 최적 값을 찾는다 -
GridSearchCV(cv=5)로 교차검증 + hyperparameter 탐색. 평균 점수와 std가 같이 나온다. std가 크면 모델이 데이터 split에 민감 → variance 큼 신호. (출처: scikit-learn docs)
Silent failure 진단
섹션 제목: “Silent failure 진단”- 분류 모델에
classification_report출력. 한 클래스의 recall이 0에 가까우면 imbalance 의심 -
confusion_matrix시각화. 한 행이 다른 곳에 몰리면 silent failure (특정 클래스가 모두 다른 클래스로 예측됨) - feature 간 상관계수 행렬을 그려 0.9 이상 쌍이 있으면 multicollinearity 검토 → Ridge로 학습 vs Lasso로 학습 비교
임베딩과 차원 축소
섹션 제목: “임베딩과 차원 축소”- OpenAI 임베딩 100개(서로 다른 토픽)를 sklearn
PCA(n_components=2)로 줄여 산점도 plot. 토픽별 군집이 보이는가? 안 보이면 PCA가 부적합 (UMAP 시도)
결과가 예상과 다를 때 다음 행동
섹션 제목: “결과가 예상과 다를 때 다음 행동”- learning curve 둘 다 낮음 → 모델 복잡도↑(
max_depth↑), feature 추가, polynomial features, 임베딩 도입 검토 - learning curve gap 큼 → regularization↑(
alpha↑),min_samples_leaf↑,dropout↑, early stopping, 데이터 추가 - recall이 0에 가까운 클래스 →
class_weight="balanced", SMOTE(split 이후), 추가 데이터 수집, threshold 조정 - 한 split에서만 점수 폭락 → data leakage 또는 distribution shift 의심. split 방식 점검(time-based, stratified)
10. 5줄 요약
섹션 제목: “10. 5줄 요약”- 고전 ML은 신경망 이전 학습 알고리즘 모음이며 회귀·트리·SVM·군집화·PCA가 핵심.
- Overfitting·regularization·bias-variance는 LLM 학습에도 그대로 적용되는 사고 모델이다.
- Tabular 데이터에서는 XGBoost가 LLM보다 자주 더 잘하고 더 싸다 — 작업·모델 매칭 사고가 운영자 기본기.
- L1/L2 regularization은 sparse vs smooth 가중치를 만들고, AdamW의 weight decay·dropout·early stopping이 모두 같은 토대.
- LLM 시대에도 고전 ML은 평가 baseline·tabular·임베딩 후속 처리에서 살아있다.
11. 출처
섹션 제목: “11. 출처”- Geman, Bienenstock & Doursat, Neural Networks and the Bias/Variance Dilemma (Neural Computation 4(1):1-58, 1992) — bias-variance 정형화의 원전, 본문 lineage 절 근거
- scikit-learn — Validation curves: plotting scores to evaluate models
- scikit-learn — Choosing the right estimator (algorithm cheat sheet)
- Loshchilov & Hutter, Decoupled Weight Decay Regularization (arXiv:1711.05101 / ICLR 2019)
- Belkin et al., Reconciling modern ML practice and the bias-variance trade-off (PNAS 2019)
- Shwartz-Ziv & Armon, Tabular Data: Deep Learning is Not All You Need (arXiv:2106.03253)
- McElfresh et al., A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets (arXiv:2408.14817, 2024) — 111 데이터셋 정량 비교 근거
- Hollmann et al., TabPFN: Accurate predictions on small tabular data (Nature 2024)
- Buckmann & Hill, Logistic Regression makes small LLMs strong tens-of-shot classifiers (arXiv:2408.03414, 2024) — 클래스당 60-75 샘플 PLR이 GPT-4 능가, 13/17 datasets
- Overview of leakage scenarios in supervised ML (Journal of Big Data 2025)
- Scalability and Maintainability Challenges in ML — SLR (arXiv:2504.11079)
최종 수정: 2026-04-25