고전 ML로 읽는 현대 LLM 운영
고전 ML의 회귀, 트리, SVM, 군집화, PCA를 훑고, overfitting과 regularization, bias-variance가 LLM 운영 판단에 어떻게 이어지는지 설명한다. 특히 tabular baseline, silent failure, 비용 대비 성능 판단처럼 실제 운영에서 놓치기 쉬운 기준을 중심으로 정리한다.
Script Companion
오디오와 함께 스크립트 보기
- 01
고전 ML은 신경망 이전의 낡은 기술 목록이라기보다, 지금도 모델을 고르고 실패를 해석하는 기본 언어에 가깝다. Linear regression은 y = w^T x + b 형태로 연속값을 예측하고, 손실은 MSE, 평균 제곱 오차를 쓴다. Logistic regression은 분류를 위해 sigmoid(w^T x + b)를 사용하고 손실은 cross-entropy다. 여기서 중요한 연결점은 logistic regression이 1층 신경망에 활성화 함수를 붙인 형태라는 점이다. 트랜스포머 마지막 layer에서 next-token logit을 계산하는 부분도 본질적으로는 같은 분류 관점으로 볼 수 있다.
- 02
결정트리는 feature 기준으로 데이터를 나누고 leaf에서 예측한다. 해석이 쉽고 비선형 관계도 배울 수 있지만, 깊이가 깊어지면 overfitting이 커진다. Random Forest는 여러 트리의 평균, 분류에서는 다수결로 variance를 줄이고, Gradient Boosting은 순차적으로 트리를 더해 직전 모델의 잔차를 학습한다. XGBoost, LightGBM, CatBoost는 tabular 표준으로 자리 잡았다. 트리는 if-else 규칙으로 떨어져 SQL CASE 문으로 export할 수 있어서 추론 비용과 해석 가능성 면에서도 운영 가치가 크다. 2024-2025 흐름에서는 TabPFN-2.5와 RealMLP 같은 tabular foundation model이 작은 데이터셋, 즉 10K samples 이하에서 GBM을 추월하기 시작했지만, GBM은 여전히 강한 baseline이다.
- 03
SVM은 두 클래스를 가르는 가장 넓은 띠, 즉 마진을 찾는 모델이다. 커널 트릭은 비선형 분리를 위해 명시적인 매핑 없이 커널 함수만으로 고차원 공간의 내적을 계산한다. 그래서 SVM은 작은 데이터셋과 고차원 feature에서 강하고, 신경망 시대에도 baseline이나 해석 모델로 남아 있다. k-means는 k개 군집 중심을 찾고 각 점을 가장 가까운 중심에 할당하면서 반복 수렴한다. OpenAI와 Cohere 임베딩을 k-means로 군집화하면 토픽 그룹화, 중복 탐지, RAG chunk 분류에 쓸 수 있다. 다만 k를 미리 정해야 하고 구형 군집을 가정하므로, HDBSCAN이나 spectral clustering 같은 대안도 함께 봐야 한다.
- 04
PCA는 분산이 큰 방향으로 축을 회전하고 가장 의미 있는 차원만 남기는 차원 축소 방법이며, 계산에는 SVD가 쓰인다. 임베딩 시대에는 1536차원 임베딩을 시각화용 2~3차원으로 줄이거나 vector store 비용을 줄이는 데 연결된다. 다만 PCA와 Matryoshka 임베딩은 다르다. PCA는 학습 후 사후 축소이고, Matryoshka는 학습 시점에 차원별 의미를 정렬해 앞부분만 잘라도 정보 손실이 적도록 설계한다. 이 차이는 단순한 압축 기법인지, 처음부터 잘릴 것을 고려해 학습한 표현인지의 차이다.
- 05
Overfitting과 regularization은 ML 사고의 토대이며 LLM 학습에도 그대로 작동한다. Overfitting은 모델이 학습 데이터를 외워 새 데이터에 약해지는 상태이고, 모델이 너무 복잡하거나 학습이 너무 길 때 발생한다. L1 regularization, 즉 Lasso는 가중치 절댓값 합에 페널티를 주어 일부 가중치를 정확히 0으로 만들고 sparse 모델을 만든다. L2 regularization, 즉 Ridge는 가중치 제곱 합에 페널티를 주어 모든 가중치를 0에 가깝게 줄이지만 정확히 0으로 만들지는 않아 smooth 모델을 만든다. Elastic Net은 L1과 L2를 결합한 방식이다.
- 06
LLM 학습에서도 고전 개념의 등가물이 보인다. L2 regularization은 AdamW의 decoupled weight decay와 연결되고, Dropout은 학습 중 일부 뉴런과 연결을 무작위로 끄는 방식이며, Early stopping은 validation 손실이 상승할 때 학습을 멈추는 방식이다. 단, AdamW의 weight decay는 단순 L2 regularization과 등가가 아니다. SGD에서는 L2와 weight decay가 학습률 스케일링 후 같지만, Adam에서는 L2 페널티가 gradient의 second moment에 의해 왜곡된다. AdamW는 이 결합을 끊어 모든 가중치를 동일한 비율 λ로 감쇠시킨다. 학습 손실은 내려가는데 validation 손실이 오르면 overfitting이고, 둘 다 높으면 underfitting이다.
- 07
ML 운영에서 특히 위험한 것은 silent failure다. 손실과 지표는 정상처럼 보이지만 모델이 실제로는 망가진 경우다. Data leakage는 학습 데이터에 검증 정보가 새어 들어가 비현실적으로 좋은 점수가 나오는 문제이며, train/test split 전에 정규화를 적용하거나 시계열에서 미래 정보를 feature로 쓰는 경우가 여기에 들어간다. Label imbalance silent pass는 99% negative 데이터에서 전부 negative로 예측해도 accuracy 99%가 나오는 상황이다. Multicollinearity는 강한 상관관계 feature 때문에 LR과 Lasso 가중치 해석이 불안정해지는 문제이고, Train/serve skew는 학습 시 feature 분포와 운영 시 분포가 달라 운영 성능이 폭락하는 문제다.
- 08
Bias-Variance Trade-off는 모든 학습 알고리즘 아래에 깔린 선택 기준이다. Bias는 모델이 너무 단순해 일관되게 틀리는 underfit 경향이고, variance는 모델이 너무 복잡해 학습 데이터마다 결과가 크게 달라지는 overfit 경향이다. 모델 복잡도를 늘리면 bias는 줄지만 variance는 커진다. 이 관점은 7B, 70B, 405B 중 어떤 모델 크기를 쓸지, fine-tuning을 얼마나 오래 할지, LoRA rank를 어디에 둘지 판단하는 토대가 된다. 다만 double descent가 관측되면서, over-parameterized 모델에서는 보간점을 지나 test error가 다시 감소할 수 있다. 그래서 고전 U곡선만으로 LLM 시대를 전부 설명할 수는 없다.
- 09
Feature Engineering의 역할도 시대에 따라 달라졌다. 고전 ML 시대에는 사람이 도메인 지식으로 지난 7일 평균 거래액이나 사용자 가입 후 경과 일수 같은 feature를 설계했고, 결과의 80%를 feature가 결정한다는 통념이 있었다. 딥러닝과 LLM 시대에는 end-to-end 학습이 feature를 자동 추출하고 임베딩이 feature를 대체한다. 현재는 hybrid에 가깝다. Tabular는 여전히 feature engineering이 우선이고, 텍스트와 이미지는 임베딩을 쓰며, 추천이나 사용자 분석처럼 결합 작업은 두 방식을 같이 쓴다. 새 알고리즘을 볼 때는 어떤 가정을 하는지, 어떤 손실을 최적화하는지, 어떤 hyperparameter가 capacity를 조절하는지, 어떤 실패 모드가 있는지를 묻는 네 질문이 빠른 분석 도구가 된다.
- 10
플랫폼 엔지니어가 LLM 앱을 운영할 때 고전 ML은 비용과 정확도를 함께 보는 기준이 된다. 모든 분류를 LLM에 맡기면 비용이 폭증할 수 있고, tabular 결정은 GBM이 LLM보다 수십~수천 배 단위로 저렴하면서 더 정확한 경우가 흔하다. 그래서 logistic regression baseline을 먼저 만들고 LLM이 그것보다 나은지 측정해야 한다. 예를 들어 LLM F1이 LR baseline 대비 +3 pp 이상이고, LR 약 0.0001달러 per call과 GPT-4 약 0.01달러 per call처럼 약 100배 차이 나는 추론 단가를 월 비용으로 환산했을 때, 그 증가분보다 +3 pp가 가져오는 사업 가치가 커야 LLM 채택 근거가 생긴다. 정리하면 고전 ML은 LLM 시대에도 평가 baseline, tabular 데이터, 임베딩 후속 처리, hyperparameter 직관에서 계속 쓰인다.
같은 레이어