ML 패러다임 기초

분류: Layer 11 - AI 기초 & 머신러닝 | 선수지식: L11-10 (ML 수학 토대), L11-20 (고전 ML 개요)

ML 패러다임 기초 — 학습 신호와 모델 갱신

1. 한 줄 정의

ML 패러다임은 데이터에서 학습 신호를 어떻게 뽑는가(지도/비지도/강화/자기지도)와 모델을 어떻게 갱신하는가(손실 함수와 옵티마이저)의 두 축으로 나뉘며, 학습/추론/파인튜닝의 단계 구분이 비용·성능을 결정한다.

2. 왜 중요한가

모델 선택의 첫 질문: “이 문제는 정답이 있는가? 보상이 있는가?”가 모델·데이터 설계의 출발점
LLM의 작동 모델 이해: pretraining(자기지도) + SFT(지도) + RLHF/DPO(강화/선호)의 조합이라는 것이 운영자에게 비용 투명성을 준다
운영 비용 모델링: pretraining(고정 큰 비용) vs fine-tuning(중간 일회성) vs inference(매 호출)의 단가가 자릿수가 다르다
학습 안정성: 옵티마이저·learning rate schedule·gradient clipping 선택이 학습 성공률에 직결된다

3. 핵심 개념

3.0 학습 신호 다양화의 lineage — 선행 한계 → 등장 메커니즘

ML 패러다임은 “정답 레이블 supervised” 하나에서 출발해 한계가 드러날 때마다 새 학습 신호가 추가된 역사다. 각 단계가 직전 단계의 어떤 한계를 푸는지 본문 § 어디에 매핑되는지 함께 따라간다.

고전 supervised의 레이블 비용 한계 → 자기지도 등장 (§3.4)
ImageNet 원 계획은 ~50K synset × 1K 이미지 ≈ 50M 라벨이었으나 Amazon Mechanical Turk 크라우드소싱 비용·QC 한계로 ~14M 수준에서 멈췄다 (분당 작업자 1명이 50장 검증, 2012년 ImageNet은 MTurk 최대 학계 사용자). 인터넷 텍스트 ~수조 토큰 스케일에서는 이 모델이 자릿수로 불가능 → next-token / masked LM처럼 레이블을 데이터 자체에서 자동 추출하는 자기지도가 LLM pretraining의 전제가 됐다. (출처: ImageNet Wikipedia, IBM SSL)
Pretraining + SFT의 정렬 한계 → RLHF 등장 (§3.3)
자기지도 pretraining + 지도 SFT만으로는 “유해 응답 거절·사람 선호 톤·다단계 일관성” 같은 정답 1개로 정의 안 되는 목표를 다루지 못한다. InstructGPT(2022)가 (prompt, chosen, rejected) 선호 쌍으로 보상 모델을 학습하고 PPO로 정책을 갱신하는 RLHF 파이프라인을 표준화했다.
RLHF의 reward hacking·파이프라인 무게 → DPO 등장 (§3.3, §3.6)
RLHF는 보상 모델 + PPO + KL constraint(β) 3-스택이고, β를 줄이면 reward hacking, 늘리면 학습 정체라는 trade-off가 본질이다. 게다가 KL 페널티 자체가 reward hacking을 완전히 막지 못한다 — Gao et al. 2022는 KL 페널티가 proxy-gold reward 격차를 오히려 늘릴 수 있어 실험에서 β=0을 쓴다고 보고했고, NeurIPS 2024 “Catastrophic Goodhart” 논문은 heavy-tailed proxy 오차에서 KL이 vanish하면서도 proxy reward는 발산하는 정책이 존재함을 형식적으로 증명했다. DPO(2023)는 RL 단계 없이 closed-form preference loss로 같은 정렬 효과를 내 운영 단순성으로 대안이 됐다.
DPO의 paired 데이터·verbosity 한계 → KTO·ORPO·GRPO·RLVR (§3.3)
DPO는 paired preference 데이터가 필수고 verbosity 증가·OOD exploit이 본질적 약점이다. KTO는 binary feedback만으로 학습 가능하게, ORPO는 SFT+preference를 단일 단계로 합치며, GRPO는 보상 모델 없이 그룹 내 상대 advantage만 사용해(DeepSeek-R1 reasoning 후학습 표준) 데이터·인프라 비용을 더 줄이는 방향으로 진화 중이다.

이 lineage가 본문에 어떻게 박혀 있는가: §3.4(자기지도) → §3.3(RLHF·DPO·GRPO) → §3.5(비용 자릿수) → §3.12(silent failure 표)는 모두 “어느 한계가 어떤 메커니즘으로 풀렸나”의 사례다. 이 토픽이 사라지면 새 post-training 기법(예: RLVR, SimPO, IPO)을 만났을 때 “어디 한계를 푸는 것인가”라는 분석 도구가 사라지고, 단순히 “최신이라 좋은 것”으로만 도입 결정을 내리게 된다.

3.1 지도학습 (Supervised Learning)

정답 레이블이 있는 (input, target) 쌍으로 학습
분류(target: discrete)와 회귀(target: continuous) 모두 포함
예: 이메일 스팸 분류, 집값 예측, 의도 분류
LLM에서: instruction tuning(SFT, Supervised Fine-Tuning)이 지도학습. (질문, 답변) 또는 (지시, 응답) 쌍을 만들어 학습

3.2 비지도학습 (Unsupervised Learning)

정답 없이 데이터의 구조(군집, 분포, 차원)를 발견
k-means(군집), PCA(차원 축소), Isolation Forest(이상 탐지)
LLM에서: 거의 사용 안 함. 다만 임베딩 후 군집화·검색은 비지도 사후 처리

3.3 강화학습 (Reinforcement Learning)

환경과 상호작용하며 보상을 최대화하는 정책을 학습
보상이 sparse(즉시 안 옴), 탐험-활용 trade-off
대표 알고리즘: Q-learning, REINFORCE, PPO (Proximal Policy Optimization)
LLM에서: RLHF(Reinforcement Learning from Human Feedback) — 보상 모델이 사람 선호를 학습하고, PPO로 LLM을 그 보상에 맞게 fine-tune. DPO(Direct Preference Optimization)는 RL 단계 없이 closed-form preference loss로 같은 효과를 내 비용·구현 단순성으로 많이 채택됐다. 단 코드·수학 벤치에서는 PPO가 여전히 우위라는 보고도 있다 (arXiv:2404.10719).
KL constraint와 β 파라미터: RLHF·DPO 모두 reference model과의 KL divergence 제약이 핵심. β가 작으면 reward hacking·OOD exploit(예: §3.12의 평균 응답 길이↓ 50%+, 거절 비율↑), 크면 reference에서 거의 움직이지 않아 alignment 지표 개선이 미미해진다. 운영자가 가장 자주 튜닝하는 knob이지만, KL 페널티 자체는 reward hacking의 완전 해결책이 아니다: Gao et al. (2022) 실험에서 KL 페널티가 proxy-gold reward 격차를 오히려 증가시켜 β=0을 사용했고, NeurIPS 2024 “Catastrophic Goodhart” 논문은 heavy-tailed proxy 오차에서 KL이 0으로 수렴하면서도 proxy reward가 발산하는 정책이 형식적으로 존재함을 증명했다. 즉 β 튜닝은 silent failure를 늦출 뿐 막지 못하므로, §3.12의 gold dataset 정량 모니터링이 병행돼야 한다.
DPO 한계: verbosity 증가 경향, OOD 응답 exploit, preference dataset 분포 shift에 민감
신기법 (2024-2025): KTO(paired 데이터 불필요, binary feedback만), ORPO(SFT + preference 단일 단계 통합), GRPO(reward model 없이 그룹 상대 advantage — DeepSeek-R1 reasoning 후학습 표준). reasoning 모델은 RLVR(Reinforcement Learning with Verifiable Rewards) 패러다임으로 이동 중

3.4 자기지도학습 (Self-Supervised Learning)

지도학습의 일종이지만 레이블을 데이터 자체에서 자동 추출한다. LLM 시대의 핵심.

Next-token prediction (autoregressive): 다음 단어를 맞히도록 학습. GPT 계열의 본질
Masked language modeling (autoencoding): 일부 토큰을 가리고 맞히기. BERT 계열
Contrastive learning: 같은 의미의 두 문장은 가깝게, 다른 의미는 멀게 (SimCLR, SimCSE) — 임베딩 모델 학습
가치: 비싼 사람 레이블 없이 인터넷 텍스트만으로 학습 가능 → LLM 스케일의 토대

3.5 학습 / 추론 / 파인튜닝의 비용 모델

운영자가 비용을 분리해서 사고하는 핵심.

단계	한 번 비용	빈도	데이터
Pretraining	수백만~~수억 달러 (Llama 3 405B 추정 ≈ $60~~80M, GPT-4급 $100M+)	모델 1개 출시당	수조 토큰
Fine-tuning (SFT)	수백~수만 달러	작업/도메인당	1K~100K 샘플
LoRA / QLoRA	수십~수천 달러 (모델 크기·데이터에 비례)	작업당	100~10K 샘플
In-context learning	$0 (추론만)	매 호출	0~수십 샘플 (prompt)
Inference	토큰당 $0.0001~$0.06	매 호출	입력

결정 프레임 (fine-tune vs RAG vs prompt) — IBM/Google Cloud 가이드 기준 2단계 분류:

먼저 목적으로 1차 분류:

새 지식·자주 변하는 정보 → RAG (외부 검색 + 컨텍스트 주입, L12-30)
행동·톤·포맷·스타일 변경 → fine-tune (가중치 갱신)
여러 단계 결합·도구 호출 → prompt + agent (오케스트레이션, L12-60)

그 다음 데이터 양·변동성으로 fine-tune 방식을 결정:

데이터 양 < 1K, 변동 잦음 → 결국 prompt + RAG로 회피
데이터 양 1K~100K, 안정 → LoRA fine-tune
데이터 양 > 100K, 도메인 큼 → full SFT
지속 업데이트 필요 → RAG 우선 (재학습 비용 회피)

3.6 손실 함수

모델의 “얼마나 틀렸는지” 기준. 작업이 정해지면 자동으로 결정되는 경우가 대부분.

작업	표준 손실
이진 분류	Binary cross-entropy
다중 분류 / LLM	Cross-entropy (softmax)
회귀	MSE, MAE, Huber (이상치 robust)
순위 / 검색	Triplet loss, contrastive loss
임베딩 학습	InfoNCE (대조 학습)
RLHF (보상 모델)	Pairwise preference loss (Bradley-Terry)
LLM 선호 정렬 (DPO)	Direct preference loss (RL 없이 closed-form)

3.7 옵티마이저

가중치를 어떻게 갱신하는가. NN/LLM 시대 표준은 AdamW.

SGD: 가장 단순. 학습률 1개. 작은 모델·convex 문제 한정으로 일반화가 좋을 수 있으나 LLM에서는 일관되게 AdamW에 열등 (Kempner Institute 2025 벤치)
SGD + Momentum: gradient의 지수 평균을 함께 사용. 진동 감소
Adam: Momentum + 적응적 학습률(parameter별 다른 학습률). 일반적으로 더 빠르게 수렴
AdamW: Adam + decoupled weight decay (L11-20 §3.6 참고). 트랜스포머·LLM 표준
Lion (2023): 1차 momentum만 저장(2차 모멘트 없음)해 옵티마이저 state 메모리 약 33% 절감, AdamW와 경쟁력 있음 (도메인별 결과 차이 있음)
Sophia / Shampoo: 2차 정보 활용. pretraining 안정성 일부 개선

Learning rate schedule

학습률을 학습 도중 어떻게 바꿀지. LLM 학습 성공의 절반.

Constant: 고정. 작은 작업 OK
Cosine decay: peak에서 시작, cosine 함수로 감소. GPT-3 시대부터 LLM 표준
WSD (Warmup-Stable-Decay): warmup → 안정 구간 → decay. Llama 3 등 최근 큰 모델 채택
Linear decay: 직선 감소
Warmup + cosine/linear: 처음 N step(보통 전체의 1~10%) 동안 learning rate 상승 후 decay. 큰 batch size·LLM에서 안정성 핵심

3.8 Batch와 Gradient

Batch size: 한 번에 학습하는 sample 수. 큼 → 안정적 gradient·빠른 throughput, 메모리 비싸짐
Gradient accumulation: micro-batch를 N번 forward/backward 후 한 번 update — 메모리 부족 시 큰 effective batch 시뮬레이션
Gradient clipping: gradient norm > 임계치(보통 1.0)면 비례 축소. exploding gradient 방지. LLM 학습 거의 필수
Mixed precision (fp16/bf16): 메모리 절반·속도 ↑. fp16은 overflow 위험 → loss scaling, bf16(brain float 16)이 더 안전한 대안

3.9 Distribution Shift와 OOD

학습/운영 분포가 다르면 성능 폭락. 운영자가 가장 자주 만나는 silent failure 부류.

Covariate shift: 입력 X 분포만 변화 (feature drift). 예: 사용자 layer 변화
Label shift: 출력 Y 분포만 변화. 예: 스팸 비율 급변
Concept drift: P(Y|X) 자체 변화. 예: 같은 입력에 대한 정답이 시간에 따라 바뀜
Out-of-Distribution (OOD): 학습에서 본 적 없는 분포의 입력
대응:
- 입력 분포 모니터링(L6 sre-practices와 연결)
- 모델 confidence·entropy 기반 거부 (LLM에서 “모르겠다” 응답)
- continuous learning, periodic re-training
- domain adaptation (test-time training, DANN)

3.10 학습 안정성 디버깅 시그널

손실 NaN/Inf: gradient explosion → clipping 임계치↓, learning rate↓, warmup 길이↑
손실이 안 떨어짐: learning rate가 너무 작거나 큼. validation curve로 sweep
loss spike (LLM pretraining): 큰 batch에서 발생. checkpoint 자주 저장 → 발생 시 직전 체크포인트로 rollback이 PaLM·OPT-175B·GLM-130B 등 초기 대규모 학습에서 사용된 안정화 기법. (Llama 3 405B 자체는 학습이 매우 안정적이라 rollback이 거의 불필요했다고 보고 — 출처: Meta Llama 3 tech report)
train↑ val↑ 그러나 새 데이터에서 폭락: distribution shift. 학습 데이터와 운영 분포 비교

3.11 새 ML 패러다임 분석 4질문 체크리스트

새 학습 기법(SimCLR·DPO·GRPO·DPO 후속)을 만났을 때 다음 4질문이 빠른 분석 도구.

학습 신호의 출처는? (정답 레이블·preference·verifiable reward·자기지도)
어떤 데이터·비용이 필요한가? (paired·binary·trajectory; $K~$M)
어떤 손실·갱신 방법인가? (cross-entropy·preference loss·RL with critic·closed-form)
어떤 silent failure가 있는가? (reward hacking·verbosity·catastrophic forgetting·OOD exploit)

이 4질문은 SFT부터 RLHF·DPO·GRPO·RLVR까지 모든 post-training에 동일 적용된다.

3.12 Alignment Silent Failure 탐지 시그널

운영자가 fine-tune·post-training 후 자주 만나는 silent degradation.

증상	정량 시그널	원인	복구 절차
Reward hacking	평균 응답 길이↓ 50%+, 거절 비율 ↑	β 너무 작음	β↑(0.1→0.3), reward 다양화
Verbosity inflation	평균 응답 길이↑ 30%+	DPO 본질	length-controlled (AlpacaEval LC), simPO
Sycophancy	user 의견 반복 비율 ↑	RLHF 일반 함정	adversarial preference, principled CoT
Mode collapse	답변 다양성 (entropy) 폭락	over-optimization	temperature↑, top-p, KL↑
Catastrophic forget	MMLU·HumanEval·다국어 점수 폭락	replay 부족	replay 비율 30%+, LoRA 사용 (base 보존)
OOD exploit	training distribution 외 응답 망가짐	preference 분포 협소	OOD 샘플 추가, KTO/IPO 검토

각 시그널은 gold dataset (L11-80) + LLM-as-judge로 자동 모니터링.

4. 실무에서 어디에 쓰이나

챗봇 응답 품질 개선: SFT (질문-답 쌍 수집) → DPO (선호 데이터로 정렬)
검색·추천 임베딩: contrastive learning (자기지도)
이상 탐지: Isolation Forest(비지도) + 일부 supervised
LLM 라우팅: 작은 모델로 분류기 학습 → 큰 LLM 호출 여부 결정 (지도학습)
사용자 의도 분류: 도메인 데이터 부족하면 임베딩 + LR(L11-20), 충분하면 fine-tune

운영 시나리오 — 한국어 도메인 fine-tune 결정 (예시)

상황: 사내 법률 챗봇, 도메인 데이터 8K 한국어 Q&A
선택지:
  A. RAG 단독: 기존 법령 문서 검색 → GPT-4o
     - 비용: $0.005/호출, 갱신 즉시
     - 문제: 법령 표현 정확도 약함 (한국어 dense 약함)
  B. LoRA fine-tune (Llama-3-8B + r=16):
     - 비용: 학습 ~$50, 추론 self-host
     - 효과: 도메인 표현 정확도 +20%
  C. RAG + LoRA hybrid:
     - 비용: A + B 합산
     - 효과: 갱신성 + 정확도 둘 다

선택: C (hybrid). RAG로 최신 법령, LoRA로 표현·톤 학습.
대안 비선택: A 단독은 표현 약함, B 단독은 갱신 어려움.
결과: gold dataset 정확도 65% → 88%.

이 결정 프레임이 §3.1~§3.10의 모든 패러다임 직관 위에 깔린다.

5. 현재 내 업무와 연결점

플랫폼 엔지니어가 LLM 운영할 때 패러다임 사고가 다음에 도움 된다.

비용 분해: pretraining(0, OpenAI/Anthropic가 부담) + fine-tuning(필요시 일회성) + inference(매호출). 비용 라우팅 사고(L12-70)의 토대
fine-tune vs RAG vs prompt 결정: 데이터 양·변동성·비용으로 판단 (§3.5 표). 의사결정 표준화
운영 모니터링: distribution shift 3종은 LLM 운영의 핵심 SRE 시그널 (L6 sre-practices). feature drift 알림이 모델 retraining 트리거
학습 hyperparameter 직관: 외주 fine-tuning 결과를 받았을 때 “learning rate가 적절했는가, warmup은?” 같은 질문을 할 수 있다

6. 자주 헷갈리는 개념 비교

개념 A	개념 B	차이점
지도학습	비지도학습	정답 레이블 유무
비지도학습	자기지도학습	자기지도는 데이터에서 레이블을 자동 추출 (실은 supervised의 한 형태)
Pretraining	Fine-tuning	처음부터 vs 적응. 비용 자릿수가 다름
Fine-tuning	In-context learning	가중치 변경 vs prompt만 변경 (LLM 활성화)
RLHF (PPO)	DPO	RL 단계 (보상 모델 + PPO) vs 직접 preference loss (closed-form). 코드·수학에서는 PPO 여전히 우위
SFT	RLHF/DPO	정답 모방 vs 선호 정렬. SFT 후 RLHF/DPO가 표준 순서
SGD	Adam	학습률 스칼라 vs parameter별 적응적
Adam	AdamW	weight decay가 L2 결합 vs decoupled (L11-20 §3.6 참고)
Constant LR	Cosine LR	고정 vs 감소. LLM은 cosine + warmup 표준
Cross-entropy	MSE	분류 (확률 분포 거리) vs 회귀 (제곱 거리)
Covariate shift	Concept drift	P(X)만 변화 vs P(Y\|X) 자체 변화

7. 체크리스트

지도/비지도/강화/자기지도학습의 차이를 학습 신호 출처 관점에서 설명할 수 있다
자기지도학습이 LLM pretraining의 본질이고 인간 레이블 없이 스케일을 가능하게 한 이유를 설명할 수 있다
pretraining/fine-tuning/inference 비용을 자릿수 단위로 비교할 수 있다 ($M / $K / $0.001 per call 등)
RLHF와 DPO의 차이를 RL 단계 유무 관점에서 설명할 수 있다
AdamW가 NN/LLM의 default인 이유와, SGD가 더 나은 경우(작은 convex 문제)를 말할 수 있다
Distribution shift 3종(covariate/label/concept)의 차이와 운영 모니터링 항목을 설명할 수 있다
fine-tune vs RAG vs prompt 결정 프레임을 데이터 양·변동성·비용으로 적용할 수 있다

8. 추가 학습 키워드

학습 패러다임: meta-learning, few-shot learning, federated learning, online learning, active learning
LLM 사후학습: SFT, RLHF, PPO, DPO, KTO, IPO, ORPO
옵티마이저: Lion, Sophia, Shampoo, RMSprop, AdaGrad
손실: focal loss, triplet, NCE, InfoNCE, ranking loss
LR schedule: warmup, cosine, linear decay, cyclical, one-cycle
분포 변화: domain adaptation, test-time adaptation, DANN, calibration

9. 내가 직접 확인해볼 것

옵티마이저 비교

sklearn으로 같은 데이터셋(예: digits)에 SGDClassifier와 MLPClassifier(adam) 학습 곡선 비교 — adam이 더 빨리 수렴하는지 확인
PyTorch로 torch.optim.AdamW의 weight_decay를 0과 0.01로 두 번 학습해 가중치 norm 차이를 출력 — for p in model.parameters(): print(p.norm()). weight_decay가 클수록 norm이 작아야 함

학습 신호 패러다임

HuggingFace datasets에서 sentiment 데이터셋으로 BERT를 fine-tune해 보고 (지도학습), 같은 데이터에 임베딩 + LR을 비교 — 지도학습 두 방식의 trade-off 체감
HuggingFace TRL 라이브러리 docs에서 SFTTrainer, DPOTrainer의 입력 형식을 비교 정리. SFT는 (prompt, completion) 쌍, DPO는 (prompt, chosen, rejected) triplet — 데이터 수집 비용 차이 체감

비용 직관

OpenAI fine-tuning vs Anthropic prompt caching 비용 페이지를 비교해 “1만 호출에서 어느 것이 싼가” 계산 — 호출 패턴(반복 prompt)에 따라 결정 다름

Distribution shift 진단

sklearn의 KSTest 또는 evidentlyai 라이브러리로 학습/운영 feature 분포의 KS 통계 비교. 통계 > 임계치이면 drift 알림 트리거

결과가 예상과 다를 때

AdamW가 SGD보다 느림 → batch size↑, learning rate 재조정. AdamW의 메모리 오버헤드 (parameter 당 m, v 두 buffer = 2배)도 고려
RLHF·DPO 학습 후 모델이 더 나빠짐 → reference model과의 KL divergence가 너무 큼. β 파라미터↓로 reference에 가깝게
distribution shift 알림 false positive 많음 → 임계치 재조정, multivariate drift detector 도입

10. 5줄 요약

ML 패러다임은 학습 신호 출처(지도/비지도/강화/자기지도)와 갱신 방법(손실 + 옵티마이저)의 두 축으로 나뉜다.
LLM은 자기지도(pretraining) + 지도(SFT) + 강화·선호(RLHF/DPO)의 조합이고, 단계마다 비용 자릿수가 다르다.
AdamW + cosine LR + warmup이 LLM 학습 표준이며, gradient clipping과 mixed precision이 안정성 핵심이다.
Fine-tune vs RAG vs prompt는 데이터 양·변동성·비용으로 결정한다.
Distribution shift는 운영 단계 silent failure의 주요 원인 — covariate/label/concept 3종 모니터링이 SRE 항목이다.

11. 출처

최종 수정: 2026-04-25