콘텐츠로 이동

ML 패러다임 기초

분류: Layer 11 - AI 기초 & 머신러닝 | 선수지식: L11-10 (ML 수학 토대), L11-20 (고전 ML 개요)

ML 패러다임 기초 — 학습 신호와 모델 갱신

섹션 제목: “ML 패러다임 기초 — 학습 신호와 모델 갱신”

ML 패러다임은 데이터에서 학습 신호를 어떻게 뽑는가(지도/비지도/강화/자기지도)와 모델을 어떻게 갱신하는가(손실 함수와 옵티마이저)의 두 축으로 나뉘며, 학습/추론/파인튜닝의 단계 구분이 비용·성능을 결정한다.

  • 모델 선택의 첫 질문: “이 문제는 정답이 있는가? 보상이 있는가?”가 모델·데이터 설계의 출발점
  • LLM의 작동 모델 이해: pretraining(자기지도) + SFT(지도) + RLHF/DPO(강화/선호)의 조합이라는 것이 운영자에게 비용 투명성을 준다
  • 운영 비용 모델링: pretraining(고정 큰 비용) vs fine-tuning(중간 일회성) vs inference(매 호출)의 단가가 자릿수가 다르다
  • 학습 안정성: 옵티마이저·learning rate schedule·gradient clipping 선택이 학습 성공률에 직결된다

3.0 학습 신호 다양화의 lineage — 선행 한계 → 등장 메커니즘

섹션 제목: “3.0 학습 신호 다양화의 lineage — 선행 한계 → 등장 메커니즘”

ML 패러다임은 “정답 레이블 supervised” 하나에서 출발해 한계가 드러날 때마다 새 학습 신호가 추가된 역사다. 각 단계가 직전 단계의 어떤 한계를 푸는지 본문 § 어디에 매핑되는지 함께 따라간다.

  1. 고전 supervised의 레이블 비용 한계 → 자기지도 등장 (§3.4)
    ImageNet 원 계획은 ~50K synset × 1K 이미지 ≈ 50M 라벨이었으나 Amazon Mechanical Turk 크라우드소싱 비용·QC 한계로 ~14M 수준에서 멈췄다 (분당 작업자 1명이 50장 검증, 2012년 ImageNet은 MTurk 최대 학계 사용자). 인터넷 텍스트 ~수조 토큰 스케일에서는 이 모델이 자릿수로 불가능 → next-token / masked LM처럼 레이블을 데이터 자체에서 자동 추출하는 자기지도가 LLM pretraining의 전제가 됐다. (출처: ImageNet Wikipedia, IBM SSL)
  2. Pretraining + SFT의 정렬 한계 → RLHF 등장 (§3.3)
    자기지도 pretraining + 지도 SFT만으로는 “유해 응답 거절·사람 선호 톤·다단계 일관성” 같은 정답 1개로 정의 안 되는 목표를 다루지 못한다. InstructGPT(2022)가 (prompt, chosen, rejected) 선호 쌍으로 보상 모델을 학습하고 PPO로 정책을 갱신하는 RLHF 파이프라인을 표준화했다.
  3. RLHF의 reward hacking·파이프라인 무게 → DPO 등장 (§3.3, §3.6)
    RLHF는 보상 모델 + PPO + KL constraint(β) 3-스택이고, β를 줄이면 reward hacking, 늘리면 학습 정체라는 trade-off가 본질이다. 게다가 KL 페널티 자체가 reward hacking을 완전히 막지 못한다 — Gao et al. 2022는 KL 페널티가 proxy-gold reward 격차를 오히려 늘릴 수 있어 실험에서 β=0을 쓴다고 보고했고, NeurIPS 2024 “Catastrophic Goodhart” 논문은 heavy-tailed proxy 오차에서 KL이 vanish하면서도 proxy reward는 발산하는 정책이 존재함을 형식적으로 증명했다. DPO(2023)는 RL 단계 없이 closed-form preference loss로 같은 정렬 효과를 내 운영 단순성으로 대안이 됐다.
  4. DPO의 paired 데이터·verbosity 한계 → KTO·ORPO·GRPO·RLVR (§3.3)
    DPO는 paired preference 데이터가 필수고 verbosity 증가·OOD exploit이 본질적 약점이다. KTO는 binary feedback만으로 학습 가능하게, ORPO는 SFT+preference를 단일 단계로 합치며, GRPO는 보상 모델 없이 그룹 내 상대 advantage만 사용해(DeepSeek-R1 reasoning 후학습 표준) 데이터·인프라 비용을 더 줄이는 방향으로 진화 중이다.

이 lineage가 본문에 어떻게 박혀 있는가: §3.4(자기지도) → §3.3(RLHF·DPO·GRPO) → §3.5(비용 자릿수) → §3.12(silent failure 표)는 모두 “어느 한계가 어떤 메커니즘으로 풀렸나”의 사례다. 이 토픽이 사라지면 새 post-training 기법(예: RLVR, SimPO, IPO)을 만났을 때 “어디 한계를 푸는 것인가”라는 분석 도구가 사라지고, 단순히 “최신이라 좋은 것”으로만 도입 결정을 내리게 된다.

  • 정답 레이블이 있는 (input, target) 쌍으로 학습
  • 분류(target: discrete)와 회귀(target: continuous) 모두 포함
  • 예: 이메일 스팸 분류, 집값 예측, 의도 분류
  • LLM에서: instruction tuning(SFT, Supervised Fine-Tuning)이 지도학습. (질문, 답변) 또는 (지시, 응답) 쌍을 만들어 학습

3.2 비지도학습 (Unsupervised Learning)

섹션 제목: “3.2 비지도학습 (Unsupervised Learning)”
  • 정답 없이 데이터의 구조(군집, 분포, 차원)를 발견
  • k-means(군집), PCA(차원 축소), Isolation Forest(이상 탐지)
  • LLM에서: 거의 사용 안 함. 다만 임베딩 후 군집화·검색은 비지도 사후 처리
  • 환경과 상호작용하며 보상을 최대화하는 정책을 학습
  • 보상이 sparse(즉시 안 옴), 탐험-활용 trade-off
  • 대표 알고리즘: Q-learning, REINFORCE, PPO (Proximal Policy Optimization)
  • LLM에서: RLHF(Reinforcement Learning from Human Feedback) — 보상 모델이 사람 선호를 학습하고, PPO로 LLM을 그 보상에 맞게 fine-tune. DPO(Direct Preference Optimization)는 RL 단계 없이 closed-form preference loss로 같은 효과를 내 비용·구현 단순성으로 많이 채택됐다. 단 코드·수학 벤치에서는 PPO가 여전히 우위라는 보고도 있다 (arXiv:2404.10719).
  • KL constraint와 β 파라미터: RLHF·DPO 모두 reference model과의 KL divergence 제약이 핵심. β가 작으면 reward hacking·OOD exploit(예: §3.12의 평균 응답 길이↓ 50%+, 거절 비율↑), 크면 reference에서 거의 움직이지 않아 alignment 지표 개선이 미미해진다. 운영자가 가장 자주 튜닝하는 knob이지만, KL 페널티 자체는 reward hacking의 완전 해결책이 아니다: Gao et al. (2022) 실험에서 KL 페널티가 proxy-gold reward 격차를 오히려 증가시켜 β=0을 사용했고, NeurIPS 2024 “Catastrophic Goodhart” 논문은 heavy-tailed proxy 오차에서 KL이 0으로 수렴하면서도 proxy reward가 발산하는 정책이 형식적으로 존재함을 증명했다. 즉 β 튜닝은 silent failure를 늦출 뿐 막지 못하므로, §3.12의 gold dataset 정량 모니터링이 병행돼야 한다.
  • DPO 한계: verbosity 증가 경향, OOD 응답 exploit, preference dataset 분포 shift에 민감
  • 신기법 (2024-2025): KTO(paired 데이터 불필요, binary feedback만), ORPO(SFT + preference 단일 단계 통합), GRPO(reward model 없이 그룹 상대 advantage — DeepSeek-R1 reasoning 후학습 표준). reasoning 모델은 RLVR(Reinforcement Learning with Verifiable Rewards) 패러다임으로 이동 중

3.4 자기지도학습 (Self-Supervised Learning)

섹션 제목: “3.4 자기지도학습 (Self-Supervised Learning)”

지도학습의 일종이지만 레이블을 데이터 자체에서 자동 추출한다. LLM 시대의 핵심.

  • Next-token prediction (autoregressive): 다음 단어를 맞히도록 학습. GPT 계열의 본질
  • Masked language modeling (autoencoding): 일부 토큰을 가리고 맞히기. BERT 계열
  • Contrastive learning: 같은 의미의 두 문장은 가깝게, 다른 의미는 멀게 (SimCLR, SimCSE) — 임베딩 모델 학습
  • 가치: 비싼 사람 레이블 없이 인터넷 텍스트만으로 학습 가능 → LLM 스케일의 토대

3.5 학습 / 추론 / 파인튜닝의 비용 모델

섹션 제목: “3.5 학습 / 추론 / 파인튜닝의 비용 모델”

운영자가 비용을 분리해서 사고하는 핵심.

단계한 번 비용빈도데이터
Pretraining수백만수억 달러 (Llama 3 405B 추정 ≈ $6080M, GPT-4급 $100M+)모델 1개 출시당수조 토큰
Fine-tuning (SFT)수백~수만 달러작업/도메인당1K~100K 샘플
LoRA / QLoRA수십~수천 달러 (모델 크기·데이터에 비례)작업당100~10K 샘플
In-context learning$0 (추론만)매 호출0~수십 샘플 (prompt)
Inference토큰당 $0.0001~$0.06매 호출입력

결정 프레임 (fine-tune vs RAG vs prompt) — IBM/Google Cloud 가이드 기준 2단계 분류:

먼저 목적으로 1차 분류:

  • 새 지식·자주 변하는 정보 → RAG (외부 검색 + 컨텍스트 주입, L12-30)
  • 행동·톤·포맷·스타일 변경 → fine-tune (가중치 갱신)
  • 여러 단계 결합·도구 호출 → prompt + agent (오케스트레이션, L12-60)

그 다음 데이터 양·변동성으로 fine-tune 방식을 결정:

  • 데이터 양 < 1K, 변동 잦음 → 결국 prompt + RAG로 회피
  • 데이터 양 1K~100K, 안정 → LoRA fine-tune
  • 데이터 양 > 100K, 도메인 큼 → full SFT
  • 지속 업데이트 필요 → RAG 우선 (재학습 비용 회피)

모델의 “얼마나 틀렸는지” 기준. 작업이 정해지면 자동으로 결정되는 경우가 대부분.

작업표준 손실
이진 분류Binary cross-entropy
다중 분류 / LLMCross-entropy (softmax)
회귀MSE, MAE, Huber (이상치 robust)
순위 / 검색Triplet loss, contrastive loss
임베딩 학습InfoNCE (대조 학습)
RLHF (보상 모델)Pairwise preference loss (Bradley-Terry)
LLM 선호 정렬 (DPO)Direct preference loss (RL 없이 closed-form)

가중치를 어떻게 갱신하는가. NN/LLM 시대 표준은 AdamW.

  • SGD: 가장 단순. 학습률 1개. 작은 모델·convex 문제 한정으로 일반화가 좋을 수 있으나 LLM에서는 일관되게 AdamW에 열등 (Kempner Institute 2025 벤치)
  • SGD + Momentum: gradient의 지수 평균을 함께 사용. 진동 감소
  • Adam: Momentum + 적응적 학습률(parameter별 다른 학습률). 일반적으로 더 빠르게 수렴
  • AdamW: Adam + decoupled weight decay (L11-20 §3.6 참고). 트랜스포머·LLM 표준
  • Lion (2023): 1차 momentum만 저장(2차 모멘트 없음)해 옵티마이저 state 메모리 약 33% 절감, AdamW와 경쟁력 있음 (도메인별 결과 차이 있음)
  • Sophia / Shampoo: 2차 정보 활용. pretraining 안정성 일부 개선

학습률을 학습 도중 어떻게 바꿀지. LLM 학습 성공의 절반.

  • Constant: 고정. 작은 작업 OK
  • Cosine decay: peak에서 시작, cosine 함수로 감소. GPT-3 시대부터 LLM 표준
  • WSD (Warmup-Stable-Decay): warmup → 안정 구간 → decay. Llama 3 등 최근 큰 모델 채택
  • Linear decay: 직선 감소
  • Warmup + cosine/linear: 처음 N step(보통 전체의 1~10%) 동안 learning rate 상승 후 decay. 큰 batch size·LLM에서 안정성 핵심
  • Batch size: 한 번에 학습하는 sample 수. 큼 → 안정적 gradient·빠른 throughput, 메모리 비싸짐
  • Gradient accumulation: micro-batch를 N번 forward/backward 후 한 번 update — 메모리 부족 시 큰 effective batch 시뮬레이션
  • Gradient clipping: gradient norm > 임계치(보통 1.0)면 비례 축소. exploding gradient 방지. LLM 학습 거의 필수
  • Mixed precision (fp16/bf16): 메모리 절반·속도 ↑. fp16은 overflow 위험 → loss scaling, bf16(brain float 16)이 더 안전한 대안

학습/운영 분포가 다르면 성능 폭락. 운영자가 가장 자주 만나는 silent failure 부류.

  • Covariate shift: 입력 X 분포만 변화 (feature drift). 예: 사용자 layer 변화
  • Label shift: 출력 Y 분포만 변화. 예: 스팸 비율 급변
  • Concept drift: P(Y|X) 자체 변화. 예: 같은 입력에 대한 정답이 시간에 따라 바뀜
  • Out-of-Distribution (OOD): 학습에서 본 적 없는 분포의 입력
  • 대응:
    • 입력 분포 모니터링(L6 sre-practices와 연결)
    • 모델 confidence·entropy 기반 거부 (LLM에서 “모르겠다” 응답)
    • continuous learning, periodic re-training
    • domain adaptation (test-time training, DANN)
  • 손실 NaN/Inf: gradient explosion → clipping 임계치↓, learning rate↓, warmup 길이↑
  • 손실이 안 떨어짐: learning rate가 너무 작거나 큼. validation curve로 sweep
  • loss spike (LLM pretraining): 큰 batch에서 발생. checkpoint 자주 저장 → 발생 시 직전 체크포인트로 rollback이 PaLM·OPT-175B·GLM-130B 등 초기 대규모 학습에서 사용된 안정화 기법. (Llama 3 405B 자체는 학습이 매우 안정적이라 rollback이 거의 불필요했다고 보고 — 출처: Meta Llama 3 tech report)
  • train↑ val↑ 그러나 새 데이터에서 폭락: distribution shift. 학습 데이터와 운영 분포 비교

3.11 새 ML 패러다임 분석 4질문 체크리스트

섹션 제목: “3.11 새 ML 패러다임 분석 4질문 체크리스트”

새 학습 기법(SimCLR·DPO·GRPO·DPO 후속)을 만났을 때 다음 4질문이 빠른 분석 도구.

  1. 학습 신호의 출처는? (정답 레이블·preference·verifiable reward·자기지도)
  2. 어떤 데이터·비용이 필요한가? (paired·binary·trajectory; $K~$M)
  3. 어떤 손실·갱신 방법인가? (cross-entropy·preference loss·RL with critic·closed-form)
  4. 어떤 silent failure가 있는가? (reward hacking·verbosity·catastrophic forgetting·OOD exploit)

이 4질문은 SFT부터 RLHF·DPO·GRPO·RLVR까지 모든 post-training에 동일 적용된다.

3.12 Alignment Silent Failure 탐지 시그널

섹션 제목: “3.12 Alignment Silent Failure 탐지 시그널”

운영자가 fine-tune·post-training 후 자주 만나는 silent degradation.

증상정량 시그널원인복구 절차
Reward hacking평균 응답 길이↓ 50%+, 거절 비율 ↑β 너무 작음β↑(0.1→0.3), reward 다양화
Verbosity inflation평균 응답 길이↑ 30%+DPO 본질length-controlled (AlpacaEval LC), simPO
Sycophancyuser 의견 반복 비율 ↑RLHF 일반 함정adversarial preference, principled CoT
Mode collapse답변 다양성 (entropy) 폭락over-optimizationtemperature↑, top-p, KL↑
Catastrophic forgetMMLU·HumanEval·다국어 점수 폭락replay 부족replay 비율 30%+, LoRA 사용 (base 보존)
OOD exploittraining distribution 외 응답 망가짐preference 분포 협소OOD 샘플 추가, KTO/IPO 검토

각 시그널은 gold dataset (L11-80) + LLM-as-judge로 자동 모니터링.

  • 챗봇 응답 품질 개선: SFT (질문-답 쌍 수집) → DPO (선호 데이터로 정렬)
  • 검색·추천 임베딩: contrastive learning (자기지도)
  • 이상 탐지: Isolation Forest(비지도) + 일부 supervised
  • LLM 라우팅: 작은 모델로 분류기 학습 → 큰 LLM 호출 여부 결정 (지도학습)
  • 사용자 의도 분류: 도메인 데이터 부족하면 임베딩 + LR(L11-20), 충분하면 fine-tune

운영 시나리오 — 한국어 도메인 fine-tune 결정 (예시)

섹션 제목: “운영 시나리오 — 한국어 도메인 fine-tune 결정 (예시)”
상황: 사내 법률 챗봇, 도메인 데이터 8K 한국어 Q&A
선택지:
A. RAG 단독: 기존 법령 문서 검색 → GPT-4o
- 비용: $0.005/호출, 갱신 즉시
- 문제: 법령 표현 정확도 약함 (한국어 dense 약함)
B. LoRA fine-tune (Llama-3-8B + r=16):
- 비용: 학습 ~$50, 추론 self-host
- 효과: 도메인 표현 정확도 +20%
C. RAG + LoRA hybrid:
- 비용: A + B 합산
- 효과: 갱신성 + 정확도 둘 다
선택: C (hybrid). RAG로 최신 법령, LoRA로 표현·톤 학습.
대안 비선택: A 단독은 표현 약함, B 단독은 갱신 어려움.
결과: gold dataset 정확도 65% → 88%.

이 결정 프레임이 §3.1~§3.10의 모든 패러다임 직관 위에 깔린다.

플랫폼 엔지니어가 LLM 운영할 때 패러다임 사고가 다음에 도움 된다.

  • 비용 분해: pretraining(0, OpenAI/Anthropic가 부담) + fine-tuning(필요시 일회성) + inference(매호출). 비용 라우팅 사고(L12-70)의 토대
  • fine-tune vs RAG vs prompt 결정: 데이터 양·변동성·비용으로 판단 (§3.5 표). 의사결정 표준화
  • 운영 모니터링: distribution shift 3종은 LLM 운영의 핵심 SRE 시그널 (L6 sre-practices). feature drift 알림이 모델 retraining 트리거
  • 학습 hyperparameter 직관: 외주 fine-tuning 결과를 받았을 때 “learning rate가 적절했는가, warmup은?” 같은 질문을 할 수 있다
개념 A개념 B차이점
지도학습비지도학습정답 레이블 유무
비지도학습자기지도학습자기지도는 데이터에서 레이블을 자동 추출 (실은 supervised의 한 형태)
PretrainingFine-tuning처음부터 vs 적응. 비용 자릿수가 다름
Fine-tuningIn-context learning가중치 변경 vs prompt만 변경 (LLM 활성화)
RLHF (PPO)DPORL 단계 (보상 모델 + PPO) vs 직접 preference loss (closed-form). 코드·수학에서는 PPO 여전히 우위
SFTRLHF/DPO정답 모방 vs 선호 정렬. SFT 후 RLHF/DPO가 표준 순서
SGDAdam학습률 스칼라 vs parameter별 적응적
AdamAdamWweight decay가 L2 결합 vs decoupled (L11-20 §3.6 참고)
Constant LRCosine LR고정 vs 감소. LLM은 cosine + warmup 표준
Cross-entropyMSE분류 (확률 분포 거리) vs 회귀 (제곱 거리)
Covariate shiftConcept driftP(X)만 변화 vs P(Y|X) 자체 변화
  • 지도/비지도/강화/자기지도학습의 차이를 학습 신호 출처 관점에서 설명할 수 있다
  • 자기지도학습이 LLM pretraining의 본질이고 인간 레이블 없이 스케일을 가능하게 한 이유를 설명할 수 있다
  • pretraining/fine-tuning/inference 비용을 자릿수 단위로 비교할 수 있다 ($M / $K / $0.001 per call 등)
  • RLHF와 DPO의 차이를 RL 단계 유무 관점에서 설명할 수 있다
  • AdamW가 NN/LLM의 default인 이유와, SGD가 더 나은 경우(작은 convex 문제)를 말할 수 있다
  • Distribution shift 3종(covariate/label/concept)의 차이와 운영 모니터링 항목을 설명할 수 있다
  • fine-tune vs RAG vs prompt 결정 프레임을 데이터 양·변동성·비용으로 적용할 수 있다
  • 학습 패러다임: meta-learning, few-shot learning, federated learning, online learning, active learning
  • LLM 사후학습: SFT, RLHF, PPO, DPO, KTO, IPO, ORPO
  • 옵티마이저: Lion, Sophia, Shampoo, RMSprop, AdaGrad
  • 손실: focal loss, triplet, NCE, InfoNCE, ranking loss
  • LR schedule: warmup, cosine, linear decay, cyclical, one-cycle
  • 분포 변화: domain adaptation, test-time adaptation, DANN, calibration
  • sklearn으로 같은 데이터셋(예: digits)에 SGDClassifierMLPClassifier(adam) 학습 곡선 비교 — adam이 더 빨리 수렴하는지 확인
  • PyTorch로 torch.optim.AdamWweight_decay를 0과 0.01로 두 번 학습해 가중치 norm 차이를 출력 — for p in model.parameters(): print(p.norm()). weight_decay가 클수록 norm이 작아야 함
  • HuggingFace datasets에서 sentiment 데이터셋으로 BERT를 fine-tune해 보고 (지도학습), 같은 데이터에 임베딩 + LR을 비교 — 지도학습 두 방식의 trade-off 체감
  • HuggingFace TRL 라이브러리 docs에서 SFTTrainer, DPOTrainer의 입력 형식을 비교 정리. SFT는 (prompt, completion) 쌍, DPO는 (prompt, chosen, rejected) triplet — 데이터 수집 비용 차이 체감
  • OpenAI fine-tuning vs Anthropic prompt caching 비용 페이지를 비교해 “1만 호출에서 어느 것이 싼가” 계산 — 호출 패턴(반복 prompt)에 따라 결정 다름
  • sklearn의 KSTest 또는 evidentlyai 라이브러리로 학습/운영 feature 분포의 KS 통계 비교. 통계 > 임계치이면 drift 알림 트리거
  • AdamW가 SGD보다 느림 → batch size↑, learning rate 재조정. AdamW의 메모리 오버헤드 (parameter 당 m, v 두 buffer = 2배)도 고려
  • RLHF·DPO 학습 후 모델이 더 나빠짐 → reference model과의 KL divergence가 너무 큼. β 파라미터↓로 reference에 가깝게
  • distribution shift 알림 false positive 많음 → 임계치 재조정, multivariate drift detector 도입
  1. ML 패러다임은 학습 신호 출처(지도/비지도/강화/자기지도)와 갱신 방법(손실 + 옵티마이저)의 두 축으로 나뉜다.
  2. LLM은 자기지도(pretraining) + 지도(SFT) + 강화·선호(RLHF/DPO)의 조합이고, 단계마다 비용 자릿수가 다르다.
  3. AdamW + cosine LR + warmup이 LLM 학습 표준이며, gradient clipping과 mixed precision이 안정성 핵심이다.
  4. Fine-tune vs RAG vs prompt는 데이터 양·변동성·비용으로 결정한다.
  5. Distribution shift는 운영 단계 silent failure의 주요 원인 — covariate/label/concept 3종 모니터링이 SRE 항목이다.

최종 수정: 2026-04-25