ML 패러다임 기초
분류: Layer 11 - AI 기초 & 머신러닝 | 선수지식: L11-10 (ML 수학 토대), L11-20 (고전 ML 개요)
ML 패러다임 기초 — 학습 신호와 모델 갱신
섹션 제목: “ML 패러다임 기초 — 학습 신호와 모델 갱신”1. 한 줄 정의
섹션 제목: “1. 한 줄 정의”ML 패러다임은 데이터에서 학습 신호를 어떻게 뽑는가(지도/비지도/강화/자기지도)와 모델을 어떻게 갱신하는가(손실 함수와 옵티마이저)의 두 축으로 나뉘며, 학습/추론/파인튜닝의 단계 구분이 비용·성능을 결정한다.
2. 왜 중요한가
섹션 제목: “2. 왜 중요한가”- 모델 선택의 첫 질문: “이 문제는 정답이 있는가? 보상이 있는가?”가 모델·데이터 설계의 출발점
- LLM의 작동 모델 이해: pretraining(자기지도) + SFT(지도) + RLHF/DPO(강화/선호)의 조합이라는 것이 운영자에게 비용 투명성을 준다
- 운영 비용 모델링: pretraining(고정 큰 비용) vs fine-tuning(중간 일회성) vs inference(매 호출)의 단가가 자릿수가 다르다
- 학습 안정성: 옵티마이저·learning rate schedule·gradient clipping 선택이 학습 성공률에 직결된다
3. 핵심 개념
섹션 제목: “3. 핵심 개념”3.0 학습 신호 다양화의 lineage — 선행 한계 → 등장 메커니즘
섹션 제목: “3.0 학습 신호 다양화의 lineage — 선행 한계 → 등장 메커니즘”ML 패러다임은 “정답 레이블 supervised” 하나에서 출발해 한계가 드러날 때마다 새 학습 신호가 추가된 역사다. 각 단계가 직전 단계의 어떤 한계를 푸는지 본문 § 어디에 매핑되는지 함께 따라간다.
- 고전 supervised의 레이블 비용 한계 → 자기지도 등장 (§3.4)
ImageNet 원 계획은 ~50K synset × 1K 이미지 ≈ 50M 라벨이었으나 Amazon Mechanical Turk 크라우드소싱 비용·QC 한계로 ~14M 수준에서 멈췄다 (분당 작업자 1명이 50장 검증, 2012년 ImageNet은 MTurk 최대 학계 사용자). 인터넷 텍스트 ~수조 토큰 스케일에서는 이 모델이 자릿수로 불가능 → next-token / masked LM처럼 레이블을 데이터 자체에서 자동 추출하는 자기지도가 LLM pretraining의 전제가 됐다. (출처: ImageNet Wikipedia, IBM SSL) - Pretraining + SFT의 정렬 한계 → RLHF 등장 (§3.3)
자기지도 pretraining + 지도 SFT만으로는 “유해 응답 거절·사람 선호 톤·다단계 일관성” 같은 정답 1개로 정의 안 되는 목표를 다루지 못한다. InstructGPT(2022)가 (prompt, chosen, rejected) 선호 쌍으로 보상 모델을 학습하고 PPO로 정책을 갱신하는 RLHF 파이프라인을 표준화했다. - RLHF의 reward hacking·파이프라인 무게 → DPO 등장 (§3.3, §3.6)
RLHF는 보상 모델 + PPO + KL constraint(β) 3-스택이고, β를 줄이면 reward hacking, 늘리면 학습 정체라는 trade-off가 본질이다. 게다가 KL 페널티 자체가 reward hacking을 완전히 막지 못한다 — Gao et al. 2022는 KL 페널티가 proxy-gold reward 격차를 오히려 늘릴 수 있어 실험에서 β=0을 쓴다고 보고했고, NeurIPS 2024 “Catastrophic Goodhart” 논문은 heavy-tailed proxy 오차에서 KL이 vanish하면서도 proxy reward는 발산하는 정책이 존재함을 형식적으로 증명했다. DPO(2023)는 RL 단계 없이 closed-form preference loss로 같은 정렬 효과를 내 운영 단순성으로 대안이 됐다. - DPO의 paired 데이터·verbosity 한계 → KTO·ORPO·GRPO·RLVR (§3.3)
DPO는 paired preference 데이터가 필수고 verbosity 증가·OOD exploit이 본질적 약점이다. KTO는 binary feedback만으로 학습 가능하게, ORPO는 SFT+preference를 단일 단계로 합치며, GRPO는 보상 모델 없이 그룹 내 상대 advantage만 사용해(DeepSeek-R1 reasoning 후학습 표준) 데이터·인프라 비용을 더 줄이는 방향으로 진화 중이다.
이 lineage가 본문에 어떻게 박혀 있는가: §3.4(자기지도) → §3.3(RLHF·DPO·GRPO) → §3.5(비용 자릿수) → §3.12(silent failure 표)는 모두 “어느 한계가 어떤 메커니즘으로 풀렸나”의 사례다. 이 토픽이 사라지면 새 post-training 기법(예: RLVR, SimPO, IPO)을 만났을 때 “어디 한계를 푸는 것인가”라는 분석 도구가 사라지고, 단순히 “최신이라 좋은 것”으로만 도입 결정을 내리게 된다.
3.1 지도학습 (Supervised Learning)
섹션 제목: “3.1 지도학습 (Supervised Learning)”- 정답 레이블이 있는 (input, target) 쌍으로 학습
- 분류(target: discrete)와 회귀(target: continuous) 모두 포함
- 예: 이메일 스팸 분류, 집값 예측, 의도 분류
- LLM에서: instruction tuning(SFT, Supervised Fine-Tuning)이 지도학습. (질문, 답변) 또는 (지시, 응답) 쌍을 만들어 학습
3.2 비지도학습 (Unsupervised Learning)
섹션 제목: “3.2 비지도학습 (Unsupervised Learning)”- 정답 없이 데이터의 구조(군집, 분포, 차원)를 발견
- k-means(군집), PCA(차원 축소), Isolation Forest(이상 탐지)
- LLM에서: 거의 사용 안 함. 다만 임베딩 후 군집화·검색은 비지도 사후 처리
3.3 강화학습 (Reinforcement Learning)
섹션 제목: “3.3 강화학습 (Reinforcement Learning)”- 환경과 상호작용하며 보상을 최대화하는 정책을 학습
- 보상이 sparse(즉시 안 옴), 탐험-활용 trade-off
- 대표 알고리즘: Q-learning, REINFORCE, PPO (Proximal Policy Optimization)
- LLM에서: RLHF(Reinforcement Learning from Human Feedback) — 보상 모델이 사람 선호를 학습하고, PPO로 LLM을 그 보상에 맞게 fine-tune. DPO(Direct Preference Optimization)는 RL 단계 없이 closed-form preference loss로 같은 효과를 내 비용·구현 단순성으로 많이 채택됐다. 단 코드·수학 벤치에서는 PPO가 여전히 우위라는 보고도 있다 (arXiv:2404.10719).
- KL constraint와 β 파라미터: RLHF·DPO 모두 reference model과의 KL divergence 제약이 핵심. β가 작으면 reward hacking·OOD exploit(예: §3.12의 평균 응답 길이↓ 50%+, 거절 비율↑), 크면 reference에서 거의 움직이지 않아 alignment 지표 개선이 미미해진다. 운영자가 가장 자주 튜닝하는 knob이지만, KL 페널티 자체는 reward hacking의 완전 해결책이 아니다: Gao et al. (2022) 실험에서 KL 페널티가 proxy-gold reward 격차를 오히려 증가시켜 β=0을 사용했고, NeurIPS 2024 “Catastrophic Goodhart” 논문은 heavy-tailed proxy 오차에서 KL이 0으로 수렴하면서도 proxy reward가 발산하는 정책이 형식적으로 존재함을 증명했다. 즉 β 튜닝은 silent failure를 늦출 뿐 막지 못하므로, §3.12의 gold dataset 정량 모니터링이 병행돼야 한다.
- DPO 한계: verbosity 증가 경향, OOD 응답 exploit, preference dataset 분포 shift에 민감
- 신기법 (2024-2025): KTO(paired 데이터 불필요, binary feedback만), ORPO(SFT + preference 단일 단계 통합), GRPO(reward model 없이 그룹 상대 advantage — DeepSeek-R1 reasoning 후학습 표준). reasoning 모델은 RLVR(Reinforcement Learning with Verifiable Rewards) 패러다임으로 이동 중
3.4 자기지도학습 (Self-Supervised Learning)
섹션 제목: “3.4 자기지도학습 (Self-Supervised Learning)”지도학습의 일종이지만 레이블을 데이터 자체에서 자동 추출한다. LLM 시대의 핵심.
- Next-token prediction (autoregressive): 다음 단어를 맞히도록 학습. GPT 계열의 본질
- Masked language modeling (autoencoding): 일부 토큰을 가리고 맞히기. BERT 계열
- Contrastive learning: 같은 의미의 두 문장은 가깝게, 다른 의미는 멀게 (SimCLR, SimCSE) — 임베딩 모델 학습
- 가치: 비싼 사람 레이블 없이 인터넷 텍스트만으로 학습 가능 → LLM 스케일의 토대
3.5 학습 / 추론 / 파인튜닝의 비용 모델
섹션 제목: “3.5 학습 / 추론 / 파인튜닝의 비용 모델”운영자가 비용을 분리해서 사고하는 핵심.
| 단계 | 한 번 비용 | 빈도 | 데이터 |
|---|---|---|---|
| Pretraining | 수백만 | 모델 1개 출시당 | 수조 토큰 |
| Fine-tuning (SFT) | 수백~수만 달러 | 작업/도메인당 | 1K~100K 샘플 |
| LoRA / QLoRA | 수십~수천 달러 (모델 크기·데이터에 비례) | 작업당 | 100~10K 샘플 |
| In-context learning | $0 (추론만) | 매 호출 | 0~수십 샘플 (prompt) |
| Inference | 토큰당 $0.0001~$0.06 | 매 호출 | 입력 |
결정 프레임 (fine-tune vs RAG vs prompt) — IBM/Google Cloud 가이드 기준 2단계 분류:
먼저 목적으로 1차 분류:
- 새 지식·자주 변하는 정보 → RAG (외부 검색 + 컨텍스트 주입, L12-30)
- 행동·톤·포맷·스타일 변경 → fine-tune (가중치 갱신)
- 여러 단계 결합·도구 호출 → prompt + agent (오케스트레이션, L12-60)
그 다음 데이터 양·변동성으로 fine-tune 방식을 결정:
- 데이터 양 < 1K, 변동 잦음 → 결국 prompt + RAG로 회피
- 데이터 양 1K~100K, 안정 → LoRA fine-tune
- 데이터 양 > 100K, 도메인 큼 → full SFT
- 지속 업데이트 필요 → RAG 우선 (재학습 비용 회피)
3.6 손실 함수
섹션 제목: “3.6 손실 함수”모델의 “얼마나 틀렸는지” 기준. 작업이 정해지면 자동으로 결정되는 경우가 대부분.
| 작업 | 표준 손실 |
|---|---|
| 이진 분류 | Binary cross-entropy |
| 다중 분류 / LLM | Cross-entropy (softmax) |
| 회귀 | MSE, MAE, Huber (이상치 robust) |
| 순위 / 검색 | Triplet loss, contrastive loss |
| 임베딩 학습 | InfoNCE (대조 학습) |
| RLHF (보상 모델) | Pairwise preference loss (Bradley-Terry) |
| LLM 선호 정렬 (DPO) | Direct preference loss (RL 없이 closed-form) |
3.7 옵티마이저
섹션 제목: “3.7 옵티마이저”가중치를 어떻게 갱신하는가. NN/LLM 시대 표준은 AdamW.
- SGD: 가장 단순. 학습률 1개. 작은 모델·convex 문제 한정으로 일반화가 좋을 수 있으나 LLM에서는 일관되게 AdamW에 열등 (Kempner Institute 2025 벤치)
- SGD + Momentum: gradient의 지수 평균을 함께 사용. 진동 감소
- Adam: Momentum + 적응적 학습률(parameter별 다른 학습률). 일반적으로 더 빠르게 수렴
- AdamW: Adam + decoupled weight decay (L11-20 §3.6 참고). 트랜스포머·LLM 표준
- Lion (2023): 1차 momentum만 저장(2차 모멘트 없음)해 옵티마이저 state 메모리 약 33% 절감, AdamW와 경쟁력 있음 (도메인별 결과 차이 있음)
- Sophia / Shampoo: 2차 정보 활용. pretraining 안정성 일부 개선
Learning rate schedule
섹션 제목: “Learning rate schedule”학습률을 학습 도중 어떻게 바꿀지. LLM 학습 성공의 절반.
- Constant: 고정. 작은 작업 OK
- Cosine decay: peak에서 시작, cosine 함수로 감소. GPT-3 시대부터 LLM 표준
- WSD (Warmup-Stable-Decay): warmup → 안정 구간 → decay. Llama 3 등 최근 큰 모델 채택
- Linear decay: 직선 감소
- Warmup + cosine/linear: 처음 N step(보통 전체의 1~10%) 동안 learning rate 상승 후 decay. 큰 batch size·LLM에서 안정성 핵심
3.8 Batch와 Gradient
섹션 제목: “3.8 Batch와 Gradient”- Batch size: 한 번에 학습하는 sample 수. 큼 → 안정적 gradient·빠른 throughput, 메모리 비싸짐
- Gradient accumulation: micro-batch를 N번 forward/backward 후 한 번 update — 메모리 부족 시 큰 effective batch 시뮬레이션
- Gradient clipping: gradient norm > 임계치(보통 1.0)면 비례 축소. exploding gradient 방지. LLM 학습 거의 필수
- Mixed precision (fp16/bf16): 메모리 절반·속도 ↑. fp16은 overflow 위험 → loss scaling, bf16(brain float 16)이 더 안전한 대안
3.9 Distribution Shift와 OOD
섹션 제목: “3.9 Distribution Shift와 OOD”학습/운영 분포가 다르면 성능 폭락. 운영자가 가장 자주 만나는 silent failure 부류.
- Covariate shift: 입력 X 분포만 변화 (feature drift). 예: 사용자 layer 변화
- Label shift: 출력 Y 분포만 변화. 예: 스팸 비율 급변
- Concept drift: P(Y|X) 자체 변화. 예: 같은 입력에 대한 정답이 시간에 따라 바뀜
- Out-of-Distribution (OOD): 학습에서 본 적 없는 분포의 입력
- 대응:
- 입력 분포 모니터링(L6 sre-practices와 연결)
- 모델 confidence·entropy 기반 거부 (LLM에서 “모르겠다” 응답)
- continuous learning, periodic re-training
- domain adaptation (test-time training, DANN)
3.10 학습 안정성 디버깅 시그널
섹션 제목: “3.10 학습 안정성 디버깅 시그널”- 손실 NaN/Inf: gradient explosion → clipping 임계치↓, learning rate↓, warmup 길이↑
- 손실이 안 떨어짐: learning rate가 너무 작거나 큼. validation curve로 sweep
- loss spike (LLM pretraining): 큰 batch에서 발생. checkpoint 자주 저장 → 발생 시 직전 체크포인트로 rollback이 PaLM·OPT-175B·GLM-130B 등 초기 대규모 학습에서 사용된 안정화 기법. (Llama 3 405B 자체는 학습이 매우 안정적이라 rollback이 거의 불필요했다고 보고 — 출처: Meta Llama 3 tech report)
- train↑ val↑ 그러나 새 데이터에서 폭락: distribution shift. 학습 데이터와 운영 분포 비교
3.11 새 ML 패러다임 분석 4질문 체크리스트
섹션 제목: “3.11 새 ML 패러다임 분석 4질문 체크리스트”새 학습 기법(SimCLR·DPO·GRPO·DPO 후속)을 만났을 때 다음 4질문이 빠른 분석 도구.
- 학습 신호의 출처는? (정답 레이블·preference·verifiable reward·자기지도)
- 어떤 데이터·비용이 필요한가? (paired·binary·trajectory; $K~$M)
- 어떤 손실·갱신 방법인가? (cross-entropy·preference loss·RL with critic·closed-form)
- 어떤 silent failure가 있는가? (reward hacking·verbosity·catastrophic forgetting·OOD exploit)
이 4질문은 SFT부터 RLHF·DPO·GRPO·RLVR까지 모든 post-training에 동일 적용된다.
3.12 Alignment Silent Failure 탐지 시그널
섹션 제목: “3.12 Alignment Silent Failure 탐지 시그널”운영자가 fine-tune·post-training 후 자주 만나는 silent degradation.
| 증상 | 정량 시그널 | 원인 | 복구 절차 |
|---|---|---|---|
| Reward hacking | 평균 응답 길이↓ 50%+, 거절 비율 ↑ | β 너무 작음 | β↑(0.1→0.3), reward 다양화 |
| Verbosity inflation | 평균 응답 길이↑ 30%+ | DPO 본질 | length-controlled (AlpacaEval LC), simPO |
| Sycophancy | user 의견 반복 비율 ↑ | RLHF 일반 함정 | adversarial preference, principled CoT |
| Mode collapse | 답변 다양성 (entropy) 폭락 | over-optimization | temperature↑, top-p, KL↑ |
| Catastrophic forget | MMLU·HumanEval·다국어 점수 폭락 | replay 부족 | replay 비율 30%+, LoRA 사용 (base 보존) |
| OOD exploit | training distribution 외 응답 망가짐 | preference 분포 협소 | OOD 샘플 추가, KTO/IPO 검토 |
각 시그널은 gold dataset (L11-80) + LLM-as-judge로 자동 모니터링.
4. 실무에서 어디에 쓰이나
섹션 제목: “4. 실무에서 어디에 쓰이나”- 챗봇 응답 품질 개선: SFT (질문-답 쌍 수집) → DPO (선호 데이터로 정렬)
- 검색·추천 임베딩: contrastive learning (자기지도)
- 이상 탐지: Isolation Forest(비지도) + 일부 supervised
- LLM 라우팅: 작은 모델로 분류기 학습 → 큰 LLM 호출 여부 결정 (지도학습)
- 사용자 의도 분류: 도메인 데이터 부족하면 임베딩 + LR(L11-20), 충분하면 fine-tune
운영 시나리오 — 한국어 도메인 fine-tune 결정 (예시)
섹션 제목: “운영 시나리오 — 한국어 도메인 fine-tune 결정 (예시)”상황: 사내 법률 챗봇, 도메인 데이터 8K 한국어 Q&A선택지: A. RAG 단독: 기존 법령 문서 검색 → GPT-4o - 비용: $0.005/호출, 갱신 즉시 - 문제: 법령 표현 정확도 약함 (한국어 dense 약함) B. LoRA fine-tune (Llama-3-8B + r=16): - 비용: 학습 ~$50, 추론 self-host - 효과: 도메인 표현 정확도 +20% C. RAG + LoRA hybrid: - 비용: A + B 합산 - 효과: 갱신성 + 정확도 둘 다
선택: C (hybrid). RAG로 최신 법령, LoRA로 표현·톤 학습.대안 비선택: A 단독은 표현 약함, B 단독은 갱신 어려움.결과: gold dataset 정확도 65% → 88%.이 결정 프레임이 §3.1~§3.10의 모든 패러다임 직관 위에 깔린다.
5. 현재 내 업무와 연결점
섹션 제목: “5. 현재 내 업무와 연결점”플랫폼 엔지니어가 LLM 운영할 때 패러다임 사고가 다음에 도움 된다.
- 비용 분해: pretraining(0, OpenAI/Anthropic가 부담) + fine-tuning(필요시 일회성) + inference(매호출). 비용 라우팅 사고(L12-70)의 토대
- fine-tune vs RAG vs prompt 결정: 데이터 양·변동성·비용으로 판단 (§3.5 표). 의사결정 표준화
- 운영 모니터링: distribution shift 3종은 LLM 운영의 핵심 SRE 시그널 (L6 sre-practices). feature drift 알림이 모델 retraining 트리거
- 학습 hyperparameter 직관: 외주 fine-tuning 결과를 받았을 때 “learning rate가 적절했는가, warmup은?” 같은 질문을 할 수 있다
6. 자주 헷갈리는 개념 비교
섹션 제목: “6. 자주 헷갈리는 개념 비교”| 개념 A | 개념 B | 차이점 |
|---|---|---|
| 지도학습 | 비지도학습 | 정답 레이블 유무 |
| 비지도학습 | 자기지도학습 | 자기지도는 데이터에서 레이블을 자동 추출 (실은 supervised의 한 형태) |
| Pretraining | Fine-tuning | 처음부터 vs 적응. 비용 자릿수가 다름 |
| Fine-tuning | In-context learning | 가중치 변경 vs prompt만 변경 (LLM 활성화) |
| RLHF (PPO) | DPO | RL 단계 (보상 모델 + PPO) vs 직접 preference loss (closed-form). 코드·수학에서는 PPO 여전히 우위 |
| SFT | RLHF/DPO | 정답 모방 vs 선호 정렬. SFT 후 RLHF/DPO가 표준 순서 |
| SGD | Adam | 학습률 스칼라 vs parameter별 적응적 |
| Adam | AdamW | weight decay가 L2 결합 vs decoupled (L11-20 §3.6 참고) |
| Constant LR | Cosine LR | 고정 vs 감소. LLM은 cosine + warmup 표준 |
| Cross-entropy | MSE | 분류 (확률 분포 거리) vs 회귀 (제곱 거리) |
| Covariate shift | Concept drift | P(X)만 변화 vs P(Y|X) 자체 변화 |
7. 체크리스트
섹션 제목: “7. 체크리스트”- 지도/비지도/강화/자기지도학습의 차이를 학습 신호 출처 관점에서 설명할 수 있다
- 자기지도학습이 LLM pretraining의 본질이고 인간 레이블 없이 스케일을 가능하게 한 이유를 설명할 수 있다
- pretraining/fine-tuning/inference 비용을 자릿수 단위로 비교할 수 있다 ($M / $K / $0.001 per call 등)
- RLHF와 DPO의 차이를 RL 단계 유무 관점에서 설명할 수 있다
- AdamW가 NN/LLM의 default인 이유와, SGD가 더 나은 경우(작은 convex 문제)를 말할 수 있다
- Distribution shift 3종(covariate/label/concept)의 차이와 운영 모니터링 항목을 설명할 수 있다
- fine-tune vs RAG vs prompt 결정 프레임을 데이터 양·변동성·비용으로 적용할 수 있다
8. 추가 학습 키워드
섹션 제목: “8. 추가 학습 키워드”- 학습 패러다임: meta-learning, few-shot learning, federated learning, online learning, active learning
- LLM 사후학습: SFT, RLHF, PPO, DPO, KTO, IPO, ORPO
- 옵티마이저: Lion, Sophia, Shampoo, RMSprop, AdaGrad
- 손실: focal loss, triplet, NCE, InfoNCE, ranking loss
- LR schedule: warmup, cosine, linear decay, cyclical, one-cycle
- 분포 변화: domain adaptation, test-time adaptation, DANN, calibration
9. 내가 직접 확인해볼 것
섹션 제목: “9. 내가 직접 확인해볼 것”옵티마이저 비교
섹션 제목: “옵티마이저 비교”- sklearn으로 같은 데이터셋(예: digits)에
SGDClassifier와MLPClassifier(adam) 학습 곡선 비교 — adam이 더 빨리 수렴하는지 확인 - PyTorch로
torch.optim.AdamW의weight_decay를 0과 0.01로 두 번 학습해 가중치 norm 차이를 출력 —for p in model.parameters(): print(p.norm()). weight_decay가 클수록 norm이 작아야 함
학습 신호 패러다임
섹션 제목: “학습 신호 패러다임”- HuggingFace
datasets에서 sentiment 데이터셋으로 BERT를 fine-tune해 보고 (지도학습), 같은 데이터에 임베딩 + LR을 비교 — 지도학습 두 방식의 trade-off 체감 - HuggingFace TRL 라이브러리 docs에서
SFTTrainer,DPOTrainer의 입력 형식을 비교 정리. SFT는(prompt, completion)쌍, DPO는(prompt, chosen, rejected)triplet — 데이터 수집 비용 차이 체감
비용 직관
섹션 제목: “비용 직관”- OpenAI fine-tuning vs Anthropic prompt caching 비용 페이지를 비교해 “1만 호출에서 어느 것이 싼가” 계산 — 호출 패턴(반복 prompt)에 따라 결정 다름
Distribution shift 진단
섹션 제목: “Distribution shift 진단”- sklearn의
KSTest또는evidentlyai라이브러리로 학습/운영 feature 분포의 KS 통계 비교. 통계 > 임계치이면 drift 알림 트리거
결과가 예상과 다를 때
섹션 제목: “결과가 예상과 다를 때”- AdamW가 SGD보다 느림 → batch size↑, learning rate 재조정. AdamW의 메모리 오버헤드 (parameter 당 m, v 두 buffer = 2배)도 고려
- RLHF·DPO 학습 후 모델이 더 나빠짐 → reference model과의 KL divergence가 너무 큼. β 파라미터↓로 reference에 가깝게
- distribution shift 알림 false positive 많음 → 임계치 재조정, multivariate drift detector 도입
10. 5줄 요약
섹션 제목: “10. 5줄 요약”- ML 패러다임은 학습 신호 출처(지도/비지도/강화/자기지도)와 갱신 방법(손실 + 옵티마이저)의 두 축으로 나뉜다.
- LLM은 자기지도(pretraining) + 지도(SFT) + 강화·선호(RLHF/DPO)의 조합이고, 단계마다 비용 자릿수가 다르다.
- AdamW + cosine LR + warmup이 LLM 학습 표준이며, gradient clipping과 mixed precision이 안정성 핵심이다.
- Fine-tune vs RAG vs prompt는 데이터 양·변동성·비용으로 결정한다.
- Distribution shift는 운영 단계 silent failure의 주요 원인 — covariate/label/concept 3종 모니터링이 SRE 항목이다.
11. 출처
섹션 제목: “11. 출처”- Loshchilov & Hutter, Decoupled Weight Decay Regularization (arXiv:1711.05101)
- Schulman et al., Proximal Policy Optimization Algorithms (arXiv:1707.06347)
- Rafailov et al., Direct Preference Optimization (arXiv:2305.18290)
- Ouyang et al., InstructGPT — RLHF (arXiv:2203.02155)
- Chen et al., SimCLR (arXiv:2002.05709)
- HuggingFace TRL — SFTTrainer / DPOTrainer docs
- PyTorch — torch.optim.AdamW docs
- Meta Llama 3 tech report — stable pretraining, no rollback (arXiv:2407.21783)
- Xu et al., Is DPO Superior to PPO for LLM Alignment? (arXiv:2404.10719)
- Anything but SGD — LLM Optimizer Evaluation (Kempner Institute, 2025)
- IBM — RAG vs Fine-tuning vs Prompt Engineering
- DeepSeek-R1 / GRPO — Group Relative Policy Optimization (arXiv:2402.03300)
- ImageNet — Wikipedia (크라우드소싱 규모·MTurk 50장/분 워크플로우)
- IBM — What is Self-Supervised Learning? (레이블 비용 병목 → SSL 동기)
- Gao, Schulman, Hilton — Scaling Laws for Reward Model Overoptimization (arXiv:2210.10760)
- Catastrophic Goodhart: regularizing RLHF with KL does not mitigate reward hacking (NeurIPS 2024)
- Lilian Weng — Reward Hacking in Reinforcement Learning (2024)
최종 수정: 2026-04-25