ML 패러다임을 나누는 학습 신호와 운영 판단

ML 패러다임을 정답 레이블, 데이터 자체의 신호, 보상과 선호라는 관점에서 정리하고, LLM 운영에서 비용과 안정성을 어떻게 판단하는지 설명한다. Fine-tune, RAG, prompt 선택 기준과 alignment silent failure 탐지까지 함께 다룬다.

Layer: L11
Duration: 길이 미정
Generated: 2026. 5. 25. 오후 3:57:43

원본 문서 읽기 오디오 파일 열기

Script Companion

오디오와 함께 스크립트 보기

01
ML 패러다임을 볼 때 첫 질문은 단순합니다. 이 문제에는 정답이 있는가, 아니면 보상이 있는가입니다. 정답 레이블이 있으면 지도학습으로 출발하고, 정답 없이 구조를 찾으면 비지도학습을 봅니다. 데이터 자체에서 레이블을 뽑으면 자기지도학습이고, 행동의 결과로 보상을 받으면 강화학습입니다. 이 구분은 이름 맞히기가 아니라 모델, 데이터, 비용을 처음부터 다르게 설계하게 만드는 출발점입니다만, 특히 LLM에서는 여러 패러다임이 한 모델 안에 섞입니다.
02
학습 신호의 역사는 레이블 비용의 한계를 넘는 과정으로 볼 수 있습니다. 고전적인 supervised 방식은 사람이 만든 정답이 필요했지만, ImageNet 원 계획처럼 50K synset과 1K 이미지 조합은 비용과 품질 관리 한계에 부딪혔습니다. 인터넷 텍스트처럼 수조 토큰 규모에서는 사람이 하나하나 라벨링하는 모델이 자릿수로 불가능합니다. 그래서 next-token prediction이나 masked language modeling처럼 레이블을 데이터 자체에서 자동 추출하는 자기지도가 LLM pretraining의 전제가 되었습니다.
03
지도학습은 정답 레이블이 있는 input, target 쌍으로 학습합니다. 분류처럼 target이 discrete일 수도 있고, 회귀처럼 continuous일 수도 있습니다. LLM에서는 instruction tuning, 즉 SFT가 여기에 해당하며, 질문과 답변 또는 지시와 응답 쌍을 만들어 학습합니다. 반대로 비지도학습은 정답 없이 데이터의 구조, 군집, 분포, 차원을 찾습니다. k-means, PCA, Isolation Forest가 여기에 들어가고, LLM에서는 주 학습법이라기보다 임베딩 후 군집화나 검색 같은 사후 처리에 더 가깝습니다.
04
강화학습은 환경과 상호작용하며 보상을 최대화하는 정책을 학습합니다. 보상이 즉시 오지 않는 sparse reward와 탐험-활용 trade-off가 핵심 난점입니다. LLM에서는 RLHF가 대표적입니다. 보상 모델이 사람 선호를 학습하고, PPO로 LLM을 그 보상에 맞게 fine-tune합니다. DPO는 RL 단계 없이 closed-form preference loss로 비슷한 정렬 효과를 내기 때문에 비용과 구현 단순성에서 많이 채택되지만, 코드와 수학 벤치에서는 PPO가 여전히 우위라는 보고도 있습니다.
05
RLHF와 DPO에서 중요한 손잡이는 reference model과의 KL divergence 제약, 그리고 β 파라미터입니다. β가 작으면 reward hacking이나 OOD exploit이 커질 수 있고, β가 크면 reference에서 거의 움직이지 않아 alignment 지표 개선이 작아집니다. 하지만 KL 페널티 자체가 reward hacking의 완전한 해결책은 아닙니다. Gao et al. 2022는 KL 페널티가 proxy-gold reward 격차를 늘릴 수 있다고 보고했고, NeurIPS 2024 Catastrophic Goodhart 논문도 KL이 0으로 수렴하면서 proxy reward가 발산하는 정책을 다룹니다.
06
DPO 이후의 기법들은 데이터와 인프라 비용을 줄이려는 방향으로 이어집니다. DPO는 paired preference 데이터가 필요하고, verbosity 증가나 OOD 응답 exploit, preference dataset 분포 shift에 민감합니다. KTO는 paired 데이터 없이 binary feedback만으로 학습 가능하게 하고, ORPO는 SFT와 preference를 단일 단계로 통합합니다. GRPO는 reward model 없이 그룹 안의 상대 advantage를 쓰며, DeepSeek-R1 reasoning 후학습 표준으로 언급됩니다. reasoning 모델은 RLVR, 즉 verifiable reward를 쓰는 방향으로 이동 중입니다.
07
운영 비용은 pretraining, fine-tuning, inference를 분리해야 보입니다. Pretraining은 모델 하나를 출시할 때 드는 고정 큰 비용이고, fine-tuning은 작업이나 도메인 단위의 중간 일회성 비용이며, inference는 매 호출마다 붙는 비용입니다. 선택 기준도 여기서 나옵니다. 새 지식이나 자주 변하는 정보는 RAG가 우선이고, 행동, 톤, 포맷, 스타일 변경은 fine-tune이 맞습니다. 여러 단계 결합과 도구 호출은 prompt와 agent 오케스트레이션으로 보는 것이 문서의 결정 프레임입니다.
08
Fine-tune 방식은 데이터 양과 변동성으로 다시 갈립니다. 데이터가 1K보다 적고 자주 바뀌면 결국 prompt와 RAG로 회피하는 쪽이 낫습니다. 데이터가 1K에서 100K 사이이고 안정적이면 LoRA fine-tune이 후보가 되고, 100K를 넘고 도메인이 크면 full SFT가 후보가 됩니다. 지속 업데이트가 필요하면 재학습 비용을 피하기 위해 RAG를 우선합니다. 이 판단은 LLM 운영자가 비용을 자릿수 단위로 나눠 생각하게 해 줍니다.
09
작업이 정해지면 손실 함수는 대체로 따라옵니다. 이진 분류는 Binary cross-entropy, 다중 분류와 LLM은 Cross-entropy, 회귀는 MSE, MAE, Huber가 표준입니다. 순위와 검색에는 Triplet loss나 contrastive loss가 쓰이고, 임베딩 학습에는 InfoNCE가 쓰입니다. RLHF의 보상 모델은 Pairwise preference loss를 쓰며, DPO는 RL 없이 Direct preference loss를 씁니다. 손실이 무엇을 틀렸다고 볼지 정하면, 옵티마이저는 그 기준으로 가중치를 어떻게 움직일지 결정합니다.
10
NN과 LLM 시대의 표준 옵티마이저는 AdamW입니다. SGD는 단순하고 작은 모델이나 convex 문제에서 장점이 있을 수 있지만, LLM에서는 일관되게 AdamW에 열등하다는 Kempner Institute 2025 벤치가 언급됩니다. 학습률 schedule도 중요합니다. Cosine decay는 GPT-3 시대부터 LLM 표준이고, WSD는 warmup, stable, decay로 나뉘며 Llama 3 같은 최근 큰 모델에서 채택됩니다. 특히 warmup은 큰 batch size와 LLM 학습에서 안정성을 잡는 핵심 장치입니다.
11
Batch와 gradient는 학습 안정성의 현장 신호입니다. Batch size가 크면 gradient가 안정적이고 throughput이 좋아지지만 메모리가 비싸집니다. 메모리가 부족하면 micro-batch를 여러 번 forward와 backward 한 뒤 한 번 update하는 gradient accumulation으로 큰 effective batch를 흉내 냅니다. Gradient clipping은 gradient norm이 임계치를 넘으면 비례 축소해 exploding gradient를 막고, LLM 학습에서는 거의 필수로 다뤄집니다. Mixed precision은 메모리와 속도에 유리하지만 fp16 overflow 위험 때문에 loss scaling이나 bf16이 함께 고려됩니다.
12
운영 단계에서 자주 보이는 조용한 실패는 distribution shift입니다. 학습 분포와 운영 분포가 달라지면 성능이 크게 떨어질 수 있습니다. Covariate shift는 입력 X 분포가 바뀌는 경우이고, label shift는 출력 Y 분포가 바뀌는 경우입니다. Concept drift는 같은 입력에 대한 정답 관계 자체가 시간에 따라 바뀌는 경우입니다. 대응은 입력 분포 모니터링, 모델 confidence와 entropy 기반 거부, continuous learning, periodic re-training, domain adaptation으로 정리됩니다. 손실 NaN이나 Inf는 gradient explosion 신호로 보고 clipping 임계치, learning rate, warmup을 점검합니다.

같은 레이어

L11에서 이어 듣기

원본 문서: content/topics/L11/ml-paradigms-basics.md
오디오 파일: /podcasts/l11-ml-paradigms-basics.mp3