콘텐츠로 이동

Post-training과 Alignment의 운영 지도

base 모델을 실제 서비스에서 쓸 수 있는 모델로 만들기 위해 SFT, PEFT, DPO, RLHF, GRPO, RLVR가 어떤 역할을 하는지 설명한다. 비용, 데이터 품질, silent failure, fine-tune과 RAG와 prompt의 선택 기준까지 운영 관점에서 정리한다.

Layer
L11
Duration
길이 미정
Generated
2026. 5. 25. 오후 4:00:11

Script Companion

오디오와 함께 스크립트 보기

같은 레이어

L11에서 이어 듣기

  1. ML을 디버깅 가능한 시스템으로 보는 수학 토대 길이 미정
  2. 고전 ML로 읽는 현대 LLM 운영 길이 미정
  3. ML 패러다임을 나누는 학습 신호와 운영 판단 길이 미정
  4. 신경망과 역전파, LLM 운영의 기본 비용 모델 길이 미정
  5. 트랜스포머와 Attention의 운영 직관 길이 미정
  6. Scaling Laws와 Pre-training의 비용 감각 길이 미정
  7. 토크나이저와 임베딩의 운영 감각 길이 미정
  8. 모델 평가는 데이터 품질에서 시작된다 길이 미정