콘텐츠로 이동

Scaling Laws와 Pre-training

분류: Layer 11 - AI 기초 & 머신러닝 | 선수지식: L11-30 (ML 패러다임), L11-40 (신경망), L11-50 (트랜스포머)

Scaling Laws와 Pre-training — Chinchilla, Compute, Distributed

섹션 제목: “Scaling Laws와 Pre-training — Chinchilla, Compute, Distributed”

Scaling laws는 모델 크기 · 데이터 양 · 연산량이 모델 품질에 미치는 영향을 수식으로 정리한 경험 법칙이며, pre-training은 이 법칙에 따라 trillion 토큰 규모로 모델을 처음부터 학습하는 단계다.

  • 모델 크기 결정의 토대: 7B/13B/70B/405B 중 무엇을 만들지 (또는 사용할지)의 근거
  • “왜 LLM은 이렇게 비싼가”의 답: pre-training compute가 학습 비용의 99% 이상
  • Chinchilla 비율 직관: 모델 크기를 늘리려면 데이터도 같이 늘려야 (compute-optimal)
  • LLM 시장 가격 변화 이해: 같은 품질을 더 작은 active 모델로 — 추론 비용 절감의 출처
  • Reasoning 모델 시대 전환: train-time compute → test-time compute 패러다임 이동

3.0 Lineage — “Bigger is Better” 직감의 정량적 한계와 Scaling Laws의 등장

섹션 제목: “3.0 Lineage — “Bigger is Better” 직감의 정량적 한계와 Scaling Laws의 등장”

Scaling laws 이전(~2019)에는 “모델을 키우면 좋아진다”는 정성적 합의만 있었고, 얼마나 키울지·데이터는 얼마나 부어야 할지를 결정할 정량 모델이 없었다. 그 부재의 비용:

  • GPT-3 175B (2020)는 약 1.7 tokens/parameter로 학습됨 — Chinchilla compute-optimal(D≈20·N)의 약 1/12 수준 undertrained. 같은 compute(약 3.85e24 FLOPs)로 학습한 Chinchilla 70B + 1.4T tokens가 GPT-3·Jurassic-1·Megatron-Turing NLG를 광범위 벤치마크에서 일관 우위 (Hoffmann 2022). 즉 compute의 상당 부분을 N 키우는 데 쏟고 D는 거의 그대로 둔 결정이 사후적으로 자원 낭비.
  • Gopher 280B (2021)도 300B tokens로 동일 함정. “큰 게 낫다” 직감으로 N을 4배 키웠는데 D를 비례시키지 않아 70B Chinchilla에 밀림.

Kaplan et al. 2020(arXiv:2001.08361)이 처음 power law를 정량화했으나 두 가지 편향이 결론을 시대 역행으로 이끌었다:

  • non-embedding 파라미터로 N 측정 (작은 모델에서 embedding 비중이 커 N 과소평가)
  • 작은 스케일(≤1B)에서 fitN_optimal ∝ C^0.73 (“compute가 한정이면 N 우선” 권장)

Chinchilla(Hoffmann 2022) 가 total parameter + 70M~16B의 400+ run sweep으로 재측정 → N_optimal ∝ C^0.50, 즉 D ≈ 20·N. Pearce & Song 2024(arXiv:2406.12907)은 Kaplan의 0.73이 위 두 측정 편향에서 기인했음을 시뮬레이션으로 재현해 Chinchilla의 0.50을 확정.

해결 메커니즘: power law fit으로 (N, D, C) 사이 trade-off가 닫힌 형태로 추정됨 → pretraining이 직감 작업에서 자원 할당 최적화 문제로 전환. 이 fit 없이는 §3.3 inference-optimal(LLaMA가 Chinchilla 비율을 100배 넘기는 결정), §3.9 비용 산식($60M vs $5.6M의 차이를 압축할 차원), §3.12 운영 깨짐 조건 모두 근거가 사라진다.

frontmatter lineage_oneliner(“power law 관계 발견으로 trillion-token 사전학습이 경제적으로 가능”) 의 실체가 바로 이 정량화.

OpenAI Kaplan et al.(2020)이 처음 발견한 power law:

Loss ≈ A · N^(-α) + B · D^(-β) + C · C^(-γ) + irreducible
N: parameters
D: tokens
C: compute (FLOPs)
α, β, γ ≈ 0.05~0.1 (작은 지수)
  • Loss는 parameters·data·compute 모두에서 power law로 줄어든다
  • 충분히 큰 model + 충분한 data가 있으면 compute가 한정인 시나리오
  • 결론(Kaplan): compute가 제한이면 모델 크기를 키우고 데이터는 적당히 (큰 모델 + 적은 데이터 = compute-optimal)

DeepMind Hoffmann et al.이 Kaplan을 재검증해 다른 결론.

  • Compute-optimal ratio: parameters N에 대해 데이터 D ≈ 20 × N 토큰 (Hoffmann 2022 Approach 3 fit. Approach 1·2는 11~25 사이 분산. Besiroglu 2024 재현은 ~22)
  • 결론(Chinchilla): compute가 제한이면 모델 크기와 데이터를 같이 키워야 (균형)
  • 검증: Chinchilla 70B(1.4T tokens) > Gopher 280B(300B tokens) — 같은 compute로 더 작은 모델 + 더 많은 데이터가 우위
FLOPs ≈ 6 × N × D
(forward pass = 2ND, backward = 4ND, 합 6ND)

→ N과 D를 동시에 늘리려면 compute는 N·D만큼 증가.

큰 모델이 작은 모델에는 없는 능력을 갑자기 보이는 현상.

  • Wei et al. 2022 (arXiv:2206.07682): “phase transition”으로 emergent. 일정 크기 이상에서 갑자기 능력 발현
  • Schaeffer et al. 2023 (NeurIPS, “Are Emergent Abilities a Mirage?”, arXiv:2304.15004): 평가 metric 선택의 artefact일 수 있음. 부드러운 metric으로 보면 점진적 개선

운영 시사: “작은 모델로 충분한가”의 판단이 작업·metric에 따라 갈라진다. 단순 분류는 7B로 충분하지만 multi-step reasoning은 더 큰 모델 필요한 영역이 분명히 존재.

3.3 Inference-Optimal Scaling (LLaMA 시대)

섹션 제목: “3.3 Inference-Optimal Scaling (LLaMA 시대)”

Chinchilla는 학습 compute 최적화. 그러나 모델은 학습 후 수십억 번 추론된다 — inference compute가 누적되면 큰 모델이 손해.

  • LLaMA 1(2023): 7B/13B/33B/65B를 1~1.4T tokens로 (Chinchilla보다 많이)
  • LLaMA 3(2024): 8B을 15T tokens로 학습 — Chinchilla 비율(160B)의 약 100배
  • 이유: 작은 모델에 데이터를 더 많이 부어 품질을 끌어올리고 inference 비용을 절감
  • trade-off: 학습 compute는 sub-optimal, inference compute는 optimal

이것이 “왜 7B 모델이 GPT-3.5에 가깝게 좋아졌는가”의 출처.

언제 inference-optimal 전략이 깨지나 (Inversion):

  • 호출량이 적은 경우(누적 inference < ~수십억 tokens): over-train으로 추가 지출한 학습 compute를 누적 추론 절감으로 회수 못함. 손익분기 직관: (extra_train_FLOPs) × $/FLOP < (active_N × monthly_tokens × months_in_service) × inf_$/FLOP 가 성립할 때만 over-train 가치. Llama 3 8B의 15T 토큰(Chinchilla 대비 100배)은 모델이 수개월간 글로벌 규모 호출을 받는다는 전제에서만 정당화.
  • 모델 deprecate 주기가 짧을 때(< 6개월): 후속 모델로 교체되면 누적 inference 분모가 작아 over-train 비용이 sunk cost. 빠르게 갱신되는 도메인 모델은 Chinchilla 20:1로 회귀가 안전.
  • Silent failure: “작은 모델에 데이터를 더 부으면 항상 좋아진다”는 일반화. 데이터 품질·다양성이 부족한 상태에서 D만 키우면 eval perplexity는 감소하는데 downstream(MMLU·HumanEval) 점수는 정체. 감지 시그널: eval_loss는 step별 단조 감소인데 task-eval 격차(eval improvement % − downstream improvement %)가 5%p+로 벌어져 ≥10k step 지속. 대응: §3.8 데이터 큐레이션(중복 제거·mixture 비율) 점검을 D 증량보다 먼저.

처음부터 학습하는 흐름:

1. 데이터 수집 (Common Crawl, C4, RefinedWeb, FineWeb, ...)
2. 필터링·중복 제거 (품질 분류기, MinHash)
3. Tokenization (BPE, sentencepiece) — L11-70
4. 데이터 mixture (web/code/수학/다국어 비율)
5. 분산 학습 (수천 GPU)
6. checkpoint 저장 (수천억 step 중 자주)
7. evaluation (perplexity, downstream tasks) — L11-80
8. (선택) post-training (SFT/RLHF/DPO) — L11-90

데이터 단계가 전체 노력의 50% 이상 (FineWeb, RedPajama, DCLM 등 공개 데이터셋이 출시·갱신되는 이유).

3.5 Distributed Training — 3D Parallelism

섹션 제목: “3.5 Distributed Training — 3D Parallelism”

수백~수천 GPU에 학습을 분산. 세 축의 병렬화를 조합.

종류분할 단위통신 패턴효과
Data parallelbatchgradient all-reduce가장 단순. 메모리는 그대로
Tensor parallellayer 안 weight 행렬activation all-reduce메모리 분산. 통신 자주
Pipeline parallellayer 사이activation point-to-point메모리·통신 절감. bubble 손실
Context parallelsequence (seq_len)attention 분산매우 long-context 가능
Expert parallelMoE expertexpert 사이 routingMoE 모델 전용

3D parallelism = data + tensor + pipeline. Megatron-LM·DeepSpeed·NeMo가 대표 프레임워크.

같은 패턴이 분산 DB sharding에서 작동한다: data parallel ↔ row 단위 horizontal sharding(Vitess, Citus), tensor parallel ↔ column/wide-row 분할(HBase column family, columnar store), pipeline parallel ↔ functional partitioning(service mesh의 stage 분리). 같은 3개 축에 같은 trade-off — “단순하지만 메모리 그대로 / 메모리 분산하지만 통신 자주 / 통신 절감하지만 bubble” — 가 작동한다. 그래서 RDB sharding 키 설계 경험이 tensor parallel 분할 결정(어느 attention head를 어느 GPU에 두나)으로 그대로 전이된다. §3.14 일반 매핑 표가 이 isomorphism을 다른 시스템(CDN, checkpoint, snapshot)까지 확장한다.

PyTorch FSDP(Fully Sharded Data Parallel) = ZeRO Stage 3에 해당.

Stage분산 대상메모리 절감통신 비용
ZeRO-1optimizer state4× ↓data parallel과 같음
ZeRO-2+ gradients8× ↓같음
ZeRO-3+ parameters (FSDP/FSDP2)N_d배 ↓ (GPU 수 비례)통신 ≤ 1.5×

LLaMA 3 405B 같은 모델은 단일 GPU 메모리에 안 들어가 FSDP/ZeRO-3 + tensor parallel + pipeline parallel 조합 필수.

대규모 pre-training에서 자주 만나는 실패 모드.

  • Loss spike (PaLM·OPT-175B·GLM-130B에서 흔함): batch 안의 outlier가 gradient explosion 유발 → 직전 checkpoint로 rollback이 표준 관행
  • Llama 3는 안정적: tech report에 “few loss spikes, no interventions required”
  • 대응 기법:
    • gradient clipping (norm 1.0)
    • skip-connection scaling (deeper transformer 안정화, 출력 projection을 1/√(2L)로)
    • learning rate warmup + cosine/WSD decay
    • bf16 (fp16의 overflow 회피)
    • mid-training learning rate 변경 (Llama 3는 학습 후반 LR↓)
  • μP (Maximal Update Parametrization, Yang & Hu 2022): hyperparameter를 작은 proxy 모델에서 tune한 뒤 큰 모델로 zero-shot 전이. pretraining sweep 비용 절감의 표준 도구
  • Repeated data scaling (Muennighoff et al. 2023, arXiv:2305.16264): 데이터 부족 시 4 epoch까지는 fresh data와 거의 동등. 한국어·도메인 등 데이터 희소 시나리오에 직접 적용

데이터 품질이 모델 품질의 50% 이상 결정.

  • 중복 제거: MinHash + LSH로 fuzzy duplicate 제거. 학습 데이터의 30~70%가 중복인 경우 흔함
  • 품질 필터링: perplexity 기반 filter, classifier(WikiText 같은 좋은 데이터로 학습), heuristic (글 길이·반복 비율)
  • 데이터 mixture: web 70% + code 15% + 수학 5% + 다국어 10% 같은 비율 결정
  • 공개 데이터셋: Common Crawl, C4, RefinedWeb, RedPajama, FineWeb(2024), DCLM(Apple, 2024)
  • 법적 문제: copyright 분쟁, data licensing — 운영 시 무시 못 함
학습 FLOPs ≈ 6 × N × D
GPU 시간 = FLOPs / (peak_FLOPS × MFU)
MFU (Model FLOPs Utilization) = 30~55% (대규모 LLM 학습 실측)
Llama 3 405B 예시:
- N = 405e9
- D = 15.6e12 tokens
- FLOPs ≈ 3.8e25
- H100 BF16 peak = 1979 TFLOPs/s
- MFU 40% 이론 → ~12M H100-hours
- 실 사용량(Llama 3 paper 보고): **~30.84M H100-hours** (eval·downtime·restart 포함)
- 시간당 $2 가정 → **~$60M** 실측 비용

→ pre-training은 단일 모델당 $50~100M 자릿수. 대형 lab(Anthropic·OpenAI·Meta·Google)만 가능 — 했었다. DeepSeek-V3 (2024-12)는 671B-MoE를 14.8T tokens로 $5.6M(2.788M H800-hours)에 학습 보고 — MoE + FP8 + DualPipe로 frontier 비용을 ~10× 절감. open-weight 모델이 frontier에 근접한 시대로의 전환점. 다만 GPT-4o 같은 closed frontier는 여전히 더 큰 compute 추정.

운영 입장에서는 “기업 자체 pretraining은 거의 비현실적, fine-tuning 또는 사용이 표준”이지만 trend는 빠르게 변하는 중.

3.10 Continual Pre-training과 도메인 적응

섹션 제목: “3.10 Continual Pre-training과 도메인 적응”
  • 목적: 의학·법률·코드 등 도메인 데이터를 추가로 학습 (full pretraining의 1~10%)
  • 위험: catastrophic forgetting (일반 능력 손실) — replay buffer로 일반 데이터 mix
  • 대안: domain-specific fine-tune (작은 데이터로) 또는 RAG가 더 싼 경우 多
  • 상용 사례: BloombergGPT(금융), Med-PaLM, Code Llama (Llama 2 → 코드 continual pretrain)

3.11 Test-Time Compute — 새 Scaling 축

섹션 제목: “3.11 Test-Time Compute — 새 Scaling 축”

전통적 scaling = train-time compute. 2024년부터 등장한 새 패러다임:

  • Reasoning 모델: o1(2024), DeepSeek-R1(2025) — inference 시 chain-of-thought를 길게 생성해 더 많은 compute 사용
  • scaling 축이 추가: train compute뿐 아니라 test-time compute도 품질을 결정
  • 운영 영향: reasoning 모델은 동일 품질에 대해 train compute는 적게, inference 비용은 크게 늘 수 있음
  • Snell et al. (2024, arXiv:2408.03314): FLOPs-matched 비교에서 test-time scaling이 14× 큰 모델을 outperform할 수 있는 영역 존재 (base 능력의 medium 난이도 한정)

→ 2026년 LLM 운영자는 2개의 compute budget(train, test-time)을 함께 고려해야 한다. (L12-70 LLM 비용 토픽과 직결)

3.12 깨지는 조건 정량 표 (운영 결정용)

섹션 제목: “3.12 깨지는 조건 정량 표 (운영 결정용)”
기법효과 발휘 범위깨지는 조건
Chinchilla 20:1compute-optimal pretraininginference cost 누적 시 (LLaMA 3 100:1 권장)
3D parallelism70B+ 모델, 1000+ GPU<10B + <8 GPU에선 통신 오버헤드만
FSDP (ZeRO-3)activation > 80GB 작업작은 모델·single GPU엔 불필요
Pipeline parallel깊은 모델 (>50 layer)얕은 모델은 bubble 손실만 큼
Tensor parallelwide attention headNVLink 없는 환경(slow inter-GPU)에선 통신 병목
Continual pretraining5GB+ 도메인 데이터 + 안정자주 갱신·5GB 미만 → RAG 권장
Loss spike rollbackPaLM·OPT·GLM-130B 시대Llama 3 405B는 안정적이라 거의 불필요
Test-time computereasoning 작업단순 분류·요약은 train compute가 더 효율

3.13 Silent Failure — 학습은 진행되는데 downstream 폭락

섹션 제목: “3.13 Silent Failure — 학습은 진행되는데 downstream 폭락”

운영자가 자주 놓치는 silent degradation.

증상정량 시그널원인복구
Train loss는 OK, eval 폭락val loss > train loss × 2배overfit 또는 distribution shiftearly stopping, eval 데이터 점검
다국어 능력 폭락MMLU 한국어 점수 50%+ ↓continual pretraining replay 부족replay 비율 30%+, LoRA 사용
Catastrophic forgetting일반 능력 (HumanEval) 30%+ ↓full fine-tuneLoRA로 base 보존, replay buffer
Loss spike 빈발시간당 5+ NaNgradient clipping 부족clip↓(1.0→0.5), bf16 전환, warmup↑
MFU 폭락30%↓ → 20% 미만통신 병목tensor parallel 줄임, FlashAttention 점검
Throughput 들쑥날쑥step 시간 std/mean > 0.3gradient checkpointing 불균형selective checkpointing

3.14 Scaling Laws의 일반 매핑 (Transferable Pattern)

섹션 제목: “3.14 Scaling Laws의 일반 매핑 (Transferable Pattern)”

scaling law의 핵심 — “compute·data·parameters 사이 power law” — 는 다른 시스템 비용 모델과도 같은 패턴.

Scaling Laws 구성요소일반 시스템 매핑
FLOPs ≈ 6·N·Dsystem cost ≈ unit_cost × resource × throughput
Compute-optimal ratio데이터센터 CPU·GPU·메모리 비율 최적화
Inference-optimal (LLaMA)한 번 만들고 N번 쓰는 시스템 (CDN, 인덱스)
3D parallelism분산 시스템의 sharding(data·schema·service)
Loss spike rollback비행기 기록기·DB checkpoint·시스템 snapshot
Test-time compute scalinginference vs training 자원 분배 (caching·precompute)

일반 공식: “성능은 자원의 power law”이고, optimal point는 누적 사용량까지 반영해 결정. NN scaling이 특별한 게 아니라 자원 최적화의 한 사례.

  • 모델 선택: 7B vs 70B vs MoE vs reasoning 모델
  • pretraining 비용 견적 (자체 학습 시)
  • continual pretraining: 도메인 적응 vs RAG vs fine-tune 결정
  • 분산 학습 인프라 설계 (cloud GPU 견적)
  • compute budget 협상 (B2B LLM 도입 시)

운영 시나리오 — 모델 선택 결정 (예시)

섹션 제목: “운영 시나리오 — 모델 선택 결정 (예시)”
상황: 한국어 챗봇 서비스, 월 1M 호출, 도메인 30%
선택지:
A. GPT-4o API: $0.0025/요청 = 월 $2500
B. Llama-3-8B + 자체 fine-tune (continual): 학습 ~$30, H100 호스팅 ~$2k/월
C. DeepSeek-V3 API (open frontier): API 1/2 비용
D. Qwen3-7B + LoRA + Unsloth (RTX 4090): 학습 ~$15, 호스팅 ~$200/월
결정 프레임:
- 호출량 1M/월 → self-host 손익분기 가까움 (L12-70)
- inference-optimal 사고 (§3.3): 작은 모델 + LoRA가 ROI 큼
- DeepSeek-V3 효율 (§3.9): open frontier 진입했지만 latency·운영 부담
선택: D (Qwen3-7B + LoRA + 4090).
대안 비선택: A는 비용↑, B는 운영 부담↑, C는 latency 변동.
결과 (가상): 비용 90% ↓, P95 latency 800ms.

§3.3 inference-optimal + §3.9 DeepSeek-V3 + §3.12 깨지는 조건 + §3.13 silent failure 모두 적용.

플랫폼 엔지니어가 LLM 운영할 때 scaling laws 직관이 다음에 도움 된다.

  • 모델 가격 직관: GPT-4 Turbo = LLaMA 3 405B + 비밀 sauce. 가격 차이의 출처 일부가 pretraining compute에서 온다는 것을 알면 협상·교체 결정에 유리
  • 자체 학습 vs API vs Open-weight 결정: 자체 pretraining은 $100M+, fine-tuning은 $1K~1M, API는 토큰당 $. 비교 기준이 같지 않음
  • continual pretraining vs RAG: 도메인 데이터가 5GB 이상이고 형식이 정형이면 continual + DPO, 아니면 RAG 우선
  • test-time compute: 같은 품질에 reasoning 모델 + 적은 모델 vs 큰 모델 + 짧은 응답. 비용 모델이 다름 (L12-70)
개념 A개념 B차이점
Kaplan scalingChinchilla scalingparameters 우선 vs parameters·data 균형. Chinchilla가 현재 합의
Compute-optimalInference-optimal학습 compute 최소 vs 누적 추론 compute 최소. LLaMA는 후자
Pre-trainingContinual pre-trainingscratch 학습 vs 도메인 데이터 추가
Continual pretrainingFine-tuning (SFT)새 도메인 지식 학습 vs 행동·포맷 적응. 데이터·비용 자릿수 차이
Data parallelTensor parallelbatch 분할 vs layer 안 weight 분할. 통신 패턴 다름
ZeRO-1/2/3optimizer state / +grad / +param 분산. 메모리 vs 통신 trade-off
MFUHFUmodel FLOPs vs hardware FLOPs 활용률. MFU < HFU
Train-time computeTest-time computepretraining vs inference의 reasoning. Reasoning 모델이 후자 활용
  • Kaplan과 Chinchilla scaling laws의 결론 차이를 설명할 수 있다 (parameters 우선 vs 균형)
  • Chinchilla 비율 (D ≈ 20·N)을 외우고, LLaMA 3가 왜 이를 한참 넘긴지 설명할 수 있다
  • FLOPs ≈ 6·N·D 식으로 임의 모델의 pretraining compute를 추정할 수 있다
  • 3D parallelism의 세 축(data/tensor/pipeline)을 메모리·통신·bubble 측면에서 비교할 수 있다
  • ZeRO-1/2/3의 메모리 절감과 통신 비용 trade-off를 설명할 수 있다
  • Loss spike의 원인과 4가지 표준 대응(clipping, scaling, warmup, bf16)을 말할 수 있다
  • continual pretraining vs fine-tuning vs RAG의 결정 기준을 데이터 양·형식·비용으로 적용할 수 있다
  • test-time compute scaling이 LLM 운영 비용 모델을 어떻게 변화시키는지 설명할 수 있다
  • Scaling laws: Kaplan, Chinchilla, μP scaling, broken scaling laws, emergent abilities
  • 분산 학습: Megatron-LM, DeepSpeed, NeMo, FSDP, Tensor Parallelism, Pipeline Parallelism, Context Parallelism
  • 메모리: ZeRO-1/2/3, Activation Checkpointing, Selective Recomputation
  • 데이터: FineWeb, DCLM, RedPajama, RefinedWeb, MinHash, deduplication
  • 안정성: skip-init, μP, T-Fixup, learning rate warmup, gradient norm scaling
  • 비용: MFU, HFU, FLOPs accounting, GPU-hours
  • Test-time: chain-of-thought, self-consistency, tree-of-thoughts, o1-style scaling
  • Continual: replay, distillation, parameter-efficient continual learning
  • LLaMA-3-8B 학습 compute를 6·N·D로 직접 계산: N=8e9, D=15e12 → 7.2e23 FLOPs. H100 BF16 1979 TFLOPs · MFU 40% 가정으로 GPU-hours 추정
  • 같은 식으로 Mistral 7B(8T tokens), DeepSeek-V3(14.8T)의 학습 compute 비교
  • 자기 도메인 데이터 1B 토큰이 있다고 가정. Chinchilla compute-optimal 모델 크기는? (D/20 = 50M parameters — 매우 작은 모델)
  • 반대로, 7B 모델을 Chinchilla optimal로 학습하려면 140B tokens 필요. 현실에서 LLaMA 3는 15T tokens — 100배
  • PyTorch FSDP tutorial로 작은 모델(GPT-2 small)을 2 GPU에 분산. memory profile로 ZeRO-3 효과 확인
  • HuggingFace accelerate config로 data parallel vs FSDP 차이 체감
  • 가상 시나리오: 의학 도메인 5GB 텍스트가 있다. continual pretrain vs fine-tune vs RAG 중 무엇을 선택할지 비용·품질·업데이트 빈도 기준으로 의사결정 표 작성
  • compute 추정이 실제와 안 맞음 → MFU 가정 점검 (보통 30~50%이지만 모델·인프라마다 다름)
  • continual pretrain 후 일반 능력 폭락 → catastrophic forgetting. replay 비율↑(30~50% 일반 데이터 섞기) 또는 LoRA 변형으로 base 보존
  • FSDP 분산 후 학습 속도가 거의 안 빨라짐 → 통신 오버헤드. tensor parallel·pipeline parallel 추가 또는 batch size 조정
  1. Scaling laws는 모델 크기·데이터·연산량의 power law 관계를 기술한다 (Kaplan 2020, Chinchilla 2022).
  2. Chinchilla 비율 D ≈ 20·N이 compute-optimal이고, FLOPs ≈ 6·N·D 식이 학습 비용의 토대다.
  3. LLaMA 시리즈는 inference-optimal 전략으로 Chinchilla를 한참 넘는 데이터로 작은 모델을 학습 — 추론 비용 절감 효과.
  4. 3D parallelism(data/tensor/pipeline) + ZeRO/FSDP가 trillion 파라미터 학습의 표준 인프라다.
  5. 2024년부터 train-time + test-time compute 두 축 scaling이 새 패러다임 (reasoning 모델).

최종 수정: 2026-04-26