Scaling Laws와 Pre-training
분류: Layer 11 - AI 기초 & 머신러닝 | 선수지식: L11-30 (ML 패러다임), L11-40 (신경망), L11-50 (트랜스포머)
Scaling Laws와 Pre-training — Chinchilla, Compute, Distributed
섹션 제목: “Scaling Laws와 Pre-training — Chinchilla, Compute, Distributed”1. 한 줄 정의
섹션 제목: “1. 한 줄 정의”Scaling laws는 모델 크기 · 데이터 양 · 연산량이 모델 품질에 미치는 영향을 수식으로 정리한 경험 법칙이며, pre-training은 이 법칙에 따라 trillion 토큰 규모로 모델을 처음부터 학습하는 단계다.
2. 왜 중요한가
섹션 제목: “2. 왜 중요한가”- 모델 크기 결정의 토대: 7B/13B/70B/405B 중 무엇을 만들지 (또는 사용할지)의 근거
- “왜 LLM은 이렇게 비싼가”의 답: pre-training compute가 학습 비용의 99% 이상
- Chinchilla 비율 직관: 모델 크기를 늘리려면 데이터도 같이 늘려야 (compute-optimal)
- LLM 시장 가격 변화 이해: 같은 품질을 더 작은 active 모델로 — 추론 비용 절감의 출처
- Reasoning 모델 시대 전환: train-time compute → test-time compute 패러다임 이동
3. 핵심 개념
섹션 제목: “3. 핵심 개념”3.0 Lineage — “Bigger is Better” 직감의 정량적 한계와 Scaling Laws의 등장
섹션 제목: “3.0 Lineage — “Bigger is Better” 직감의 정량적 한계와 Scaling Laws의 등장”Scaling laws 이전(~2019)에는 “모델을 키우면 좋아진다”는 정성적 합의만 있었고, 얼마나 키울지·데이터는 얼마나 부어야 할지를 결정할 정량 모델이 없었다. 그 부재의 비용:
- GPT-3 175B (2020)는 약 1.7 tokens/parameter로 학습됨 — Chinchilla compute-optimal(D≈20·N)의 약 1/12 수준 undertrained. 같은 compute(약 3.85e24 FLOPs)로 학습한 Chinchilla 70B + 1.4T tokens가 GPT-3·Jurassic-1·Megatron-Turing NLG를 광범위 벤치마크에서 일관 우위 (Hoffmann 2022). 즉 compute의 상당 부분을 N 키우는 데 쏟고 D는 거의 그대로 둔 결정이 사후적으로 자원 낭비.
- Gopher 280B (2021)도 300B tokens로 동일 함정. “큰 게 낫다” 직감으로 N을 4배 키웠는데 D를 비례시키지 않아 70B Chinchilla에 밀림.
Kaplan et al. 2020(arXiv:2001.08361)이 처음 power law를 정량화했으나 두 가지 편향이 결론을 시대 역행으로 이끌었다:
- non-embedding 파라미터로 N 측정 (작은 모델에서 embedding 비중이 커 N 과소평가)
- 작은 스케일(≤1B)에서 fit →
N_optimal ∝ C^0.73(“compute가 한정이면 N 우선” 권장)
Chinchilla(Hoffmann 2022) 가 total parameter + 70M~16B의 400+ run sweep으로 재측정 → N_optimal ∝ C^0.50, 즉 D ≈ 20·N. Pearce & Song 2024(arXiv:2406.12907)은 Kaplan의 0.73이 위 두 측정 편향에서 기인했음을 시뮬레이션으로 재현해 Chinchilla의 0.50을 확정.
해결 메커니즘: power law fit으로 (N, D, C) 사이 trade-off가 닫힌 형태로 추정됨 → pretraining이 직감 작업에서 자원 할당 최적화 문제로 전환. 이 fit 없이는 §3.3 inference-optimal(LLaMA가 Chinchilla 비율을 100배 넘기는 결정), §3.9 비용 산식($60M vs $5.6M의 차이를 압축할 차원), §3.12 운영 깨짐 조건 모두 근거가 사라진다.
frontmatter lineage_oneliner(“power law 관계 발견으로 trillion-token 사전학습이 경제적으로 가능”) 의 실체가 바로 이 정량화.
3.1 Kaplan Scaling Laws (2020)
섹션 제목: “3.1 Kaplan Scaling Laws (2020)”OpenAI Kaplan et al.(2020)이 처음 발견한 power law:
Loss ≈ A · N^(-α) + B · D^(-β) + C · C^(-γ) + irreducible
N: parametersD: tokensC: compute (FLOPs)α, β, γ ≈ 0.05~0.1 (작은 지수)- Loss는 parameters·data·compute 모두에서 power law로 줄어든다
- 충분히 큰 model + 충분한 data가 있으면 compute가 한정인 시나리오
- 결론(Kaplan): compute가 제한이면 모델 크기를 키우고 데이터는 적당히 (큰 모델 + 적은 데이터 = compute-optimal)
3.2 Chinchilla Scaling Laws (2022)
섹션 제목: “3.2 Chinchilla Scaling Laws (2022)”DeepMind Hoffmann et al.이 Kaplan을 재검증해 다른 결론.
- Compute-optimal ratio: parameters N에 대해 데이터 D ≈ 20 × N 토큰 (Hoffmann 2022 Approach 3 fit. Approach 1·2는 11~25 사이 분산. Besiroglu 2024 재현은 ~22)
- 결론(Chinchilla): compute가 제한이면 모델 크기와 데이터를 같이 키워야 (균형)
- 검증: Chinchilla 70B(1.4T tokens) > Gopher 280B(300B tokens) — 같은 compute로 더 작은 모델 + 더 많은 데이터가 우위
Compute 식
섹션 제목: “Compute 식”FLOPs ≈ 6 × N × D
(forward pass = 2ND, backward = 4ND, 합 6ND)→ N과 D를 동시에 늘리려면 compute는 N·D만큼 증가.
Emergent Abilities — 논쟁
섹션 제목: “Emergent Abilities — 논쟁”큰 모델이 작은 모델에는 없는 능력을 갑자기 보이는 현상.
- Wei et al. 2022 (arXiv:2206.07682): “phase transition”으로 emergent. 일정 크기 이상에서 갑자기 능력 발현
- Schaeffer et al. 2023 (NeurIPS, “Are Emergent Abilities a Mirage?”, arXiv:2304.15004): 평가 metric 선택의 artefact일 수 있음. 부드러운 metric으로 보면 점진적 개선
운영 시사: “작은 모델로 충분한가”의 판단이 작업·metric에 따라 갈라진다. 단순 분류는 7B로 충분하지만 multi-step reasoning은 더 큰 모델 필요한 영역이 분명히 존재.
3.3 Inference-Optimal Scaling (LLaMA 시대)
섹션 제목: “3.3 Inference-Optimal Scaling (LLaMA 시대)”Chinchilla는 학습 compute 최적화. 그러나 모델은 학습 후 수십억 번 추론된다 — inference compute가 누적되면 큰 모델이 손해.
- LLaMA 1(2023): 7B/13B/33B/65B를 1~1.4T tokens로 (Chinchilla보다 많이)
- LLaMA 3(2024): 8B을 15T tokens로 학습 — Chinchilla 비율(160B)의 약 100배
- 이유: 작은 모델에 데이터를 더 많이 부어 품질을 끌어올리고 inference 비용을 절감
- trade-off: 학습 compute는 sub-optimal, inference compute는 optimal
이것이 “왜 7B 모델이 GPT-3.5에 가깝게 좋아졌는가”의 출처.
언제 inference-optimal 전략이 깨지나 (Inversion):
- 호출량이 적은 경우(누적 inference < ~수십억 tokens): over-train으로 추가 지출한 학습 compute를 누적 추론 절감으로 회수 못함. 손익분기 직관:
(extra_train_FLOPs) × $/FLOP < (active_N × monthly_tokens × months_in_service) × inf_$/FLOP가 성립할 때만 over-train 가치. Llama 3 8B의 15T 토큰(Chinchilla 대비 100배)은 모델이 수개월간 글로벌 규모 호출을 받는다는 전제에서만 정당화. - 모델 deprecate 주기가 짧을 때(< 6개월): 후속 모델로 교체되면 누적 inference 분모가 작아 over-train 비용이 sunk cost. 빠르게 갱신되는 도메인 모델은 Chinchilla 20:1로 회귀가 안전.
- Silent failure: “작은 모델에 데이터를 더 부으면 항상 좋아진다”는 일반화. 데이터 품질·다양성이 부족한 상태에서 D만 키우면 eval perplexity는 감소하는데 downstream(MMLU·HumanEval) 점수는 정체. 감지 시그널:
eval_loss는 step별 단조 감소인데 task-eval 격차(eval improvement % − downstream improvement %)가 5%p+로 벌어져 ≥10k step 지속. 대응: §3.8 데이터 큐레이션(중복 제거·mixture 비율) 점검을 D 증량보다 먼저.
3.4 Pre-training Pipeline
섹션 제목: “3.4 Pre-training Pipeline”처음부터 학습하는 흐름:
1. 데이터 수집 (Common Crawl, C4, RefinedWeb, FineWeb, ...)2. 필터링·중복 제거 (품질 분류기, MinHash)3. Tokenization (BPE, sentencepiece) — L11-704. 데이터 mixture (web/code/수학/다국어 비율)5. 분산 학습 (수천 GPU)6. checkpoint 저장 (수천억 step 중 자주)7. evaluation (perplexity, downstream tasks) — L11-808. (선택) post-training (SFT/RLHF/DPO) — L11-90데이터 단계가 전체 노력의 50% 이상 (FineWeb, RedPajama, DCLM 등 공개 데이터셋이 출시·갱신되는 이유).
3.5 Distributed Training — 3D Parallelism
섹션 제목: “3.5 Distributed Training — 3D Parallelism”수백~수천 GPU에 학습을 분산. 세 축의 병렬화를 조합.
| 종류 | 분할 단위 | 통신 패턴 | 효과 |
|---|---|---|---|
| Data parallel | batch | gradient all-reduce | 가장 단순. 메모리는 그대로 |
| Tensor parallel | layer 안 weight 행렬 | activation all-reduce | 메모리 분산. 통신 자주 |
| Pipeline parallel | layer 사이 | activation point-to-point | 메모리·통신 절감. bubble 손실 |
| Context parallel | sequence (seq_len) | attention 분산 | 매우 long-context 가능 |
| Expert parallel | MoE expert | expert 사이 routing | MoE 모델 전용 |
3D parallelism = data + tensor + pipeline. Megatron-LM·DeepSpeed·NeMo가 대표 프레임워크.
같은 패턴이 분산 DB sharding에서 작동한다: data parallel ↔ row 단위 horizontal sharding(Vitess, Citus), tensor parallel ↔ column/wide-row 분할(HBase column family, columnar store), pipeline parallel ↔ functional partitioning(service mesh의 stage 분리). 같은 3개 축에 같은 trade-off — “단순하지만 메모리 그대로 / 메모리 분산하지만 통신 자주 / 통신 절감하지만 bubble” — 가 작동한다. 그래서 RDB sharding 키 설계 경험이 tensor parallel 분할 결정(어느 attention head를 어느 GPU에 두나)으로 그대로 전이된다. §3.14 일반 매핑 표가 이 isomorphism을 다른 시스템(CDN, checkpoint, snapshot)까지 확장한다.
3.6 ZeRO / FSDP
섹션 제목: “3.6 ZeRO / FSDP”PyTorch FSDP(Fully Sharded Data Parallel) = ZeRO Stage 3에 해당.
| Stage | 분산 대상 | 메모리 절감 | 통신 비용 |
|---|---|---|---|
| ZeRO-1 | optimizer state | 4× ↓ | data parallel과 같음 |
| ZeRO-2 | + gradients | 8× ↓ | 같음 |
| ZeRO-3 | + parameters (FSDP/FSDP2) | N_d배 ↓ (GPU 수 비례) | 통신 ≤ 1.5× |
LLaMA 3 405B 같은 모델은 단일 GPU 메모리에 안 들어가 FSDP/ZeRO-3 + tensor parallel + pipeline parallel 조합 필수.
3.7 학습 안정성과 Loss Spike
섹션 제목: “3.7 학습 안정성과 Loss Spike”대규모 pre-training에서 자주 만나는 실패 모드.
- Loss spike (PaLM·OPT-175B·GLM-130B에서 흔함): batch 안의 outlier가 gradient explosion 유발 → 직전 checkpoint로 rollback이 표준 관행
- Llama 3는 안정적: tech report에 “few loss spikes, no interventions required”
- 대응 기법:
- gradient clipping (norm 1.0)
- skip-connection scaling (deeper transformer 안정화, 출력 projection을 1/√(2L)로)
- learning rate warmup + cosine/WSD decay
- bf16 (fp16의 overflow 회피)
- mid-training learning rate 변경 (Llama 3는 학습 후반 LR↓)
- μP (Maximal Update Parametrization, Yang & Hu 2022): hyperparameter를 작은 proxy 모델에서 tune한 뒤 큰 모델로 zero-shot 전이. pretraining sweep 비용 절감의 표준 도구
- Repeated data scaling (Muennighoff et al. 2023, arXiv:2305.16264): 데이터 부족 시 4 epoch까지는 fresh data와 거의 동등. 한국어·도메인 등 데이터 희소 시나리오에 직접 적용
3.8 데이터 큐레이션
섹션 제목: “3.8 데이터 큐레이션”데이터 품질이 모델 품질의 50% 이상 결정.
- 중복 제거: MinHash + LSH로 fuzzy duplicate 제거. 학습 데이터의 30~70%가 중복인 경우 흔함
- 품질 필터링: perplexity 기반 filter, classifier(WikiText 같은 좋은 데이터로 학습), heuristic (글 길이·반복 비율)
- 데이터 mixture: web 70% + code 15% + 수학 5% + 다국어 10% 같은 비율 결정
- 공개 데이터셋: Common Crawl, C4, RefinedWeb, RedPajama, FineWeb(2024), DCLM(Apple, 2024)
- 법적 문제: copyright 분쟁, data licensing — 운영 시 무시 못 함
3.9 Compute 비용 산식
섹션 제목: “3.9 Compute 비용 산식”학습 FLOPs ≈ 6 × N × D
GPU 시간 = FLOPs / (peak_FLOPS × MFU)
MFU (Model FLOPs Utilization) = 30~55% (대규모 LLM 학습 실측)
Llama 3 405B 예시:- N = 405e9- D = 15.6e12 tokens- FLOPs ≈ 3.8e25- H100 BF16 peak = 1979 TFLOPs/s- MFU 40% 이론 → ~12M H100-hours- 실 사용량(Llama 3 paper 보고): **~30.84M H100-hours** (eval·downtime·restart 포함)- 시간당 $2 가정 → **~$60M** 실측 비용→ pre-training은 단일 모델당 $50~100M 자릿수. 대형 lab(Anthropic·OpenAI·Meta·Google)만 가능 — 했었다. DeepSeek-V3 (2024-12)는 671B-MoE를 14.8T tokens로 $5.6M(2.788M H800-hours)에 학습 보고 — MoE + FP8 + DualPipe로 frontier 비용을 ~10× 절감. open-weight 모델이 frontier에 근접한 시대로의 전환점. 다만 GPT-4o 같은 closed frontier는 여전히 더 큰 compute 추정.
운영 입장에서는 “기업 자체 pretraining은 거의 비현실적, fine-tuning 또는 사용이 표준”이지만 trend는 빠르게 변하는 중.
3.10 Continual Pre-training과 도메인 적응
섹션 제목: “3.10 Continual Pre-training과 도메인 적응”- 목적: 의학·법률·코드 등 도메인 데이터를 추가로 학습 (full pretraining의 1~10%)
- 위험: catastrophic forgetting (일반 능력 손실) — replay buffer로 일반 데이터 mix
- 대안: domain-specific fine-tune (작은 데이터로) 또는 RAG가 더 싼 경우 多
- 상용 사례: BloombergGPT(금융), Med-PaLM, Code Llama (Llama 2 → 코드 continual pretrain)
3.11 Test-Time Compute — 새 Scaling 축
섹션 제목: “3.11 Test-Time Compute — 새 Scaling 축”전통적 scaling = train-time compute. 2024년부터 등장한 새 패러다임:
- Reasoning 모델: o1(2024), DeepSeek-R1(2025) — inference 시 chain-of-thought를 길게 생성해 더 많은 compute 사용
- scaling 축이 추가: train compute뿐 아니라 test-time compute도 품질을 결정
- 운영 영향: reasoning 모델은 동일 품질에 대해 train compute는 적게, inference 비용은 크게 늘 수 있음
- Snell et al. (2024, arXiv:2408.03314): FLOPs-matched 비교에서 test-time scaling이 14× 큰 모델을 outperform할 수 있는 영역 존재 (base 능력의 medium 난이도 한정)
→ 2026년 LLM 운영자는 2개의 compute budget(train, test-time)을 함께 고려해야 한다. (L12-70 LLM 비용 토픽과 직결)
3.12 깨지는 조건 정량 표 (운영 결정용)
섹션 제목: “3.12 깨지는 조건 정량 표 (운영 결정용)”| 기법 | 효과 발휘 범위 | 깨지는 조건 |
|---|---|---|
| Chinchilla 20:1 | compute-optimal pretraining | inference cost 누적 시 (LLaMA 3 100:1 권장) |
| 3D parallelism | 70B+ 모델, 1000+ GPU | <10B + <8 GPU에선 통신 오버헤드만 |
| FSDP (ZeRO-3) | activation > 80GB 작업 | 작은 모델·single GPU엔 불필요 |
| Pipeline parallel | 깊은 모델 (>50 layer) | 얕은 모델은 bubble 손실만 큼 |
| Tensor parallel | wide attention head | NVLink 없는 환경(slow inter-GPU)에선 통신 병목 |
| Continual pretraining | 5GB+ 도메인 데이터 + 안정 | 자주 갱신·5GB 미만 → RAG 권장 |
| Loss spike rollback | PaLM·OPT·GLM-130B 시대 | Llama 3 405B는 안정적이라 거의 불필요 |
| Test-time compute | reasoning 작업 | 단순 분류·요약은 train compute가 더 효율 |
3.13 Silent Failure — 학습은 진행되는데 downstream 폭락
섹션 제목: “3.13 Silent Failure — 학습은 진행되는데 downstream 폭락”운영자가 자주 놓치는 silent degradation.
| 증상 | 정량 시그널 | 원인 | 복구 |
|---|---|---|---|
| Train loss는 OK, eval 폭락 | val loss > train loss × 2배 | overfit 또는 distribution shift | early stopping, eval 데이터 점검 |
| 다국어 능력 폭락 | MMLU 한국어 점수 50%+ ↓ | continual pretraining replay 부족 | replay 비율 30%+, LoRA 사용 |
| Catastrophic forgetting | 일반 능력 (HumanEval) 30%+ ↓ | full fine-tune | LoRA로 base 보존, replay buffer |
| Loss spike 빈발 | 시간당 5+ NaN | gradient clipping 부족 | clip↓(1.0→0.5), bf16 전환, warmup↑ |
| MFU 폭락 | 30%↓ → 20% 미만 | 통신 병목 | tensor parallel 줄임, FlashAttention 점검 |
| Throughput 들쑥날쑥 | step 시간 std/mean > 0.3 | gradient checkpointing 불균형 | selective checkpointing |
3.14 Scaling Laws의 일반 매핑 (Transferable Pattern)
섹션 제목: “3.14 Scaling Laws의 일반 매핑 (Transferable Pattern)”scaling law의 핵심 — “compute·data·parameters 사이 power law” — 는 다른 시스템 비용 모델과도 같은 패턴.
| Scaling Laws 구성요소 | 일반 시스템 매핑 |
|---|---|
| FLOPs ≈ 6·N·D | system cost ≈ unit_cost × resource × throughput |
| Compute-optimal ratio | 데이터센터 CPU·GPU·메모리 비율 최적화 |
| Inference-optimal (LLaMA) | 한 번 만들고 N번 쓰는 시스템 (CDN, 인덱스) |
| 3D parallelism | 분산 시스템의 sharding(data·schema·service) |
| Loss spike rollback | 비행기 기록기·DB checkpoint·시스템 snapshot |
| Test-time compute scaling | inference vs training 자원 분배 (caching·precompute) |
일반 공식: “성능은 자원의 power law”이고, optimal point는 누적 사용량까지 반영해 결정. NN scaling이 특별한 게 아니라 자원 최적화의 한 사례.
4. 실무에서 어디에 쓰이나
섹션 제목: “4. 실무에서 어디에 쓰이나”- 모델 선택: 7B vs 70B vs MoE vs reasoning 모델
- pretraining 비용 견적 (자체 학습 시)
- continual pretraining: 도메인 적응 vs RAG vs fine-tune 결정
- 분산 학습 인프라 설계 (cloud GPU 견적)
- compute budget 협상 (B2B LLM 도입 시)
운영 시나리오 — 모델 선택 결정 (예시)
섹션 제목: “운영 시나리오 — 모델 선택 결정 (예시)”상황: 한국어 챗봇 서비스, 월 1M 호출, 도메인 30%선택지: A. GPT-4o API: $0.0025/요청 = 월 $2500 B. Llama-3-8B + 자체 fine-tune (continual): 학습 ~$30, H100 호스팅 ~$2k/월 C. DeepSeek-V3 API (open frontier): API 1/2 비용 D. Qwen3-7B + LoRA + Unsloth (RTX 4090): 학습 ~$15, 호스팅 ~$200/월
결정 프레임: - 호출량 1M/월 → self-host 손익분기 가까움 (L12-70) - inference-optimal 사고 (§3.3): 작은 모델 + LoRA가 ROI 큼 - DeepSeek-V3 효율 (§3.9): open frontier 진입했지만 latency·운영 부담
선택: D (Qwen3-7B + LoRA + 4090).대안 비선택: A는 비용↑, B는 운영 부담↑, C는 latency 변동.결과 (가상): 비용 90% ↓, P95 latency 800ms.§3.3 inference-optimal + §3.9 DeepSeek-V3 + §3.12 깨지는 조건 + §3.13 silent failure 모두 적용.
5. 현재 내 업무와 연결점
섹션 제목: “5. 현재 내 업무와 연결점”플랫폼 엔지니어가 LLM 운영할 때 scaling laws 직관이 다음에 도움 된다.
- 모델 가격 직관: GPT-4 Turbo = LLaMA 3 405B + 비밀 sauce. 가격 차이의 출처 일부가 pretraining compute에서 온다는 것을 알면 협상·교체 결정에 유리
- 자체 학습 vs API vs Open-weight 결정: 자체 pretraining은 $100M+, fine-tuning은 $1K~1M, API는 토큰당 $. 비교 기준이 같지 않음
- continual pretraining vs RAG: 도메인 데이터가 5GB 이상이고 형식이 정형이면 continual + DPO, 아니면 RAG 우선
- test-time compute: 같은 품질에 reasoning 모델 + 적은 모델 vs 큰 모델 + 짧은 응답. 비용 모델이 다름 (L12-70)
6. 자주 헷갈리는 개념 비교
섹션 제목: “6. 자주 헷갈리는 개념 비교”| 개념 A | 개념 B | 차이점 |
|---|---|---|
| Kaplan scaling | Chinchilla scaling | parameters 우선 vs parameters·data 균형. Chinchilla가 현재 합의 |
| Compute-optimal | Inference-optimal | 학습 compute 최소 vs 누적 추론 compute 최소. LLaMA는 후자 |
| Pre-training | Continual pre-training | scratch 학습 vs 도메인 데이터 추가 |
| Continual pretraining | Fine-tuning (SFT) | 새 도메인 지식 학습 vs 행동·포맷 적응. 데이터·비용 자릿수 차이 |
| Data parallel | Tensor parallel | batch 분할 vs layer 안 weight 분할. 통신 패턴 다름 |
| ZeRO-1/2/3 | optimizer state / +grad / +param 분산. 메모리 vs 통신 trade-off | |
| MFU | HFU | model FLOPs vs hardware FLOPs 활용률. MFU < HFU |
| Train-time compute | Test-time compute | pretraining vs inference의 reasoning. Reasoning 모델이 후자 활용 |
7. 체크리스트
섹션 제목: “7. 체크리스트”- Kaplan과 Chinchilla scaling laws의 결론 차이를 설명할 수 있다 (parameters 우선 vs 균형)
- Chinchilla 비율 (D ≈ 20·N)을 외우고, LLaMA 3가 왜 이를 한참 넘긴지 설명할 수 있다
- FLOPs ≈ 6·N·D 식으로 임의 모델의 pretraining compute를 추정할 수 있다
- 3D parallelism의 세 축(data/tensor/pipeline)을 메모리·통신·bubble 측면에서 비교할 수 있다
- ZeRO-1/2/3의 메모리 절감과 통신 비용 trade-off를 설명할 수 있다
- Loss spike의 원인과 4가지 표준 대응(clipping, scaling, warmup, bf16)을 말할 수 있다
- continual pretraining vs fine-tuning vs RAG의 결정 기준을 데이터 양·형식·비용으로 적용할 수 있다
- test-time compute scaling이 LLM 운영 비용 모델을 어떻게 변화시키는지 설명할 수 있다
8. 추가 학습 키워드
섹션 제목: “8. 추가 학습 키워드”- Scaling laws: Kaplan, Chinchilla, μP scaling, broken scaling laws, emergent abilities
- 분산 학습: Megatron-LM, DeepSpeed, NeMo, FSDP, Tensor Parallelism, Pipeline Parallelism, Context Parallelism
- 메모리: ZeRO-1/2/3, Activation Checkpointing, Selective Recomputation
- 데이터: FineWeb, DCLM, RedPajama, RefinedWeb, MinHash, deduplication
- 안정성: skip-init, μP, T-Fixup, learning rate warmup, gradient norm scaling
- 비용: MFU, HFU, FLOPs accounting, GPU-hours
- Test-time: chain-of-thought, self-consistency, tree-of-thoughts, o1-style scaling
- Continual: replay, distillation, parameter-efficient continual learning
9. 내가 직접 확인해볼 것
섹션 제목: “9. 내가 직접 확인해볼 것”Compute 견적
섹션 제목: “Compute 견적”- LLaMA-3-8B 학습 compute를 6·N·D로 직접 계산: N=8e9, D=15e12 → 7.2e23 FLOPs. H100 BF16 1979 TFLOPs · MFU 40% 가정으로 GPU-hours 추정
- 같은 식으로 Mistral 7B(8T tokens), DeepSeek-V3(14.8T)의 학습 compute 비교
Chinchilla 비율 체감
섹션 제목: “Chinchilla 비율 체감”- 자기 도메인 데이터 1B 토큰이 있다고 가정. Chinchilla compute-optimal 모델 크기는? (D/20 = 50M parameters — 매우 작은 모델)
- 반대로, 7B 모델을 Chinchilla optimal로 학습하려면 140B tokens 필요. 현실에서 LLaMA 3는 15T tokens — 100배
분산 학습 시뮬레이션
섹션 제목: “분산 학습 시뮬레이션”- PyTorch FSDP tutorial로 작은 모델(GPT-2 small)을 2 GPU에 분산. memory profile로 ZeRO-3 효과 확인
- HuggingFace
accelerateconfig로 data parallel vs FSDP 차이 체감
Continual pretraining 결정
섹션 제목: “Continual pretraining 결정”- 가상 시나리오: 의학 도메인 5GB 텍스트가 있다. continual pretrain vs fine-tune vs RAG 중 무엇을 선택할지 비용·품질·업데이트 빈도 기준으로 의사결정 표 작성
결과가 예상과 다를 때
섹션 제목: “결과가 예상과 다를 때”- compute 추정이 실제와 안 맞음 → MFU 가정 점검 (보통 30~50%이지만 모델·인프라마다 다름)
- continual pretrain 후 일반 능력 폭락 → catastrophic forgetting. replay 비율↑(30~50% 일반 데이터 섞기) 또는 LoRA 변형으로 base 보존
- FSDP 분산 후 학습 속도가 거의 안 빨라짐 → 통신 오버헤드. tensor parallel·pipeline parallel 추가 또는 batch size 조정
10. 5줄 요약
섹션 제목: “10. 5줄 요약”- Scaling laws는 모델 크기·데이터·연산량의 power law 관계를 기술한다 (Kaplan 2020, Chinchilla 2022).
- Chinchilla 비율 D ≈ 20·N이 compute-optimal이고, FLOPs ≈ 6·N·D 식이 학습 비용의 토대다.
- LLaMA 시리즈는 inference-optimal 전략으로 Chinchilla를 한참 넘는 데이터로 작은 모델을 학습 — 추론 비용 절감 효과.
- 3D parallelism(data/tensor/pipeline) + ZeRO/FSDP가 trillion 파라미터 학습의 표준 인프라다.
- 2024년부터 train-time + test-time compute 두 축 scaling이 새 패러다임 (reasoning 모델).
11. 출처
섹션 제목: “11. 출처”- Kaplan et al., Scaling Laws for Neural Language Models (arXiv:2001.08361)
- Hoffmann et al., Chinchilla / Training Compute-Optimal LLMs (arXiv:2203.15556)
- Touvron et al., LLaMA (arXiv:2302.13971)
- Meta, The Llama 3 Herd of Models (arXiv:2407.21783)
- Rajbhandari et al., ZeRO (arXiv:1910.02054)
- Shoeybi et al., Megatron-LM (arXiv:1909.08053)
- Korthikanti et al., Reducing Activation Recomputation (MLSys 2023)
- HuggingFace, FineWeb (2024)
- Penedo et al., DCLM-Baseline (arXiv:2406.11794)
- Snell et al., Scaling Test-Time Compute (arXiv:2408.03314)
- DeepSeek-V3 Tech Report (arXiv:2412.19437)
- Wei et al., Emergent Abilities of Large Language Models (arXiv:2206.07682)
- Schaeffer et al., Are Emergent Abilities a Mirage? (arXiv:2304.15004)
- Muennighoff et al., Scaling Data-Constrained LMs (arXiv:2305.16264)
- Yang & Hu, Tensor Programs V — μP (arXiv:2203.03466)
- Besiroglu et al., Chinchilla Scaling Laws Replication (arXiv:2404.10102)
- Caballero et al., Broken Neural Scaling Laws (arXiv:2210.14891)
- PyTorch FSDP tutorial
최종 수정: 2026-04-26