Scaling Laws와 Pre-training의 비용 감각
Scaling laws는 모델 크기, 데이터, 연산량 사이의 power law 관계를 통해 pre-training을 자원 할당 문제로 바꾸는 관점이다. Chinchilla, LLaMA, 분산 학습, 데이터 큐레이션, test-time compute까지 이어지는 운영 판단 기준을 정리한다.
Script Companion
오디오와 함께 스크립트 보기
- 01
Scaling laws는 큰 언어 모델을 얼마나 크게 만들고, 얼마나 많은 데이터로 학습할지 판단하는 토대다. 예전에는 모델을 키우면 좋아진다는 직감은 있었지만, 7B, 13B, 70B, 405B 같은 선택지 중 무엇이 자원 대비 맞는지 설명하기 어려웠다. 이 문서의 핵심은 모델 크기, 데이터, 연산량 사이의 power law 관계를 통해 pre-training을 감이 아니라 최적화 문제로 보는 것이다. 그래서 왜 LLM이 비싼지, 왜 작은 active 모델이 가격을 낮출 수 있는지, reasoning 모델 시대에 비용 축이 어떻게 바뀌는지도 함께 이해하게 된다.
- 02
Scaling laws가 등장하기 전에는 얼마나 키울지와 데이터를 얼마나 넣을지에 대한 정량 모델이 부족했다. GPT-3 175B는 약 1.7 tokens per parameter로 학습되어, Chinchilla의 compute-optimal 기준인 D ≈ 20·N보다 훨씬 적은 데이터로 학습된 사례로 설명된다. 같은 compute인 약 3.85e24 FLOPs에서 Chinchilla 70B와 1.4T tokens 조합이 GPT-3, Jurassic-1, Megatron-Turing NLG를 광범위 벤치마크에서 앞섰다는 점은 중요하다. Gopher 280B도 300B tokens로 비슷한 함정에 빠졌고, 큰 모델만 우선하는 선택이 사후적으로 자원 낭비가 될 수 있음을 보여준다.
- 03
Kaplan et al. 2020은 loss가 parameters, data, compute 모두에 대해 power law로 줄어든다는 점을 처음 정량화했다. 다만 Kaplan의 결론은 compute가 제한되면 모델 크기를 우선 키우고 데이터는 상대적으로 적게 두는 방향이었다. 이후 Chinchilla, Hoffmann 2022는 total parameter와 70M에서 16B 규모의 400개 이상 run sweep으로 다시 측정했고, N_optimal ∝ C^0.50이라는 다른 결론을 냈다. 즉 compute가 제한될 때는 모델 크기와 데이터를 함께 키워야 하며, 실무 직관으로는 데이터 D를 parameters N의 약 20배 토큰으로 맞추는 비율이 핵심이 된다.
- 04
Chinchilla 비율의 의미는 단순히 숫자 하나를 외우는 것이 아니다. FLOPs ≈ 6·N·D라는 학습 비용 식에서 보듯, N과 D를 같이 늘리면 compute는 그 곱에 비례해 커진다. 그래서 pre-training은 모델이 클수록 무조건 좋다는 선택이 아니라, 주어진 compute 안에서 parameter와 token을 어떻게 배분할지의 문제다. Pearce & Song 2024는 Kaplan의 0.73 결론이 non-embedding parameter 측정과 작은 스케일 fit의 편향에서 나온 것을 시뮬레이션으로 재현했고, Chinchilla의 0.50 쪽을 뒷받침했다. 이 정량화가 있어야 비용 견적, 모델 선택, 운영상 깨지는 조건까지 연결된다.
- 05
큰 모델에서 갑자기 능력이 나타나는 것처럼 보이는 emergent abilities도 이 흐름 안에서 조심스럽게 봐야 한다. Wei et al. 2022는 일정 크기 이상에서 phase transition처럼 능력이 발현된다고 설명했지만, Schaeffer et al. 2023은 평가 metric 선택의 artefact일 수 있다고 지적했다. 부드러운 metric으로 보면 성능 향상이 점진적으로 보일 수 있다는 것이다. 운영 관점에서는 작은 모델로 충분한가라는 질문이 작업과 metric에 따라 갈라진다. 단순 분류는 7B로 충분할 수 있지만, multi-step reasoning은 더 큰 모델이 필요한 영역이 분명히 존재한다.
- 06
Chinchilla가 학습 compute의 최적화를 말한다면, LLaMA 시대의 핵심은 inference-optimal scaling이다. 모델은 한 번 학습한 뒤 수십억 번 추론될 수 있으므로, 누적 inference compute가 커지면 큰 모델을 매번 돌리는 비용이 손해가 된다. LLaMA 1은 7B, 13B, 33B, 65B를 1T에서 1.4T tokens로 학습했고, LLaMA 3의 8B는 15T tokens로 학습되어 Chinchilla 비율 160B의 약 100배에 이른다. 작은 모델에 데이터를 더 많이 부어 품질을 끌어올리고, 서비스 중 추론 비용을 낮추는 전략이다. 대신 학습 compute 관점에서는 sub-optimal일 수 있다.
- 07
Inference-optimal 전략은 항상 맞지 않는다. 호출량이 적어 누적 inference가 수십억 tokens보다 작으면, over-train에 쓴 추가 학습 compute를 추론 절감으로 회수하기 어렵다. 모델 deprecate 주기가 6개월보다 짧아도 같은 문제가 생긴다. 후속 모델로 빨리 교체되면 over-train 비용은 sunk cost가 되기 때문이다. 또 작은 모델에 데이터를 더 부으면 항상 좋아진다는 일반화도 위험하다. 데이터 품질과 다양성이 부족하면 eval perplexity는 줄어도 MMLU나 HumanEval 같은 downstream 점수는 정체될 수 있고, eval improvement와 downstream improvement의 격차가 5%p 이상으로 10k step 넘게 유지되는 것이 감지 시그널이다.
- 08
Pre-training pipeline에서 데이터 단계는 전체 노력의 50% 이상을 차지한다고 설명된다. FineWeb, RedPajama, DCLM 같은 공개 데이터셋이 계속 출시되고 갱신되는 이유도 여기에 있다. 데이터 큐레이션에서는 MinHash와 LSH로 fuzzy duplicate를 제거하고, perplexity 기반 filter, classifier, 글 길이와 반복 비율 같은 heuristic을 사용한다. 학습 데이터의 30에서 70%가 중복인 경우도 흔하므로 중복 제거는 품질과 비용 모두에 영향을 준다. mixture도 중요하다. 예를 들어 web 70%, code 15%, 수학 5%, 다국어 10% 같은 비율 결정이 모델 성격을 바꾸며, copyright와 data licensing 문제도 운영에서 무시할 수 없다.
- 09
대규모 pre-training은 수백에서 수천 GPU에 학습을 분산해야 하므로 3D parallelism이 필요하다. 여기서 3D는 data parallel, tensor parallel, pipeline parallel의 조합을 뜻한다. Data parallel은 batch를 나누고 gradient all-reduce를 하므로 가장 단순하지만 메모리는 그대로다. Tensor parallel은 layer 안의 weight 행렬을 나누어 메모리를 분산하지만 activation all-reduce가 자주 발생한다. Pipeline parallel은 layer 사이를 나눠 메모리와 통신을 줄이지만 bubble 손실이 있다. Context parallel과 expert parallel도 각각 long-context와 MoE 모델에서 중요하며, Megatron-LM, DeepSpeed, NeMo가 대표 프레임워크다.
- 10
ZeRO와 FSDP는 메모리 한계를 다루는 또 다른 축이다. PyTorch FSDP, Fully Sharded Data Parallel은 ZeRO Stage 3에 해당하며, optimizer state, gradients, parameters까지 분산해 GPU 수에 비례하는 메모리 절감을 얻는다. LLaMA 3 405B 같은 모델은 단일 GPU 메모리에 들어가지 않기 때문에 FSDP 또는 ZeRO-3에 tensor parallel과 pipeline parallel을 함께 조합해야 한다. 이 패턴은 분산 DB sharding과도 닮아 있다. Data parallel은 horizontal sharding, tensor parallel은 column이나 wide-row 분할, pipeline parallel은 stage 분리와 유사한 trade-off를 가진다.
- 11
학습 안정성에서는 loss spike가 대표적인 실패 모드다. PaLM, OPT-175B, GLM-130B에서 흔했고, batch 안의 outlier가 gradient explosion을 유발하면 직전 checkpoint로 rollback하는 것이 표준 관행으로 설명된다. 대응에는 norm 1.0의 gradient clipping, deeper transformer 안정화를 위한 skip-connection scaling, learning rate warmup과 cosine 또는 WSD decay, fp16 overflow를 피하기 위한 bf16, 학습 후반 learning rate 변경이 포함된다. μP, Maximal Update Parametrization은 작은 proxy 모델에서 hyperparameter를 tune한 뒤 큰 모델로 zero-shot 전이해 sweep 비용을 줄이는 도구다. Repeated data scaling은 데이터 부족 시 4 epoch까지 fresh data와 거의 동등하다는 점에서 한국어와 도메인 데이터 희소 시나리오에 연결된다.
- 12
비용 관점에서 pre-training은 단일 모델당 50에서 100M 달러 자릿수로 설명되어 왔다. 그래서 대형 lab인 Anthropic, OpenAI, Meta, Google만 가능한 영역처럼 보였지만, DeepSeek-V3는 2024년 12월에 671B-MoE를 14.8T tokens로 5.6M 달러, 2.788M H800-hours에 학습했다고 보고했다. 문서는 MoE, FP8, DualPipe가 frontier 비용을 약 10배 줄인 전환점으로 본다. 다만 GPT-4o 같은 closed frontier는 여전히 더 큰 compute로 추정된다. 운영 입장에서는 기업 자체 pretraining은 거의 비현실적이고 fine-tuning이나 API 사용이 표준이지만, 비용 추세는 빠르게 변하는 중이다.
- 13
Continual pre-training은 의학, 법률, 코드 같은 도메인 데이터를 추가 학습해 적응시키는 방식이며, full pretraining의 1에서 10% 규모로 설명된다. 위험은 catastrophic forgetting이다. 일반 능력을 잃지 않기 위해 replay buffer로 일반 데이터를 섞어야 한다. 대안으로는 작은 데이터로 하는 domain-specific fine-tune이나 RAG가 더 싼 경우가 많다. 문서의 운영 기준에서는 도메인 데이터가 5GB 이상이고 형식이 정형이면 continual pretraining을 검토하고, 자주 갱신되거나 5GB 미만이면 RAG를 우선 권장한다. BloombergGPT, Med-PaLM, Code Llama는 이 흐름을 이해할 때 참고할 수 있는 상용 사례로 제시된다.
- 14
2024년 이후에는 train-time compute만이 아니라 test-time compute도 scaling 축으로 등장했다. Reasoning 모델인 o1과 DeepSeek-R1은 inference 시 chain-of-thought를 길게 생성해 더 많은 compute를 사용한다. 이 경우 동일 품질을 얻기 위해 train compute는 줄어들 수 있지만 inference 비용은 크게 늘 수 있다. Snell et al. 2024는 FLOPs-matched 비교에서 test-time scaling이 14배 큰 모델을 outperform할 수 있는 영역이 있다고 설명하며, 이는 base 능력의 medium 난이도에 한정된다. 따라서 LLM 운영자는 이제 train budget과 test-time budget을 함께 봐야 한다.
- 15
정리하면 scaling laws는 parameters, data, compute의 power law 관계를 통해 pre-training 결정을 숫자로 다루게 해준다. Chinchilla의 D ≈ 20·N은 학습 compute 최적화의 기준이고, LLaMA의 over-train 전략은 누적 추론 비용을 낮추기 위한 다른 최적점이다. 3D parallelism과 ZeRO, FSDP는 trillion parameter 학습을 가능하게 하는 인프라이고, 데이터 큐레이션과 loss spike 대응은 학습이 실제로 깨지는 지점을 다룬다. 마지막으로 reasoning 모델은 test-time compute라는 새 축을 추가했다. 같은 성능도 train에서 살지, inference에서 살지에 따라 비용 모델이 달라진다.
같은 레이어