모델 평가는 데이터 품질에서 시작된다
모델 평가는 단일 점수가 아니라 지표 선택, 데이터 품질, 회귀 검증, 통계적 판정을 함께 다루는 운영 체계다. 특히 LLM 운영에서는 공개 벤치마크보다 자기 도메인 gold dataset과 judge bias 관리가 더 직접적인 기준이 된다.
Script Companion
오디오와 함께 스크립트 보기
- 01
모델 평가는 어떤 모델이 더 나은지 고르는 문제에서 시작하지만, 운영에서는 더 넓은 의미를 가진다. LLM 버전을 바꾸거나 prompt를 수정했을 때 어느 영역이 망가졌는지 찾아야 하고, 전체 accuracy는 그대로인데 특정 클래스만 무너지는 silent failure도 잡아야 한다. 그래서 평가는 점수 하나가 아니라, 측정 기준과 데이터 품질, 회귀 검증을 함께 묶은 운영 장치에 가깝다. 좋은 평가는 좋은 데이터에서 시작한다는 말도 여기서 나온다.
- 02
이 문서의 중요한 관점은 평가 도구가 한 번에 완성된 것이 아니라는 점이다. Accuracy가 imbalance에서 조용히 실패하자 PR-AUC가 필요해졌고, MMLU나 GSM8K 같은 정적 benchmark가 contamination과 saturation 문제를 드러내자 LiveBench와 Arena-Hard 같은 갱신형 평가가 등장했다. BLEU와 ROUGE가 자유 텍스트의 의미를 잘 보지 못하자 LLM-as-judge가 쓰이기 시작했고, 그 judge에도 bias가 남아 swap test와 ensemble이 필요해졌다.
- 03
분류 평가는 confusion matrix에서 출발한다. Accuracy는 전체 중 맞은 비율이고, precision은 양성이라고 예측한 것 중 진짜 양성의 비율이며, recall은 실제 양성 중 잡아낸 비율이다. F1은 precision과 recall의 조화 평균이고, specificity는 음성을 음성으로 맞힌 비율이다. 문제는 데이터가 한쪽으로 치우칠 때다. 99퍼센트가 negative인 데이터에서 전부 negative라고 예측하면 accuracy는 99퍼센트지만 recall은 0퍼센트가 된다.
- 04
Accuracy의 함정은 정량적으로도 드러난다. Saito & Rehmsmeier 2015의 1대10 imbalance 시뮬레이션에서는 같은 accuracy 0.6이라도 균형 데이터의 precision은 0.6인데, imbalance에서는 0.33으로 떨어진다. 같은 점수가 운영 의미를 가리는 것이다. 그래서 positive와 negative 비율이 1대5를 넘으면 accuracy나 ROC만으로 판단하지 않고, F1과 PR-AUC를 함께 본다. PR-AUC는 분모에 TN을 포함하지 않기 때문에 imbalance ratio에 더 민감하게 반응한다.
- 05
회귀 평가는 연속값 예측을 다룬다. MSE는 큰 오차에 민감하고, MAE는 outlier에 비교적 robust하며, R²는 설명된 분산 비율을 본다. MAPE는 스케일과 무관하게 볼 수 있지만 0 근처에서는 약하다. LLM 평가는 더 까다롭다. 출력이 자유 텍스트라 단일 정답이 없기 때문이다. Perplexity는 next-token prediction 능력을 보지만 downstream 성능과 상관이 약하고, BLEU와 ROUGE는 n-gram 일치율이라 의미는 같지만 표현이 다른 답에 약하다. BERTScore는 의미 유사도를 보완하지만 여전히 한계가 있다.
- 06
LLM-as-judge는 GPT-4나 Claude 같은 LLM이 다른 LLM의 출력을 평가하는 방식이다. 자유 텍스트도 평가할 수 있고, Zheng et al. 2023에서는 강한 judge가 controlled 또는 crowdsourced 사람 평가와 80퍼센트 이상 일치한다고 보고된다. 다만 코드, 수학, 전문 영역에서는 일치율이 60퍼센트대로 떨어진다. 표준 bias도 있다. Position bias는 응답 순서의 영향이고, verbosity bias는 긴 답변 선호이며, self-enhancement bias는 자기 모델 답변에 더 높은 승률을 주는 현상이다.
- 07
LLM-as-judge를 운영에 쓰려면 bias를 그냥 받아들이면 안 된다. Position bias는 같은 응답을 반대 순서로 다시 평가하는 swap test로 확인하고, swap 시 결정이 뒤집히는 비율이 5퍼센트포인트를 넘으면 ensemble을 강제한다. Self-enhancement bias는 Zheng 2023에서 GPT-4 측정 기준으로 자기 답변에 10퍼센트 더 높은 승률을 주는 형태로 나타났다. 그래서 GPT-4 가족 평가에 GPT 계열 judge를 쓰지 않고, Claude 같은 cross-family judge로 바꾸는 결정 규칙이 필요하다.
- 08
공개 benchmark도 조심해서 읽어야 한다. MMLU는 다영역 다지선다를 보고, HumanEval은 Python 함수 작성 164문제를 본다. GSM8K는 초등 수학이고, GPQA Diamond는 PhD-level 과학과 수학을 본다. SWE-Bench Verified는 GitHub 이슈 해결을 보고, BFCL v3는 function calling 정확도를 본다. 하지만 benchmark 데이터가 학습 데이터에 새어 들어가는 data contamination이 있으면 점수는 부풀려진다. White et al. 2024의 흐름처럼 LiveBench는 매월 문제를 갱신하고 객관 ground truth로 채점해 이런 위험을 줄이려 한다.
- 09
운영자에게 가장 중요한 도구는 gold dataset과 regression eval이다. Gold dataset은 도메인과 작업별로 사람이 검수한 정답 셋이고, 보통 100개에서 1000개 범위로 만든다. 모델 버전 교체, prompt 수정, fine-tune 같은 변경이 있을 때 같은 gold set으로 점수를 비교하면 떨어진 케이스가 silent failure 후보가 된다. 공개 benchmark보다 자기 도메인 한국어 Q&A 같은 실제 입력 분포를 보는 쪽이 운영 판단에는 더 직접적이다. Gold set은 빠른 회귀 감지를 맡고, A/B 테스트는 실 운영 검증을 맡는다.
- 10
Gold dataset도 깨지는 조건이 있다. 100개 set로는 5퍼센트포인트 차이가 noise에 묻힐 수 있고, Wilson 95퍼센트와 5퍼센트 기준에서는 246개 이상이 필요하다. 99퍼센트와 3퍼센트 기준에서는 1100개 이상이 필요하다. Freshness도 중요하다. gold set이 production 입력 분포와 어긋나면 covariate shift가 생기고, 최근 fail case 카테고리 분포와 gold set 카테고리 분포가 다르면 갱신해야 한다. 문서에서는 6개월 무갱신은 거의 항상 stale하다고 본다.
- 11
데이터 품질은 평가의 절반이다. 레이블이 맞는지 보는 accuracy, 모든 카테고리와 엣지 케이스를 포함하는 coverage, 클래스 imbalance를 관리하는 balance, 시간이 지나며 분포가 바뀌는 freshness, 출처와 라이선스를 보는 provenance, PII 제거와 GDPR 준수를 다루는 privacy가 모두 포함된다. Annotator agreement도 중요하다. Cohen's kappa 기준으로 Landis & Koch 임계값을 보면 0.6에서 0.8은 substantial이고, 산업 SLA는 보통 0.6 이상을 요구한다.
- 12
데이터 품질의 silent failure는 운영에서 자주 나타난다. Label noise는 사람 annotator의 실수이고, Northcutt et al. 2021은 ImageNet과 MNIST 등 주요 데이터셋 평균 3.4퍼센트 라벨 오류를 보고했다. Annotator bias는 한 사람의 의견이 평가 기준으로 굳는 문제이고, selection bias는 학습 데이터와 운영 데이터의 분포가 다른 문제다. Data leakage는 학습 데이터에 평가 데이터가 섞이는 경우이며, temporal leakage는 미래 정보를 feature로 쓰는 경우다. PII와 저작권 문제는 법적 리스크로 이어진다.
- 13
LLM 운영 평가는 reasoning, agentic, RAG 영역으로 더 세분화된다. Reasoning 평가는 GPQA Diamond, MATH-500, AIME 2024와 2025, ARC-AGI 같은 벤치마크를 보고, best-of-N, cons@k, self-consistency로 test-time compute scaling도 본다. Agentic 평가는 SWE-Bench Verified, BFCL v3, tau-bench, WebArena, OSWorld, GAIA, ToolBench처럼 tool 사용과 multi-turn 수행을 다룬다. RAG는 retrieval 품질, faithfulness, answer relevance, context precision, context recall을 따로 측정해야 하며, Ragas와 TruLens 같은 도구가 언급된다.
- 14
회귀 판정에는 통계적 유의성이 필요하다. Paired bootstrap은 같은 sample에 두 prompt나 모델을 비교하고, resample 1000회로 95퍼센트 신뢰구간을 본다. McNemar's test는 분류 정답과 오답이 prompt별로 다를 때 쓰고, Welch's t-test는 등분산을 가정하지 않고 두 분포 평균 차이를 본다. 문서의 일반 공식은 측정, 비교, 통계적 판정, 회귀 검증의 네 단계다. ML 평가가 특별한 예외라기보다, 웹과 인프라와 검색에도 이어지는 품질 측정 시스템의 한 사례라는 뜻이다.
- 15
정리하면 모델 평가는 모델 점수표를 읽는 일이 아니라 운영 변경을 안전하게 판정하는 절차다. 분류에서는 imbalance 때문에 accuracy만 보면 안 되고, LLM에서는 judge bias와 benchmark contamination을 함께 봐야 한다. Gold dataset과 regression eval은 자기 도메인 회귀를 찾는 기준이고, 데이터 품질은 그 평가가 믿을 만한지 결정한다. 모델을 바꾸거나 prompt를 고칠 때 핵심 질문은 하나다. 같은 입력 분포에서 무엇이 좋아졌고, 무엇이 조용히 망가졌는가.
같은 레이어