모델 평가와 데이터 품질
분류: Layer 11 - AI 기초 & 머신러닝 | 선수지식: L11-20 (고전 ML), L11-30 (ML 패러다임)
모델 평가와 데이터 품질 — Metrics, Benchmarks, Bias
섹션 제목: “모델 평가와 데이터 품질 — Metrics, Benchmarks, Bias”1. 한 줄 정의
섹션 제목: “1. 한 줄 정의”모델 평가는 모델이 얼마나 좋은지를 객관 측정하는 도구이고, 데이터 품질은 학습·평가 데이터의 무결성·대표성이다. 둘은 분리할 수 없으며, 평가 지표와 데이터의 결함이 운영 silent failure의 절반 이상을 만든다.
2. 왜 중요한가
섹션 제목: “2. 왜 중요한가”- 모델 선택 결정: “이 LLM이 다른 LLM보다 나은가”의 기준
- 운영 회귀 감지: 모델 업데이트 후 어느 영역이 망가졌는지 (LLM 버전 교체의 핵심)
- silent failure 발견: accuracy는 같은데 특정 클래스만 망가지는 경우
- benchmark의 함정: MMLU 점수가 좋아도 실 운영에서 약한 영역 있음
- 데이터 quality는 model quality: 좋은 평가는 좋은 데이터에서 시작
3. 핵심 개념
섹션 제목: “3. 핵심 개념”3.0 등장 배경 — 평가 도구의 lineage
섹션 제목: “3.0 등장 배경 — 평가 도구의 lineage”평가는 단일 지표가 아니라 “선행 도구의 정량적 한계 → 새 도구”의 연쇄로 확장돼 왔다. 본 토픽의 PR-AUC·LLM-as-judge·gold dataset은 각각 직전 도구가 silent하게 망가지는 지점을 메우는 메커니즘이다.
- Accuracy → PR-AUC (Saito & Rehmsmeier 2015): 1:10 imbalance 시뮬레이션에서 accuracy 0.6은 균형/imbalance 양쪽에서 동일하게 측정되지만 precision은 0.6 → 0.33으로 떨어진다. ROC도 specificity 해석이 imbalance에서 직관과 어긋난다. PR-AUC는 분모에 TN을 포함하지 않아 imbalance ratio에 그대로 반응 (§3.2).
- 정적 benchmark → LiveBench·Arena-Hard (White et al. 2024, arxiv:2406.19314): MMLU·GSM8K는 학습 데이터 contamination으로 점수가 saturate. LiveBench는 매월 문제 갱신 + 객관 ground truth로 채점, Arena-Hard는 LLM-judge 기반이어서 GPT-4가 LiveBench보다 Arena-Hard에서 상대적으로 높게 나옴 — 같은 모델이 두 벤치에서 다른 순위가 나오는 것 자체가 judge bias의 lineage 잔여물 (§3.5).
- Auto metric (BLEU/ROUGE) → LLM-as-judge (Zheng et al. 2023): n-gram 일치는 “의미 같지만 표현 다른” 자유 텍스트에 무력. 강한 judge(GPT-4)가 controlled/crowdsourced 사람 평가와 80%+ 일치하지만, self-enhancement로 자기 답변에 +10% 승률을 부여 — 다시 swap test·다중 judge ensemble로 우회 (§3.16 비용 자릿수 ↑).
- Public benchmark → Gold dataset + Regression eval: MMLU·HumanEval 점수가 좋아도 “내 도메인 한국어 Q&A”는 알 수 없다 (§3.6). 자기 도메인 200~400 sample gold set + paired bootstrap이 운영 회귀 판정의 최종 권위. Wilson interval로 5%p 차이를 95% confidence로 검출하려면 ~246+ sample 필요 (80% pass rate 가정).
이 토픽이 사라지면 무엇이 깨지나: LLM 버전 교체 시 한국어 도메인만 망가져도 MMLU·HumanEval 변화 없이 production에 silent regression이 들어간다. judge·gold set 없이는 “비용 17× 싼 mini 모델로 교체해도 안전한가”라는 운영 결정을 객관적으로 부정도 인정도 못 한다.
3.1 분류 평가의 기본 지표
섹션 제목: “3.1 분류 평가의 기본 지표”confusion matrix로부터 시작:
실제 양성 실제 음성예측 양성 TP FP예측 음성 FN TN| 지표 | 식 | 직관 | 약점 |
|---|---|---|---|
| Accuracy | (TP+TN) / 전체 | 전체 맞은 비율 | imbalance에서 무력 |
| Precision (정밀도) | TP / (TP+FP) | “양성이라 한 것 중 진짜 양성” | recall과 trade-off |
| Recall (재현율) | TP / (TP+FN) | “진짜 양성 중 잡아낸 것” | precision과 trade-off |
| F1 | 2·P·R / (P+R) | precision·recall 조화 평균 | 둘의 가중치 같다고 가정 |
| Specificity | TN / (TN+FP) | “음성을 음성이라 한 비율” | 의료에서 중요 |
Accuracy의 함정: 99% negative 데이터에서 “전부 negative” 예측 = 99% accuracy. recall 0%이지만 accuracy는 좋아 보임 (L11-20 §3.6 silent failure). Saito & Rehmsmeier 2015 시뮬레이션(1000 pos vs 10000 neg, 1:10): 같은 accuracy 0.6에서도 균형 데이터 precision 0.6 → imbalance precision 0.33으로 떨어진다 — 같은 점수가 다른 운영 의미를 가린다는 정량 증거. 결정 규칙: positive:negative 비율이 1:5 넘으면 accuracy/ROC 단독 판단 금지, F1·PR-AUC 병행.
3.2 ROC / PR Curve와 AUC
섹션 제목: “3.2 ROC / PR Curve와 AUC”threshold를 바꾸며 trade-off를 그려봄.
- ROC curve: TPR(recall) vs FPR. AUC가 높을수록 분류 능력 좋음
- PR curve: Precision vs Recall. imbalanced data에서 ROC보다 정확
- AUC-PR: PR curve 아래 면적. 99% negative 데이터에서 의미 있는 지표
3.3 회귀 평가
섹션 제목: “3.3 회귀 평가”연속값 예측의 지표.
| 지표 | 식 | 직관 |
|---|---|---|
| MSE | 평균 제곱 오차 | 큰 오차에 민감 |
| MAE | 평균 절대 오차 | outlier에 robust |
| R² | 설명된 분산 비율 | [0,1] (음수 가능) |
| MAPE | 평균 절대 백분율 오차 | 스케일 무관. 0 근처에서 약함 |
3.4 LLM 평가의 어려움
섹션 제목: “3.4 LLM 평가의 어려움”분류·회귀와 달리 LLM 출력은 자유 텍스트라 단일 정답이 없음.
- Perplexity (L11-10 §3.3):
exp(평균 cross-entropy). next-token prediction 능력만 측정 — downstream 성능과 약한 상관 - BLEU / ROUGE: 번역·요약 표준. n-gram 일치율. 의미적으로 같지만 표현 다른 답에 약함
- BERTScore: BERT 임베딩 거리로 의미 유사도 측정. BLEU보다 좋지만 여전히 표면적
- Exact match: 코드·수학 같은 정답이 명확한 경우만
3.5 LLM-as-Judge
섹션 제목: “3.5 LLM-as-Judge”LLM(보통 GPT-4·Claude)이 다른 LLM의 출력을 평가.
- 장점: 자유 텍스트도 평가 가능, 강한 judge(GPT-4)가 controlled/crowdsourced 사람 평가와 80%+ 일치 (Zheng et al. 2023, arxiv:2306.05685). 단 코드·수학·전문 영역에선 ~60%로 떨어짐
- 표준 4종 bias (MT-Bench, Zheng et al. 2023):
- Position bias: 응답 순서가 점수에 영향 → 반대 순서로 다시 평가(swap test). swap 시 결정이 뒤집히는 비율이 5%p 넘으면 ensemble 강제
- Verbosity bias: 모든 LLM judge가 길이 선호 — GPT-4가 비교적 잘 방어하지만 차이는 정량적으로 남음. AlpacaEval LC 같은 length-controlled 정규화 필요
- Self-enhancement bias: 자기 모델 답변에 +10% 더 높은 승률 부여 (Zheng 2023 GPT-4 측정). 결정 규칙: GPT-4 가족 평가에 GPT 계열 judge 사용 금지, Claude 같은 cross-family judge로 대체
- Limited reasoning bias: 수학·논리 평가 능력의 한계 (judge 자체가 약하면 평가도 약함)
- 2024+ 추가 bias: Familiarity bias, Authority bias (권위적 톤 선호)
- Judge robustness 평가: JudgeBench, Prometheus 2 — judge 모델 자체를 평가하는 벤치마크
- MT-Bench, AlpacaEval LC, Arena-Hard-Auto v2.0: LLM-as-judge 기반 표준 벤치마크
- 비용: GPT-4 평가는 호출당 비용, 대규모 회귀 시 누적 부담
3.6 LLM Benchmark의 함정
섹션 제목: “3.6 LLM Benchmark의 함정”표준 벤치마크 점수만 믿으면 실 운영에서 실패.
| 벤치마크 | 측정 | 함정 |
|---|---|---|
| MMLU | 다영역 다지선다 | 학습 데이터에 포함됐을 위험 (contamination) |
| HumanEval | Python 함수 작성, 164 문제 | 작은 셋 → overfitting, contamination 위험 |
| MBPP | Python 기본 함수 (974) | HumanEval보다 큼 |
| GSM8K | 초등 수학 | 학습 데이터 contamination 보고됨 (Schaeffer 2023) |
| MATH-500 / AIME 24/25 | 수학 reasoning | reasoning 모델 평가 표준 |
| GPQA Diamond (198Q) | PhD-level 과학·수학 | frontier 모델 변별 |
| MMLU-Pro | MMLU 후속 (10지선다, reasoning) | MMLU의 contamination·saturation 대응 |
| HELM (Capabilities/Safety/Lite) | 종합 다축 평가 | metric 다양성·비용이 한계 |
| LMSYS Arena | 사람 직접 비교 (Bradley-Terry) | “Arena Score 100 차이 ≈ 64% 승률” |
| Arena-Hard / Auto v2 | 500 hard prompt, style control judge | MT-Bench 후속 |
| MT-Bench | LLM-as-judge (1~10 score) | GPT-4 ≈ 9.0, GPT-3.5 ≈ 7.9 baseline |
| LiveBench | 정기 갱신, contamination 방지 | 운영자 신뢰 가능 ranking |
| SWE-Bench Verified (500) | GitHub 이슈 해결 | 에이전트 운영 표준 |
| BFCL v3 (Berkeley) | function calling 정확도 | tool-using LLM 평가 |
| τ-bench | tool agent multi-turn | 에이전트 운영 시뮬레이션 |
Data contamination: 벤치마크 데이터가 학습 데이터에 새어 들어가 모델이 외운 것 — 점수 부풀림. canary string 같은 검증 기법, LiveBench·Arena-Hard처럼 매월 갱신되는 벤치마크가 대응.
3.7 Gold Dataset과 Regression Eval
섹션 제목: “3.7 Gold Dataset과 Regression Eval”운영자에게 가장 중요한 평가 도구.
- Gold dataset: 도메인·작업별 정답 셋 (보통 100~1000개). 사람이 검수
- Regression eval: 모델 변경 (LLM 버전 교체, prompt 수정, fine-tune)마다 같은 gold set로 점수 비교
- 회귀 검출: 점수가 떨어진 케이스 = silent failure 후보. 사람이 직접 검수
- A/B 테스트와 결합: gold set는 빠른 회귀 감지, A/B는 실 운영 검증
- 운영 표준 도구: Promptfoo, Braintrust, LangSmith, Langfuse, Ragas (RAG 특화)
언제 gold dataset이 깨지는가 (Inversion):
- Sample 부족: 100개 set로는 5%p 차이가 noise에 묻힘. Wilson 95%/5%로는 246+, 99%/3%로는 1100+ 필요. 진단:
python -c "from statsmodels.stats.proportion import samplesize_confint_proportion as f; print(f(0.8, 0.05))"→ 출력 246. 250 미만이면 “p=0.5 근처” 판정은 회귀 결론을 내리지 말 것. - Freshness 붕괴: gold set이 production 입력 분포와 어긋남 (covariate shift, L11-30 §3.9). 진단: Promptfoo dashboard에서 최근 fail case 카테고리 분포 ≠ gold set 카테고리 분포면 gold set 갱신. 6개월 무갱신은 거의 항상 stale.
- Annotator 단일화: 한 사람이 만든 200개는 그 사람의 bias가 평가 기준이 됨 (§3.10 confirmation bias). 진단: 두 번째 annotator로 20개 샘플 재라벨, Cohen’s kappa < 0.6이면 label spec 재작성. 산업 SLA는 0.6+.
- silent failure: 같은 정답이지만 표현만 다른 답에 LLM-judge가 일관되지 않게 점수를 줌. 진단: paraphrase 5개 변형으로 같은 정답 입력 후 분산이 1점(10점 만점) 넘으면 judge prompt rubric을 더 구체화하거나 exact-match 부분 도입.
3.8 데이터 품질의 차원
섹션 제목: “3.8 데이터 품질의 차원”좋은 평가는 좋은 데이터에서 출발.
- Accuracy (정확도): 레이블이 맞는가
- Coverage: 모든 카테고리·엣지 케이스 포함
- Balance: 클래스 imbalance 관리
- Freshness: 시간이 지나며 distribution shift (L11-30 §3.9)
- Provenance: 어디서 왔는지, 라이선스가 어떤지
- Privacy: PII 제거, GDPR 준수
- Annotator agreement: 사람 두 명이 같은 답을 내는가 (Cohen’s kappa). Landis & Koch 임계: <0.2 poor, 0.2
0.4 fair, 0.40.6 moderate, 0.6~0.8 substantial, >0.8 almost perfect. 산업 SLA는 보통 0.6+ 요구
3.9 데이터 품질 silent failure
섹션 제목: “3.9 데이터 품질 silent failure”운영에서 자주 만나는 문제.
- Label noise: 사람 annotator의 실수. Northcutt et al. 2021 보고 — ImageNet/MNIST 등 주요 데이터셋 평균 3.4% 라벨 오류
- Annotator bias: 한 사람의 의견이 데이터를 편향시킴
- Selection bias: 학습 데이터가 운영 데이터와 분포 다름 (L11-30 §3.9 covariate shift)
- Data leakage: 학습 데이터에 평가 데이터가 섞임 (L11-20 §3.6 silent failure)
- Temporal leakage: 미래 정보를 feature로 사용
- PII / 저작권: 운영 시 법적 문제
3.10 Bias와 Fairness
섹션 제목: “3.10 Bias와 Fairness”ML 모델의 사회적 편향.
- Bias 종류:
- Demographic bias (성별·인종·지역)
- Recency bias (최근 데이터 과대 가중)
- Selection bias (특정 그룹 underrepresented)
- Confirmation bias (annotator의 선입견)
- 측정 지표:
- Demographic parity: 그룹별 양성 예측 비율 같음
- Equalized odds: 그룹별 TPR·FPR 같음
- Calibration: 예측 확률이 실제 빈도와 일치
- LLM bias: stereotype bias, language bias (영어 우대), refusal bias
- 표준 도구: Fairlearn, IBM AI Fairness 360, BOLD/StereoSet (LLM 전용)
3.11 LLM 운영 평가의 실전 흐름
섹션 제목: “3.11 LLM 운영 평가의 실전 흐름”운영에서 평가가 어떻게 사용되는지.
1. Gold dataset 준비 (도메인별 100~500개)2. 자동 metric 1차 통과 (BLEU, ROUGE, exact match)3. LLM-as-judge로 자유 텍스트 품질 (다중 모델·다중 페어)4. 사람 검수 (의심 케이스만, ~10%)5. Regression dashboard (모델 변경 vs 점수 추이)6. A/B 테스트 (실 운영 검증)7. drift 모니터링 (입력 분포 변화 감지)3.12 Reasoning·Agentic 평가 (2024-2026 핵심)
섹션 제목: “3.12 Reasoning·Agentic 평가 (2024-2026 핵심)”운영자가 reasoning 모델·에이전트를 도입할 때 반드시 알아야 할 평가 영역.
Reasoning 평가
섹션 제목: “Reasoning 평가”- GPQA Diamond (198Q PhD-level): frontier 모델 변별, 학습 시 거의 못 푸는 문제
- MATH-500 / AIME 2024/2025: 수학 reasoning. o1·DeepSeek-R1 평가 표준
- ARC-AGI: 추상·일반 지능 평가
- best-of-N / cons@k / self-consistency: 같은 문제에 N번 답하고 majority voting — test-time compute scaling 평가
- Pass@k (코드 평가, Chen et al. 2021):
1 - C(n-c, k)/C(n, k)unbiased estimator
Agentic 평가 (에이전트 운영자 필수)
섹션 제목: “Agentic 평가 (에이전트 운영자 필수)”- SWE-Bench Verified (500): GitHub 이슈 해결. Devin·Cline·Cursor 같은 에이전트 ranking 표준
- BFCL v3 (Berkeley Function Calling Leaderboard): tool/function calling 정확도. 에이전트 핵심 능력
- τ-bench (tau-bench): multi-turn tool agent. user simulation 포함
- WebArena, OSWorld, GAIA: web/OS 자동화 에이전트
- ToolBench: 16k API 호출 평가
Evaluation harness 도구
섹션 제목: “Evaluation harness 도구”운영 reproducibility의 핵심.
- lm-evaluation-harness (EleutherAI): 가장 널리 쓰이는 표준
- OpenCompass: Shanghai AI Lab, 다국어·다축 평가
- Inspect AI (UK AISI): safety 평가 표준
- simple-evals (OpenAI): 미니멀 reference
- 운영 통합: Promptfoo, Braintrust, LangSmith, Langfuse
3.13 RAG 전용 평가
섹션 제목: “3.13 RAG 전용 평가”RAG 시스템은 별도 지표 필요.
- Retrieval 품질: recall@k, MRR, Hit@k, NDCG@k
- Faithfulness: 답변이 검색된 문서에 충실한가 (hallucination 방지)
- Answer relevance: 답변이 질문에 답하는가
- Context precision: 검색된 chunk 중 관련 있는 비율
- Context recall: 정답에 필요한 정보가 실제로 검색됐는가
- 2025 추가 지표: Aspect Critic, Noise Sensitivity, Multi-turn evaluation (Ragas)
- 표준 도구: Ragas (4-지표 표준), ARES, TruLens (RAG triad)
3.14 깨지는 조건 정량 표 (운영 결정용)
섹션 제목: “3.14 깨지는 조건 정량 표 (운영 결정용)”| 평가 기법 | 효과 발휘 범위 | 깨지는 조건 |
|---|---|---|
| Accuracy | 균형 데이터 | imbalanced (>80:20) → F1·PR-AUC 사용 |
| ROC-AUC | 균형 데이터 | 99:1 이상 imbalance → PR-AUC 표준 |
| BLEU/ROUGE | 번역·요약 (n-gram 일치) | 의미 같지만 표현 다른 답에 약함 |
| LLM-as-judge | 자유 텍스트 빠른 평가 | 코드·수학·전문 영역 → 사람 평가 일치 60%대 |
| Gold dataset 100개 | prompt/모델 회귀 빠른 검증 | 5%p 이상 차이 검출엔 부족 (~400 필요, Wilson) |
| Self-consistency N=3 | variance 감지 | 평균 6+ 필요 시 부족 (cost 자릿수 증가) |
| MMLU | 일반 지식 평가 | contamination 위험 → LiveBench·Arena-Hard 권장 |
| Static benchmark | 빠른 비교 | frontier 모델은 saturation → 동적 갱신 필요 |
3.15 통계적 유의성과 회귀 판정
섹션 제목: “3.15 통계적 유의성과 회귀 판정”gold dataset 점수 비교에 noise를 어떻게 다룰까.
- Paired bootstrap: 같은 sample에 두 prompt·모델 비교. resample 1000회로 95% 신뢰구간
- McNemar’s test: 분류 정답·오답이 prompt별 다를 때 통계적 유의성
- Welch’s t-test: 두 분포 평균 차이 (등분산 가정 X)
- 회귀 판정 임계: variance 2점 이내 차이는 noise로 간주 (rubric
plateau_detection) - Power analysis: 5%p 차이 95% confidence 검출엔 ~400 sample 필요 (Wilson interval)
3.16 LLM-as-Judge 비용·지연 정량
섹션 제목: “3.16 LLM-as-Judge 비용·지연 정량”판정 시 누적 비용 무시 못 함.
회귀 1회 (gold 200개): - judge 모델: GPT-4o ($2.5/$10 per 1M) - 평균 prompt: 2k tokens, 응답: 500 tokens - 호출 1회: $0.005 + $0.005 = $0.01 - 200개 × pairwise(2 모델) = 400 호출 = ~$4 - 일주일 5회 회귀 = ~$20/주 - 다중 judge ensemble (3개 모델 평균): $60/주운영자에게 의미 있는 자릿수. budget alert 필수.
3.17 평가의 일반 매핑 (Transferable Pattern)
섹션 제목: “3.17 평가의 일반 매핑 (Transferable Pattern)”평가의 핵심 — “측정 + 회귀 검증 + drift 모니터링” — 은 다른 시스템에도 동일 패턴.
| 평가 구성요소 | 일반 시스템 매핑 |
|---|---|
| Gold dataset | regression test, golden output |
| LLM-as-judge | code review bot, lint, automated PR check |
| A/B test | feature flag rollout, canary deployment |
| Drift detection | observability metric anomaly, SLO violation alert |
| Confusion matrix | error categorization, root cause matrix |
| ROC/PR curve | precision-recall trade-off (검색·anti-spam·IDS) |
| Statistical significance | A/B 통계 (전통 웹 A/B와 같음) |
일반 공식: “측정 → 비교 → 통계적 판정 → 회귀 검증”의 4단계가 ML·웹·인프라·검색 모든 시스템에 공통이다. ML 평가가 특별한 게 아니라 품질 측정 시스템의 한 사례.
운영 시나리오 — LLM 버전 교체 회귀 검증 (예시)
섹션 제목: “운영 시나리오 — LLM 버전 교체 회귀 검증 (예시)”상황: 사내 챗봇 GPT-4o → GPT-4o-mini 교체 검토 (비용 17× ↓)도구: - Gold dataset: 200 한국어 Q&A (3개월 누적) - LLM-as-judge: Claude Sonnet 4.6 (자기-bias 회피 위해 GPT 안 씀) - Promptfoo dashboard
회귀 검증 흐름: 1. 같은 200개 query에 두 모델 응답 생성 2. judge로 pairwise 비교 (swap test 포함) 3. statistical: paired bootstrap, 95% CI 4. 사람 검수: judge가 의견 갈리는 ~30개
결과 (가상): - 200개 중 GPT-4o-mini 우위 38%, GPT-4o 우위 42%, tie 20% - 통계적으로 차이 없음 (p=0.47) - 비용 17× ↓ → mini 채택 합리적대안 비선택: 사람 검수 100% (비용 多), benchmark만 (도메인 mismatch).§3.5 LLM-as-judge bias + §3.7 gold dataset + §3.15 통계 유의성 + §3.16 비용 산식 모두 적용.
4. 실무에서 어디에 쓰이나
섹션 제목: “4. 실무에서 어디에 쓰이나”- LLM 모델 선택·교체 결정
- LLM 응답 품질 회귀 검증
- A/B 테스트 통계 분석
- 데이터 큐레이션 품질 관리
- bias·fairness audit
- RAG 시스템 평가 (retrieval + generation)
- ML 모델 모니터링 dashboard
5. 현재 내 업무와 연결점
섹션 제목: “5. 현재 내 업무와 연결점”플랫폼 엔지니어가 LLM 운영할 때 평가 직관이 다음에 도움 된다.
- LLM 버전 교체 의사결정: GPT-4 → GPT-4o → Claude로 교체할 때 회귀 검증. gold dataset + LLM-as-judge로 자동화
- Prompt 변경 회귀: prompt 수정 후 점수 떨어진 케이스 자동 식별
- 모델 선택 협상: 벤치마크 점수만이 아닌 자기 도메인 gold set 점수가 진짜 기준
- chatbot 품질 모니터링: drift 감지 → 사람 검수 트리거 → 데이터 보강 → 재학습 루프
- bias audit: 사용자 그룹별 답변 품질 비교, 차별 위험 감지
6. 자주 헷갈리는 개념 비교
섹션 제목: “6. 자주 헷갈리는 개념 비교”| 개념 A | 개념 B | 차이점 |
|---|---|---|
| Accuracy | F1 | 전체 vs precision·recall 조화. imbalance에서는 F1 |
| Precision | Recall | 양성 예측 정확 vs 양성 잡아내기. trade-off 관계 |
| ROC-AUC | PR-AUC | balance 데이터 vs imbalance에서 PR이 더 정확 |
| Perplexity | Downstream task | next-token 예측 능력 vs 실제 작업 능력 |
| BLEU | BERTScore | n-gram 일치 vs 임베딩 의미 거리 |
| LLM-as-judge | 사람 평가 | 80~90% 일치, 빠르고 싸지만 bias 있음 |
| MMLU | LiveBench | 정적 벤치 (contamination 위험) vs 매월 갱신 |
| Demographic parity | Equalized odds | 결과 분포 같음 vs 오류율 같음 |
| Gold dataset | Production traffic | 정제된 회귀 검증 vs 실 사용자 검증 |
7. 체크리스트
섹션 제목: “7. 체크리스트”- Accuracy의 함정과 imbalanced data에서 F1·PR-AUC가 더 정확한 이유를 설명할 수 있다
- LLM-as-judge의 4가지 bias(position, verbosity, self, length)를 말할 수 있다
- MMLU 같은 정적 벤치마크의 contamination 함정과 LiveBench·Arena가 대응책인 이유를 설명할 수 있다
- Gold dataset + regression eval이 LLM 운영의 핵심 도구인 이유를 설명할 수 있다
- RAG 평가의 4지표(faithfulness, relevance, context precision, retrieval)를 구분할 수 있다
- Demographic parity와 equalized odds의 차이를 설명할 수 있다
- Data leakage의 3종(train/test split, target leakage, temporal)을 식별할 수 있다
8. 추가 학습 키워드
섹션 제목: “8. 추가 학습 키워드”- 분류 평가: confusion matrix, ROC-AUC, PR-AUC, calibration plot, Brier score
- LLM 평가: perplexity, BLEU, ROUGE, METEOR, BERTScore, BLEURT
- LLM-as-judge: MT-Bench, AlpacaEval, Arena-Hard, G-Eval, Prometheus
- 벤치마크: MMLU, HumanEval, GSM8K, MATH, BBH, IFEval, LiveBench, LMSYS Arena, SWE-Bench
- 운영 도구: Promptfoo, Braintrust, LangSmith, Langfuse, Ragas, TruLens, ARES
- 데이터 품질: Cohen’s kappa, Fleiss’ kappa, Krippendorff’s alpha
- Bias·Fairness: Fairlearn, AIF360, BOLD, StereoSet, BBQ
- RAG 평가: Ragas (faithfulness/relevance), DeepEval, ARES
9. 내가 직접 확인해볼 것
섹션 제목: “9. 내가 직접 확인해볼 것”분류 metric 직접 계산
섹션 제목: “분류 metric 직접 계산”- sklearn
classification_report로 imbalanced 데이터(예: 95:5) 분류 모델의 precision/recall/F1을 출력. accuracy만 보면 좋아 보이지만 minority class recall이 낮은지 확인 -
roc_auc_score와average_precision_score(PR-AUC)를 같은 데이터에 비교. PR-AUC가 더 잘 변별하는지
LLM-as-judge 실험
섹션 제목: “LLM-as-judge 실험”- 같은 질문에 GPT-4 응답과 Claude 응답을 만들고, 또 다른 LLM(예: o4-mini)에 비교 평가시킴. 응답 순서를 뒤집어 다시 평가 — position bias 체감
- 짧은 정답 vs 장황한 정답을 평가 — verbosity bias 체감
Gold dataset 만들기
섹션 제목: “Gold dataset 만들기”- 자기 도메인의 질문 50개에 정답을 직접 써본다 (gold set). promptfoo로 다른 LLM들에 같은 질문을 던지고 점수 비교. promptfoo 실행 후 dashboard에서 회귀 케이스 식별
- prompt를 살짝 수정한 뒤 같은 gold set에서 점수 변화 측정 — regression eval 흐름 체험
RAG 평가
섹션 제목: “RAG 평가”- Ragas 또는 TruLens로 RAG 시스템에 faithfulness/relevance/context precision 측정 — 어느 metric이 가장 약한지 식별 → 그게 개선 우선순위
Bias audit
섹션 제목: “Bias audit”- 자기 LLM 챗봇에 사용자 그룹별(성별·연령·언어) 같은 질문을 던지고 답변 품질 비교 — 차별 시그널 감지
결과가 예상과 다를 때
섹션 제목: “결과가 예상과 다를 때”- accuracy 좋은데 minority class 망가짐 → class_weight 조정, threshold 재조정, F1·PR-AUC 사용
- LLM-as-judge 점수가 사람 평가와 안 맞음 → judge 모델 변경, 평가 prompt 개선, 다중 judge 평균
- RAG retrieval은 좋은데 답변 품질 낮음 → faithfulness가 약함. reranker 도입 or 답변 prompt에 “출처에서만 답하라” 강조
10. 5줄 요약
섹션 제목: “10. 5줄 요약”- 분류는 accuracy·precision·recall·F1·ROC/PR-AUC, 회귀는 MSE·MAE·R², LLM은 perplexity·BLEU·BERTScore·LLM-as-judge가 표준이다.
- Accuracy의 함정·LLM-as-judge bias·benchmark contamination 등 silent failure가 평가의 흔한 함정이다.
- Gold dataset + regression eval이 운영자의 핵심 도구이며, MMLU 점수보다 자기 도메인 gold set 점수가 더 신뢰 가능.
- RAG는 retrieval 품질·faithfulness·answer relevance·context precision을 별도 측정해야 한다 (Ragas 표준).
- 데이터 품질(label noise, leakage, bias)이 평가의 절반 — 좋은 평가는 좋은 데이터에서 시작.
11. 출처
섹션 제목: “11. 출처”- scikit-learn — Model evaluation: quantifying the quality of predictions
- Saito & Rehmsmeier, PR vs ROC for imbalanced data (PLoS ONE 2015)
- Zheng et al., Judging LLM-as-a-Judge / MT-Bench (arXiv:2306.05685)
- Liang et al., HELM (arXiv:2211.09110)
- LMSYS Chatbot Arena leaderboard
- LiveBench — Contamination-free LLM benchmark (arXiv:2406.19314)
- Es et al., Ragas: Automated Evaluation of RAG (arXiv:2309.15217)
- Microsoft, Fairlearn
- IBM AI Fairness 360
- Hardt et al., Equalized Odds (arXiv:1610.02413)
- Promptfoo docs
- Chen et al., Codex / Pass@k (arXiv:2107.03374)
- Rein et al., GPQA (arXiv:2311.12022)
- Wang et al., MMLU-Pro (arXiv:2406.01574)
- Jimenez et al., SWE-Bench (arXiv:2310.06770)
- Yao et al., τ-bench (arXiv:2406.12045)
- Berkeley Function Calling Leaderboard
- EleutherAI lm-evaluation-harness
- Northcutt et al., Pervasive Label Errors (arXiv:2103.14749)
- Dubois et al., AlpacaEval LC (arXiv:2404.04475)
- Arena-Hard-Auto blog
- Ragas docs — metrics
최종 수정: 2026-04-26