모델 평가와 데이터 품질

분류: Layer 11 - AI 기초 & 머신러닝 | 선수지식: L11-20 (고전 ML), L11-30 (ML 패러다임)

모델 평가와 데이터 품질 — Metrics, Benchmarks, Bias

1. 한 줄 정의

모델 평가는 모델이 얼마나 좋은지를 객관 측정하는 도구이고, 데이터 품질은 학습·평가 데이터의 무결성·대표성이다. 둘은 분리할 수 없으며, 평가 지표와 데이터의 결함이 운영 silent failure의 절반 이상을 만든다.

2. 왜 중요한가

모델 선택 결정: “이 LLM이 다른 LLM보다 나은가”의 기준
운영 회귀 감지: 모델 업데이트 후 어느 영역이 망가졌는지 (LLM 버전 교체의 핵심)
silent failure 발견: accuracy는 같은데 특정 클래스만 망가지는 경우
benchmark의 함정: MMLU 점수가 좋아도 실 운영에서 약한 영역 있음
데이터 quality는 model quality: 좋은 평가는 좋은 데이터에서 시작

3. 핵심 개념

3.0 등장 배경 — 평가 도구의 lineage

평가는 단일 지표가 아니라 “선행 도구의 정량적 한계 → 새 도구”의 연쇄로 확장돼 왔다. 본 토픽의 PR-AUC·LLM-as-judge·gold dataset은 각각 직전 도구가 silent하게 망가지는 지점을 메우는 메커니즘이다.

Accuracy → PR-AUC (Saito & Rehmsmeier 2015): 1:10 imbalance 시뮬레이션에서 accuracy 0.6은 균형/imbalance 양쪽에서 동일하게 측정되지만 precision은 0.6 → 0.33으로 떨어진다. ROC도 specificity 해석이 imbalance에서 직관과 어긋난다. PR-AUC는 분모에 TN을 포함하지 않아 imbalance ratio에 그대로 반응 (§3.2).
정적 benchmark → LiveBench·Arena-Hard (White et al. 2024, arxiv:2406.19314): MMLU·GSM8K는 학습 데이터 contamination으로 점수가 saturate. LiveBench는 매월 문제 갱신 + 객관 ground truth로 채점, Arena-Hard는 LLM-judge 기반이어서 GPT-4가 LiveBench보다 Arena-Hard에서 상대적으로 높게 나옴 — 같은 모델이 두 벤치에서 다른 순위가 나오는 것 자체가 judge bias의 lineage 잔여물 (§3.5).
Auto metric (BLEU/ROUGE) → LLM-as-judge (Zheng et al. 2023): n-gram 일치는 “의미 같지만 표현 다른” 자유 텍스트에 무력. 강한 judge(GPT-4)가 controlled/crowdsourced 사람 평가와 80%+ 일치하지만, self-enhancement로 자기 답변에 +10% 승률을 부여 — 다시 swap test·다중 judge ensemble로 우회 (§3.16 비용 자릿수 ↑).
Public benchmark → Gold dataset + Regression eval: MMLU·HumanEval 점수가 좋아도 “내 도메인 한국어 Q&A”는 알 수 없다 (§3.6). 자기 도메인 200~400 sample gold set + paired bootstrap이 운영 회귀 판정의 최종 권위. Wilson interval로 5%p 차이를 95% confidence로 검출하려면 ~246+ sample 필요 (80% pass rate 가정).

이 토픽이 사라지면 무엇이 깨지나: LLM 버전 교체 시 한국어 도메인만 망가져도 MMLU·HumanEval 변화 없이 production에 silent regression이 들어간다. judge·gold set 없이는 “비용 17× 싼 mini 모델로 교체해도 안전한가”라는 운영 결정을 객관적으로 부정도 인정도 못 한다.

3.1 분류 평가의 기본 지표

confusion matrix로부터 시작:

                  실제 양성   실제 음성
예측 양성             TP          FP
예측 음성             FN          TN

지표	식	직관	약점
Accuracy	(TP+TN) / 전체	전체 맞은 비율	imbalance에서 무력
Precision (정밀도)	TP / (TP+FP)	“양성이라 한 것 중 진짜 양성”	recall과 trade-off
Recall (재현율)	TP / (TP+FN)	“진짜 양성 중 잡아낸 것”	precision과 trade-off
F1	2·P·R / (P+R)	precision·recall 조화 평균	둘의 가중치 같다고 가정
Specificity	TN / (TN+FP)	“음성을 음성이라 한 비율”	의료에서 중요

Accuracy의 함정: 99% negative 데이터에서 “전부 negative” 예측 = 99% accuracy. recall 0%이지만 accuracy는 좋아 보임 (L11-20 §3.6 silent failure). Saito & Rehmsmeier 2015 시뮬레이션(1000 pos vs 10000 neg, 1:10): 같은 accuracy 0.6에서도 균형 데이터 precision 0.6 → imbalance precision 0.33으로 떨어진다 — 같은 점수가 다른 운영 의미를 가린다는 정량 증거. 결정 규칙: positive:negative 비율이 1:5 넘으면 accuracy/ROC 단독 판단 금지, F1·PR-AUC 병행.

3.2 ROC / PR Curve와 AUC

threshold를 바꾸며 trade-off를 그려봄.

ROC curve: TPR(recall) vs FPR. AUC가 높을수록 분류 능력 좋음
PR curve: Precision vs Recall. imbalanced data에서 ROC보다 정확
AUC-PR: PR curve 아래 면적. 99% negative 데이터에서 의미 있는 지표

3.3 회귀 평가

연속값 예측의 지표.

지표	식	직관
MSE	평균 제곱 오차	큰 오차에 민감
MAE	평균 절대 오차	outlier에 robust
R²	설명된 분산 비율	[0,1] (음수 가능)
MAPE	평균 절대 백분율 오차	스케일 무관. 0 근처에서 약함

3.4 LLM 평가의 어려움

분류·회귀와 달리 LLM 출력은 자유 텍스트라 단일 정답이 없음.

Perplexity (L11-10 §3.3): exp(평균 cross-entropy). next-token prediction 능력만 측정 — downstream 성능과 약한 상관
BLEU / ROUGE: 번역·요약 표준. n-gram 일치율. 의미적으로 같지만 표현 다른 답에 약함
BERTScore: BERT 임베딩 거리로 의미 유사도 측정. BLEU보다 좋지만 여전히 표면적
Exact match: 코드·수학 같은 정답이 명확한 경우만

3.5 LLM-as-Judge

LLM(보통 GPT-4·Claude)이 다른 LLM의 출력을 평가.

장점: 자유 텍스트도 평가 가능, 강한 judge(GPT-4)가 controlled/crowdsourced 사람 평가와 80%+ 일치 (Zheng et al. 2023, arxiv:2306.05685). 단 코드·수학·전문 영역에선 ~60%로 떨어짐
표준 4종 bias (MT-Bench, Zheng et al. 2023):
- Position bias: 응답 순서가 점수에 영향 → 반대 순서로 다시 평가(swap test). swap 시 결정이 뒤집히는 비율이 5%p 넘으면 ensemble 강제
- Verbosity bias: 모든 LLM judge가 길이 선호 — GPT-4가 비교적 잘 방어하지만 차이는 정량적으로 남음. AlpacaEval LC 같은 length-controlled 정규화 필요
- Self-enhancement bias: 자기 모델 답변에 +10% 더 높은 승률 부여 (Zheng 2023 GPT-4 측정). 결정 규칙: GPT-4 가족 평가에 GPT 계열 judge 사용 금지, Claude 같은 cross-family judge로 대체
- Limited reasoning bias: 수학·논리 평가 능력의 한계 (judge 자체가 약하면 평가도 약함)
2024+ 추가 bias: Familiarity bias, Authority bias (권위적 톤 선호)
Judge robustness 평가: JudgeBench, Prometheus 2 — judge 모델 자체를 평가하는 벤치마크
MT-Bench, AlpacaEval LC, Arena-Hard-Auto v2.0: LLM-as-judge 기반 표준 벤치마크
비용: GPT-4 평가는 호출당 비용, 대규모 회귀 시 누적 부담

3.6 LLM Benchmark의 함정

표준 벤치마크 점수만 믿으면 실 운영에서 실패.

벤치마크	측정	함정
MMLU	다영역 다지선다	학습 데이터에 포함됐을 위험 (contamination)
HumanEval	Python 함수 작성, 164 문제	작은 셋 → overfitting, contamination 위험
MBPP	Python 기본 함수 (974)	HumanEval보다 큼
GSM8K	초등 수학	학습 데이터 contamination 보고됨 (Schaeffer 2023)
MATH-500 / AIME 24/25	수학 reasoning	reasoning 모델 평가 표준
GPQA Diamond (198Q)	PhD-level 과학·수학	frontier 모델 변별
MMLU-Pro	MMLU 후속 (10지선다, reasoning)	MMLU의 contamination·saturation 대응
HELM (Capabilities/Safety/Lite)	종합 다축 평가	metric 다양성·비용이 한계
LMSYS Arena	사람 직접 비교 (Bradley-Terry)	“Arena Score 100 차이 ≈ 64% 승률”
Arena-Hard / Auto v2	500 hard prompt, style control judge	MT-Bench 후속
MT-Bench	LLM-as-judge (1~10 score)	GPT-4 ≈ 9.0, GPT-3.5 ≈ 7.9 baseline
LiveBench	정기 갱신, contamination 방지	운영자 신뢰 가능 ranking
SWE-Bench Verified (500)	GitHub 이슈 해결	에이전트 운영 표준
BFCL v3 (Berkeley)	function calling 정확도	tool-using LLM 평가
τ-bench	tool agent multi-turn	에이전트 운영 시뮬레이션

Data contamination: 벤치마크 데이터가 학습 데이터에 새어 들어가 모델이 외운 것 — 점수 부풀림. canary string 같은 검증 기법, LiveBench·Arena-Hard처럼 매월 갱신되는 벤치마크가 대응.

3.7 Gold Dataset과 Regression Eval

운영자에게 가장 중요한 평가 도구.

Gold dataset: 도메인·작업별 정답 셋 (보통 100~1000개). 사람이 검수
Regression eval: 모델 변경 (LLM 버전 교체, prompt 수정, fine-tune)마다 같은 gold set로 점수 비교
회귀 검출: 점수가 떨어진 케이스 = silent failure 후보. 사람이 직접 검수
A/B 테스트와 결합: gold set는 빠른 회귀 감지, A/B는 실 운영 검증
운영 표준 도구: Promptfoo, Braintrust, LangSmith, Langfuse, Ragas (RAG 특화)

언제 gold dataset이 깨지는가 (Inversion):

Sample 부족: 100개 set로는 5%p 차이가 noise에 묻힘. Wilson 95%/5%로는 246+, 99%/3%로는 1100+ 필요. 진단: python -c "from statsmodels.stats.proportion import samplesize_confint_proportion as f; print(f(0.8, 0.05))" → 출력 246. 250 미만이면 “p=0.5 근처” 판정은 회귀 결론을 내리지 말 것.
Freshness 붕괴: gold set이 production 입력 분포와 어긋남 (covariate shift, L11-30 §3.9). 진단: Promptfoo dashboard에서 최근 fail case 카테고리 분포 ≠ gold set 카테고리 분포면 gold set 갱신. 6개월 무갱신은 거의 항상 stale.
Annotator 단일화: 한 사람이 만든 200개는 그 사람의 bias가 평가 기준이 됨 (§3.10 confirmation bias). 진단: 두 번째 annotator로 20개 샘플 재라벨, Cohen’s kappa < 0.6이면 label spec 재작성. 산업 SLA는 0.6+.
silent failure: 같은 정답이지만 표현만 다른 답에 LLM-judge가 일관되지 않게 점수를 줌. 진단: paraphrase 5개 변형으로 같은 정답 입력 후 분산이 1점(10점 만점) 넘으면 judge prompt rubric을 더 구체화하거나 exact-match 부분 도입.

3.8 데이터 품질의 차원

좋은 평가는 좋은 데이터에서 출발.

Accuracy (정확도): 레이블이 맞는가
Coverage: 모든 카테고리·엣지 케이스 포함
Balance: 클래스 imbalance 관리
Freshness: 시간이 지나며 distribution shift (L11-30 §3.9)
Provenance: 어디서 왔는지, 라이선스가 어떤지
Privacy: PII 제거, GDPR 준수
Annotator agreement: 사람 두 명이 같은 답을 내는가 (Cohen’s kappa). Landis & Koch 임계: <0.2 poor, 0.2~~0.4 fair, 0.4~~0.6 moderate, 0.6~0.8 substantial, >0.8 almost perfect. 산업 SLA는 보통 0.6+ 요구

3.9 데이터 품질 silent failure

운영에서 자주 만나는 문제.

Label noise: 사람 annotator의 실수. Northcutt et al. 2021 보고 — ImageNet/MNIST 등 주요 데이터셋 평균 3.4% 라벨 오류
Annotator bias: 한 사람의 의견이 데이터를 편향시킴
Selection bias: 학습 데이터가 운영 데이터와 분포 다름 (L11-30 §3.9 covariate shift)
Data leakage: 학습 데이터에 평가 데이터가 섞임 (L11-20 §3.6 silent failure)
Temporal leakage: 미래 정보를 feature로 사용
PII / 저작권: 운영 시 법적 문제

3.10 Bias와 Fairness

ML 모델의 사회적 편향.

Bias 종류:
- Demographic bias (성별·인종·지역)
- Recency bias (최근 데이터 과대 가중)
- Selection bias (특정 그룹 underrepresented)
- Confirmation bias (annotator의 선입견)
측정 지표:
- Demographic parity: 그룹별 양성 예측 비율 같음
- Equalized odds: 그룹별 TPR·FPR 같음
- Calibration: 예측 확률이 실제 빈도와 일치
LLM bias: stereotype bias, language bias (영어 우대), refusal bias
표준 도구: Fairlearn, IBM AI Fairness 360, BOLD/StereoSet (LLM 전용)

3.11 LLM 운영 평가의 실전 흐름

운영에서 평가가 어떻게 사용되는지.

1. Gold dataset 준비 (도메인별 100~500개)
2. 자동 metric 1차 통과 (BLEU, ROUGE, exact match)
3. LLM-as-judge로 자유 텍스트 품질 (다중 모델·다중 페어)
4. 사람 검수 (의심 케이스만, ~10%)
5. Regression dashboard (모델 변경 vs 점수 추이)
6. A/B 테스트 (실 운영 검증)
7. drift 모니터링 (입력 분포 변화 감지)

3.12 Reasoning·Agentic 평가 (2024-2026 핵심)

운영자가 reasoning 모델·에이전트를 도입할 때 반드시 알아야 할 평가 영역.

Reasoning 평가

GPQA Diamond (198Q PhD-level): frontier 모델 변별, 학습 시 거의 못 푸는 문제
MATH-500 / AIME 2024/2025: 수학 reasoning. o1·DeepSeek-R1 평가 표준
ARC-AGI: 추상·일반 지능 평가
best-of-N / cons@k / self-consistency: 같은 문제에 N번 답하고 majority voting — test-time compute scaling 평가
Pass@k (코드 평가, Chen et al. 2021): 1 - C(n-c, k)/C(n, k) unbiased estimator

Agentic 평가 (에이전트 운영자 필수)

SWE-Bench Verified (500): GitHub 이슈 해결. Devin·Cline·Cursor 같은 에이전트 ranking 표준
BFCL v3 (Berkeley Function Calling Leaderboard): tool/function calling 정확도. 에이전트 핵심 능력
τ-bench (tau-bench): multi-turn tool agent. user simulation 포함
WebArena, OSWorld, GAIA: web/OS 자동화 에이전트
ToolBench: 16k API 호출 평가

Evaluation harness 도구

운영 reproducibility의 핵심.

lm-evaluation-harness (EleutherAI): 가장 널리 쓰이는 표준
OpenCompass: Shanghai AI Lab, 다국어·다축 평가
Inspect AI (UK AISI): safety 평가 표준
simple-evals (OpenAI): 미니멀 reference
운영 통합: Promptfoo, Braintrust, LangSmith, Langfuse

3.13 RAG 전용 평가

RAG 시스템은 별도 지표 필요.

Retrieval 품질: recall@k, MRR, Hit@k, NDCG@k
Faithfulness: 답변이 검색된 문서에 충실한가 (hallucination 방지)
Answer relevance: 답변이 질문에 답하는가
Context precision: 검색된 chunk 중 관련 있는 비율
Context recall: 정답에 필요한 정보가 실제로 검색됐는가
2025 추가 지표: Aspect Critic, Noise Sensitivity, Multi-turn evaluation (Ragas)
표준 도구: Ragas (4-지표 표준), ARES, TruLens (RAG triad)

3.14 깨지는 조건 정량 표 (운영 결정용)

평가 기법	효과 발휘 범위	깨지는 조건
Accuracy	균형 데이터	imbalanced (>80:20) → F1·PR-AUC 사용
ROC-AUC	균형 데이터	99:1 이상 imbalance → PR-AUC 표준
BLEU/ROUGE	번역·요약 (n-gram 일치)	의미 같지만 표현 다른 답에 약함
LLM-as-judge	자유 텍스트 빠른 평가	코드·수학·전문 영역 → 사람 평가 일치 60%대
Gold dataset 100개	prompt/모델 회귀 빠른 검증	5%p 이상 차이 검출엔 부족 (~400 필요, Wilson)
Self-consistency N=3	variance 감지	평균 6+ 필요 시 부족 (cost 자릿수 증가)
MMLU	일반 지식 평가	contamination 위험 → LiveBench·Arena-Hard 권장
Static benchmark	빠른 비교	frontier 모델은 saturation → 동적 갱신 필요

3.15 통계적 유의성과 회귀 판정

gold dataset 점수 비교에 noise를 어떻게 다룰까.

Paired bootstrap: 같은 sample에 두 prompt·모델 비교. resample 1000회로 95% 신뢰구간
McNemar’s test: 분류 정답·오답이 prompt별 다를 때 통계적 유의성
Welch’s t-test: 두 분포 평균 차이 (등분산 가정 X)
회귀 판정 임계: variance 2점 이내 차이는 noise로 간주 (rubric plateau_detection)
Power analysis: 5%p 차이 95% confidence 검출엔 ~400 sample 필요 (Wilson interval)

3.16 LLM-as-Judge 비용·지연 정량

판정 시 누적 비용 무시 못 함.

회귀 1회 (gold 200개):
  - judge 모델: GPT-4o ($2.5/$10 per 1M)
  - 평균 prompt: 2k tokens, 응답: 500 tokens
  - 호출 1회: $0.005 + $0.005 = $0.01
  - 200개 × pairwise(2 모델) = 400 호출 = ~$4
  - 일주일 5회 회귀 = ~$20/주
  - 다중 judge ensemble (3개 모델 평균): $60/주

운영자에게 의미 있는 자릿수. budget alert 필수.

3.17 평가의 일반 매핑 (Transferable Pattern)

평가의 핵심 — “측정 + 회귀 검증 + drift 모니터링” — 은 다른 시스템에도 동일 패턴.

평가 구성요소	일반 시스템 매핑
Gold dataset	regression test, golden output
LLM-as-judge	code review bot, lint, automated PR check
A/B test	feature flag rollout, canary deployment
Drift detection	observability metric anomaly, SLO violation alert
Confusion matrix	error categorization, root cause matrix
ROC/PR curve	precision-recall trade-off (검색·anti-spam·IDS)
Statistical significance	A/B 통계 (전통 웹 A/B와 같음)

일반 공식: “측정 → 비교 → 통계적 판정 → 회귀 검증”의 4단계가 ML·웹·인프라·검색 모든 시스템에 공통이다. ML 평가가 특별한 게 아니라 품질 측정 시스템의 한 사례.

운영 시나리오 — LLM 버전 교체 회귀 검증 (예시)

상황: 사내 챗봇 GPT-4o → GPT-4o-mini 교체 검토 (비용 17× ↓)
도구:
  - Gold dataset: 200 한국어 Q&A (3개월 누적)
  - LLM-as-judge: Claude Sonnet 4.6 (자기-bias 회피 위해 GPT 안 씀)
  - Promptfoo dashboard

회귀 검증 흐름:
  1. 같은 200개 query에 두 모델 응답 생성
  2. judge로 pairwise 비교 (swap test 포함)
  3. statistical: paired bootstrap, 95% CI
  4. 사람 검수: judge가 의견 갈리는 ~30개

결과 (가상):
  - 200개 중 GPT-4o-mini 우위 38%, GPT-4o 우위 42%, tie 20%
  - 통계적으로 차이 없음 (p=0.47)
  - 비용 17× ↓ → mini 채택 합리적
대안 비선택: 사람 검수 100% (비용 多), benchmark만 (도메인 mismatch).

§3.5 LLM-as-judge bias + §3.7 gold dataset + §3.15 통계 유의성 + §3.16 비용 산식 모두 적용.

4. 실무에서 어디에 쓰이나

LLM 모델 선택·교체 결정
LLM 응답 품질 회귀 검증
A/B 테스트 통계 분석
데이터 큐레이션 품질 관리
bias·fairness audit
RAG 시스템 평가 (retrieval + generation)
ML 모델 모니터링 dashboard

5. 현재 내 업무와 연결점

플랫폼 엔지니어가 LLM 운영할 때 평가 직관이 다음에 도움 된다.

LLM 버전 교체 의사결정: GPT-4 → GPT-4o → Claude로 교체할 때 회귀 검증. gold dataset + LLM-as-judge로 자동화
Prompt 변경 회귀: prompt 수정 후 점수 떨어진 케이스 자동 식별
모델 선택 협상: 벤치마크 점수만이 아닌 자기 도메인 gold set 점수가 진짜 기준
chatbot 품질 모니터링: drift 감지 → 사람 검수 트리거 → 데이터 보강 → 재학습 루프
bias audit: 사용자 그룹별 답변 품질 비교, 차별 위험 감지

6. 자주 헷갈리는 개념 비교

개념 A	개념 B	차이점
Accuracy	F1	전체 vs precision·recall 조화. imbalance에서는 F1
Precision	Recall	양성 예측 정확 vs 양성 잡아내기. trade-off 관계
ROC-AUC	PR-AUC	balance 데이터 vs imbalance에서 PR이 더 정확
Perplexity	Downstream task	next-token 예측 능력 vs 실제 작업 능력
BLEU	BERTScore	n-gram 일치 vs 임베딩 의미 거리
LLM-as-judge	사람 평가	80~90% 일치, 빠르고 싸지만 bias 있음
MMLU	LiveBench	정적 벤치 (contamination 위험) vs 매월 갱신
Demographic parity	Equalized odds	결과 분포 같음 vs 오류율 같음
Gold dataset	Production traffic	정제된 회귀 검증 vs 실 사용자 검증

7. 체크리스트

Accuracy의 함정과 imbalanced data에서 F1·PR-AUC가 더 정확한 이유를 설명할 수 있다
LLM-as-judge의 4가지 bias(position, verbosity, self, length)를 말할 수 있다
MMLU 같은 정적 벤치마크의 contamination 함정과 LiveBench·Arena가 대응책인 이유를 설명할 수 있다
Gold dataset + regression eval이 LLM 운영의 핵심 도구인 이유를 설명할 수 있다
RAG 평가의 4지표(faithfulness, relevance, context precision, retrieval)를 구분할 수 있다
Demographic parity와 equalized odds의 차이를 설명할 수 있다
Data leakage의 3종(train/test split, target leakage, temporal)을 식별할 수 있다

8. 추가 학습 키워드

분류 평가: confusion matrix, ROC-AUC, PR-AUC, calibration plot, Brier score
LLM 평가: perplexity, BLEU, ROUGE, METEOR, BERTScore, BLEURT
LLM-as-judge: MT-Bench, AlpacaEval, Arena-Hard, G-Eval, Prometheus
벤치마크: MMLU, HumanEval, GSM8K, MATH, BBH, IFEval, LiveBench, LMSYS Arena, SWE-Bench
운영 도구: Promptfoo, Braintrust, LangSmith, Langfuse, Ragas, TruLens, ARES
데이터 품질: Cohen’s kappa, Fleiss’ kappa, Krippendorff’s alpha
Bias·Fairness: Fairlearn, AIF360, BOLD, StereoSet, BBQ
RAG 평가: Ragas (faithfulness/relevance), DeepEval, ARES

9. 내가 직접 확인해볼 것

분류 metric 직접 계산

sklearn classification_report로 imbalanced 데이터(예: 95:5) 분류 모델의 precision/recall/F1을 출력. accuracy만 보면 좋아 보이지만 minority class recall이 낮은지 확인
roc_auc_score와 average_precision_score(PR-AUC)를 같은 데이터에 비교. PR-AUC가 더 잘 변별하는지

LLM-as-judge 실험

같은 질문에 GPT-4 응답과 Claude 응답을 만들고, 또 다른 LLM(예: o4-mini)에 비교 평가시킴. 응답 순서를 뒤집어 다시 평가 — position bias 체감
짧은 정답 vs 장황한 정답을 평가 — verbosity bias 체감

Gold dataset 만들기

자기 도메인의 질문 50개에 정답을 직접 써본다 (gold set). promptfoo로 다른 LLM들에 같은 질문을 던지고 점수 비교. promptfoo 실행 후 dashboard에서 회귀 케이스 식별
prompt를 살짝 수정한 뒤 같은 gold set에서 점수 변화 측정 — regression eval 흐름 체험

RAG 평가

Ragas 또는 TruLens로 RAG 시스템에 faithfulness/relevance/context precision 측정 — 어느 metric이 가장 약한지 식별 → 그게 개선 우선순위

Bias audit

자기 LLM 챗봇에 사용자 그룹별(성별·연령·언어) 같은 질문을 던지고 답변 품질 비교 — 차별 시그널 감지

결과가 예상과 다를 때

accuracy 좋은데 minority class 망가짐 → class_weight 조정, threshold 재조정, F1·PR-AUC 사용
LLM-as-judge 점수가 사람 평가와 안 맞음 → judge 모델 변경, 평가 prompt 개선, 다중 judge 평균
RAG retrieval은 좋은데 답변 품질 낮음 → faithfulness가 약함. reranker 도입 or 답변 prompt에 “출처에서만 답하라” 강조

10. 5줄 요약

분류는 accuracy·precision·recall·F1·ROC/PR-AUC, 회귀는 MSE·MAE·R², LLM은 perplexity·BLEU·BERTScore·LLM-as-judge가 표준이다.
Accuracy의 함정·LLM-as-judge bias·benchmark contamination 등 silent failure가 평가의 흔한 함정이다.
Gold dataset + regression eval이 운영자의 핵심 도구이며, MMLU 점수보다 자기 도메인 gold set 점수가 더 신뢰 가능.
RAG는 retrieval 품질·faithfulness·answer relevance·context precision을 별도 측정해야 한다 (Ragas 표준).
데이터 품질(label noise, leakage, bias)이 평가의 절반 — 좋은 평가는 좋은 데이터에서 시작.

11. 출처

최종 수정: 2026-04-26