콘텐츠로 이동

모델 평가와 데이터 품질

분류: Layer 11 - AI 기초 & 머신러닝 | 선수지식: L11-20 (고전 ML), L11-30 (ML 패러다임)

모델 평가와 데이터 품질 — Metrics, Benchmarks, Bias

섹션 제목: “모델 평가와 데이터 품질 — Metrics, Benchmarks, Bias”

모델 평가는 모델이 얼마나 좋은지를 객관 측정하는 도구이고, 데이터 품질은 학습·평가 데이터의 무결성·대표성이다. 둘은 분리할 수 없으며, 평가 지표와 데이터의 결함이 운영 silent failure의 절반 이상을 만든다.

  • 모델 선택 결정: “이 LLM이 다른 LLM보다 나은가”의 기준
  • 운영 회귀 감지: 모델 업데이트 후 어느 영역이 망가졌는지 (LLM 버전 교체의 핵심)
  • silent failure 발견: accuracy는 같은데 특정 클래스만 망가지는 경우
  • benchmark의 함정: MMLU 점수가 좋아도 실 운영에서 약한 영역 있음
  • 데이터 quality는 model quality: 좋은 평가는 좋은 데이터에서 시작

3.0 등장 배경 — 평가 도구의 lineage

섹션 제목: “3.0 등장 배경 — 평가 도구의 lineage”

평가는 단일 지표가 아니라 “선행 도구의 정량적 한계 → 새 도구”의 연쇄로 확장돼 왔다. 본 토픽의 PR-AUC·LLM-as-judge·gold dataset은 각각 직전 도구가 silent하게 망가지는 지점을 메우는 메커니즘이다.

  • Accuracy → PR-AUC (Saito & Rehmsmeier 2015): 1:10 imbalance 시뮬레이션에서 accuracy 0.6은 균형/imbalance 양쪽에서 동일하게 측정되지만 precision은 0.6 → 0.33으로 떨어진다. ROC도 specificity 해석이 imbalance에서 직관과 어긋난다. PR-AUC는 분모에 TN을 포함하지 않아 imbalance ratio에 그대로 반응 (§3.2).
  • 정적 benchmark → LiveBench·Arena-Hard (White et al. 2024, arxiv:2406.19314): MMLU·GSM8K는 학습 데이터 contamination으로 점수가 saturate. LiveBench는 매월 문제 갱신 + 객관 ground truth로 채점, Arena-Hard는 LLM-judge 기반이어서 GPT-4가 LiveBench보다 Arena-Hard에서 상대적으로 높게 나옴 — 같은 모델이 두 벤치에서 다른 순위가 나오는 것 자체가 judge bias의 lineage 잔여물 (§3.5).
  • Auto metric (BLEU/ROUGE) → LLM-as-judge (Zheng et al. 2023): n-gram 일치는 “의미 같지만 표현 다른” 자유 텍스트에 무력. 강한 judge(GPT-4)가 controlled/crowdsourced 사람 평가와 80%+ 일치하지만, self-enhancement로 자기 답변에 +10% 승률을 부여 — 다시 swap test·다중 judge ensemble로 우회 (§3.16 비용 자릿수 ↑).
  • Public benchmark → Gold dataset + Regression eval: MMLU·HumanEval 점수가 좋아도 “내 도메인 한국어 Q&A”는 알 수 없다 (§3.6). 자기 도메인 200~400 sample gold set + paired bootstrap이 운영 회귀 판정의 최종 권위. Wilson interval로 5%p 차이를 95% confidence로 검출하려면 ~246+ sample 필요 (80% pass rate 가정).

이 토픽이 사라지면 무엇이 깨지나: LLM 버전 교체 시 한국어 도메인만 망가져도 MMLU·HumanEval 변화 없이 production에 silent regression이 들어간다. judge·gold set 없이는 “비용 17× 싼 mini 모델로 교체해도 안전한가”라는 운영 결정을 객관적으로 부정도 인정도 못 한다.

confusion matrix로부터 시작:

실제 양성 실제 음성
예측 양성 TP FP
예측 음성 FN TN
지표직관약점
Accuracy(TP+TN) / 전체전체 맞은 비율imbalance에서 무력
Precision (정밀도)TP / (TP+FP)“양성이라 한 것 중 진짜 양성”recall과 trade-off
Recall (재현율)TP / (TP+FN)“진짜 양성 중 잡아낸 것”precision과 trade-off
F12·P·R / (P+R)precision·recall 조화 평균둘의 가중치 같다고 가정
SpecificityTN / (TN+FP)“음성을 음성이라 한 비율”의료에서 중요

Accuracy의 함정: 99% negative 데이터에서 “전부 negative” 예측 = 99% accuracy. recall 0%이지만 accuracy는 좋아 보임 (L11-20 §3.6 silent failure). Saito & Rehmsmeier 2015 시뮬레이션(1000 pos vs 10000 neg, 1:10): 같은 accuracy 0.6에서도 균형 데이터 precision 0.6 → imbalance precision 0.33으로 떨어진다 — 같은 점수가 다른 운영 의미를 가린다는 정량 증거. 결정 규칙: positive:negative 비율이 1:5 넘으면 accuracy/ROC 단독 판단 금지, F1·PR-AUC 병행.

threshold를 바꾸며 trade-off를 그려봄.

  • ROC curve: TPR(recall) vs FPR. AUC가 높을수록 분류 능력 좋음
  • PR curve: Precision vs Recall. imbalanced data에서 ROC보다 정확
  • AUC-PR: PR curve 아래 면적. 99% negative 데이터에서 의미 있는 지표

연속값 예측의 지표.

지표직관
MSE평균 제곱 오차큰 오차에 민감
MAE평균 절대 오차outlier에 robust
설명된 분산 비율[0,1] (음수 가능)
MAPE평균 절대 백분율 오차스케일 무관. 0 근처에서 약함

분류·회귀와 달리 LLM 출력은 자유 텍스트라 단일 정답이 없음.

  • Perplexity (L11-10 §3.3): exp(평균 cross-entropy). next-token prediction 능력만 측정 — downstream 성능과 약한 상관
  • BLEU / ROUGE: 번역·요약 표준. n-gram 일치율. 의미적으로 같지만 표현 다른 답에 약함
  • BERTScore: BERT 임베딩 거리로 의미 유사도 측정. BLEU보다 좋지만 여전히 표면적
  • Exact match: 코드·수학 같은 정답이 명확한 경우만

LLM(보통 GPT-4·Claude)이 다른 LLM의 출력을 평가.

  • 장점: 자유 텍스트도 평가 가능, 강한 judge(GPT-4)가 controlled/crowdsourced 사람 평가와 80%+ 일치 (Zheng et al. 2023, arxiv:2306.05685). 단 코드·수학·전문 영역에선 ~60%로 떨어짐
  • 표준 4종 bias (MT-Bench, Zheng et al. 2023):
    • Position bias: 응답 순서가 점수에 영향 → 반대 순서로 다시 평가(swap test). swap 시 결정이 뒤집히는 비율이 5%p 넘으면 ensemble 강제
    • Verbosity bias: 모든 LLM judge가 길이 선호 — GPT-4가 비교적 잘 방어하지만 차이는 정량적으로 남음. AlpacaEval LC 같은 length-controlled 정규화 필요
    • Self-enhancement bias: 자기 모델 답변에 +10% 더 높은 승률 부여 (Zheng 2023 GPT-4 측정). 결정 규칙: GPT-4 가족 평가에 GPT 계열 judge 사용 금지, Claude 같은 cross-family judge로 대체
    • Limited reasoning bias: 수학·논리 평가 능력의 한계 (judge 자체가 약하면 평가도 약함)
  • 2024+ 추가 bias: Familiarity bias, Authority bias (권위적 톤 선호)
  • Judge robustness 평가: JudgeBench, Prometheus 2 — judge 모델 자체를 평가하는 벤치마크
  • MT-Bench, AlpacaEval LC, Arena-Hard-Auto v2.0: LLM-as-judge 기반 표준 벤치마크
  • 비용: GPT-4 평가는 호출당 비용, 대규모 회귀 시 누적 부담

표준 벤치마크 점수만 믿으면 실 운영에서 실패.

벤치마크측정함정
MMLU다영역 다지선다학습 데이터에 포함됐을 위험 (contamination)
HumanEvalPython 함수 작성, 164 문제작은 셋 → overfitting, contamination 위험
MBPPPython 기본 함수 (974)HumanEval보다 큼
GSM8K초등 수학학습 데이터 contamination 보고됨 (Schaeffer 2023)
MATH-500 / AIME 24/25수학 reasoningreasoning 모델 평가 표준
GPQA Diamond (198Q)PhD-level 과학·수학frontier 모델 변별
MMLU-ProMMLU 후속 (10지선다, reasoning)MMLU의 contamination·saturation 대응
HELM (Capabilities/Safety/Lite)종합 다축 평가metric 다양성·비용이 한계
LMSYS Arena사람 직접 비교 (Bradley-Terry)“Arena Score 100 차이 ≈ 64% 승률”
Arena-Hard / Auto v2500 hard prompt, style control judgeMT-Bench 후속
MT-BenchLLM-as-judge (1~10 score)GPT-4 ≈ 9.0, GPT-3.5 ≈ 7.9 baseline
LiveBench정기 갱신, contamination 방지운영자 신뢰 가능 ranking
SWE-Bench Verified (500)GitHub 이슈 해결에이전트 운영 표준
BFCL v3 (Berkeley)function calling 정확도tool-using LLM 평가
τ-benchtool agent multi-turn에이전트 운영 시뮬레이션

Data contamination: 벤치마크 데이터가 학습 데이터에 새어 들어가 모델이 외운 것 — 점수 부풀림. canary string 같은 검증 기법, LiveBench·Arena-Hard처럼 매월 갱신되는 벤치마크가 대응.

운영자에게 가장 중요한 평가 도구.

  • Gold dataset: 도메인·작업별 정답 셋 (보통 100~1000개). 사람이 검수
  • Regression eval: 모델 변경 (LLM 버전 교체, prompt 수정, fine-tune)마다 같은 gold set로 점수 비교
  • 회귀 검출: 점수가 떨어진 케이스 = silent failure 후보. 사람이 직접 검수
  • A/B 테스트와 결합: gold set는 빠른 회귀 감지, A/B는 실 운영 검증
  • 운영 표준 도구: Promptfoo, Braintrust, LangSmith, Langfuse, Ragas (RAG 특화)

언제 gold dataset이 깨지는가 (Inversion):

  • Sample 부족: 100개 set로는 5%p 차이가 noise에 묻힘. Wilson 95%/5%로는 246+, 99%/3%로는 1100+ 필요. 진단: python -c "from statsmodels.stats.proportion import samplesize_confint_proportion as f; print(f(0.8, 0.05))" → 출력 246. 250 미만이면 “p=0.5 근처” 판정은 회귀 결론을 내리지 말 것.
  • Freshness 붕괴: gold set이 production 입력 분포와 어긋남 (covariate shift, L11-30 §3.9). 진단: Promptfoo dashboard에서 최근 fail case 카테고리 분포 ≠ gold set 카테고리 분포면 gold set 갱신. 6개월 무갱신은 거의 항상 stale.
  • Annotator 단일화: 한 사람이 만든 200개는 그 사람의 bias가 평가 기준이 됨 (§3.10 confirmation bias). 진단: 두 번째 annotator로 20개 샘플 재라벨, Cohen’s kappa < 0.6이면 label spec 재작성. 산업 SLA는 0.6+.
  • silent failure: 같은 정답이지만 표현만 다른 답에 LLM-judge가 일관되지 않게 점수를 줌. 진단: paraphrase 5개 변형으로 같은 정답 입력 후 분산이 1점(10점 만점) 넘으면 judge prompt rubric을 더 구체화하거나 exact-match 부분 도입.

좋은 평가는 좋은 데이터에서 출발.

  • Accuracy (정확도): 레이블이 맞는가
  • Coverage: 모든 카테고리·엣지 케이스 포함
  • Balance: 클래스 imbalance 관리
  • Freshness: 시간이 지나며 distribution shift (L11-30 §3.9)
  • Provenance: 어디서 왔는지, 라이선스가 어떤지
  • Privacy: PII 제거, GDPR 준수
  • Annotator agreement: 사람 두 명이 같은 답을 내는가 (Cohen’s kappa). Landis & Koch 임계: <0.2 poor, 0.20.4 fair, 0.40.6 moderate, 0.6~0.8 substantial, >0.8 almost perfect. 산업 SLA는 보통 0.6+ 요구

운영에서 자주 만나는 문제.

  • Label noise: 사람 annotator의 실수. Northcutt et al. 2021 보고 — ImageNet/MNIST 등 주요 데이터셋 평균 3.4% 라벨 오류
  • Annotator bias: 한 사람의 의견이 데이터를 편향시킴
  • Selection bias: 학습 데이터가 운영 데이터와 분포 다름 (L11-30 §3.9 covariate shift)
  • Data leakage: 학습 데이터에 평가 데이터가 섞임 (L11-20 §3.6 silent failure)
  • Temporal leakage: 미래 정보를 feature로 사용
  • PII / 저작권: 운영 시 법적 문제

ML 모델의 사회적 편향.

  • Bias 종류:
    • Demographic bias (성별·인종·지역)
    • Recency bias (최근 데이터 과대 가중)
    • Selection bias (특정 그룹 underrepresented)
    • Confirmation bias (annotator의 선입견)
  • 측정 지표:
    • Demographic parity: 그룹별 양성 예측 비율 같음
    • Equalized odds: 그룹별 TPR·FPR 같음
    • Calibration: 예측 확률이 실제 빈도와 일치
  • LLM bias: stereotype bias, language bias (영어 우대), refusal bias
  • 표준 도구: Fairlearn, IBM AI Fairness 360, BOLD/StereoSet (LLM 전용)

운영에서 평가가 어떻게 사용되는지.

1. Gold dataset 준비 (도메인별 100~500개)
2. 자동 metric 1차 통과 (BLEU, ROUGE, exact match)
3. LLM-as-judge로 자유 텍스트 품질 (다중 모델·다중 페어)
4. 사람 검수 (의심 케이스만, ~10%)
5. Regression dashboard (모델 변경 vs 점수 추이)
6. A/B 테스트 (실 운영 검증)
7. drift 모니터링 (입력 분포 변화 감지)

3.12 Reasoning·Agentic 평가 (2024-2026 핵심)

섹션 제목: “3.12 Reasoning·Agentic 평가 (2024-2026 핵심)”

운영자가 reasoning 모델·에이전트를 도입할 때 반드시 알아야 할 평가 영역.

  • GPQA Diamond (198Q PhD-level): frontier 모델 변별, 학습 시 거의 못 푸는 문제
  • MATH-500 / AIME 2024/2025: 수학 reasoning. o1·DeepSeek-R1 평가 표준
  • ARC-AGI: 추상·일반 지능 평가
  • best-of-N / cons@k / self-consistency: 같은 문제에 N번 답하고 majority voting — test-time compute scaling 평가
  • Pass@k (코드 평가, Chen et al. 2021): 1 - C(n-c, k)/C(n, k) unbiased estimator

Agentic 평가 (에이전트 운영자 필수)

섹션 제목: “Agentic 평가 (에이전트 운영자 필수)”
  • SWE-Bench Verified (500): GitHub 이슈 해결. Devin·Cline·Cursor 같은 에이전트 ranking 표준
  • BFCL v3 (Berkeley Function Calling Leaderboard): tool/function calling 정확도. 에이전트 핵심 능력
  • τ-bench (tau-bench): multi-turn tool agent. user simulation 포함
  • WebArena, OSWorld, GAIA: web/OS 자동화 에이전트
  • ToolBench: 16k API 호출 평가

운영 reproducibility의 핵심.

  • lm-evaluation-harness (EleutherAI): 가장 널리 쓰이는 표준
  • OpenCompass: Shanghai AI Lab, 다국어·다축 평가
  • Inspect AI (UK AISI): safety 평가 표준
  • simple-evals (OpenAI): 미니멀 reference
  • 운영 통합: Promptfoo, Braintrust, LangSmith, Langfuse

RAG 시스템은 별도 지표 필요.

  • Retrieval 품질: recall@k, MRR, Hit@k, NDCG@k
  • Faithfulness: 답변이 검색된 문서에 충실한가 (hallucination 방지)
  • Answer relevance: 답변이 질문에 답하는가
  • Context precision: 검색된 chunk 중 관련 있는 비율
  • Context recall: 정답에 필요한 정보가 실제로 검색됐는가
  • 2025 추가 지표: Aspect Critic, Noise Sensitivity, Multi-turn evaluation (Ragas)
  • 표준 도구: Ragas (4-지표 표준), ARES, TruLens (RAG triad)

3.14 깨지는 조건 정량 표 (운영 결정용)

섹션 제목: “3.14 깨지는 조건 정량 표 (운영 결정용)”
평가 기법효과 발휘 범위깨지는 조건
Accuracy균형 데이터imbalanced (>80:20) → F1·PR-AUC 사용
ROC-AUC균형 데이터99:1 이상 imbalance → PR-AUC 표준
BLEU/ROUGE번역·요약 (n-gram 일치)의미 같지만 표현 다른 답에 약함
LLM-as-judge자유 텍스트 빠른 평가코드·수학·전문 영역 → 사람 평가 일치 60%대
Gold dataset 100개prompt/모델 회귀 빠른 검증5%p 이상 차이 검출엔 부족 (~400 필요, Wilson)
Self-consistency N=3variance 감지평균 6+ 필요 시 부족 (cost 자릿수 증가)
MMLU일반 지식 평가contamination 위험 → LiveBench·Arena-Hard 권장
Static benchmark빠른 비교frontier 모델은 saturation → 동적 갱신 필요

gold dataset 점수 비교에 noise를 어떻게 다룰까.

  • Paired bootstrap: 같은 sample에 두 prompt·모델 비교. resample 1000회로 95% 신뢰구간
  • McNemar’s test: 분류 정답·오답이 prompt별 다를 때 통계적 유의성
  • Welch’s t-test: 두 분포 평균 차이 (등분산 가정 X)
  • 회귀 판정 임계: variance 2점 이내 차이는 noise로 간주 (rubric plateau_detection)
  • Power analysis: 5%p 차이 95% confidence 검출엔 ~400 sample 필요 (Wilson interval)

판정 시 누적 비용 무시 못 함.

회귀 1회 (gold 200개):
- judge 모델: GPT-4o ($2.5/$10 per 1M)
- 평균 prompt: 2k tokens, 응답: 500 tokens
- 호출 1회: $0.005 + $0.005 = $0.01
- 200개 × pairwise(2 모델) = 400 호출 = ~$4
- 일주일 5회 회귀 = ~$20/주
- 다중 judge ensemble (3개 모델 평균): $60/주

운영자에게 의미 있는 자릿수. budget alert 필수.

3.17 평가의 일반 매핑 (Transferable Pattern)

섹션 제목: “3.17 평가의 일반 매핑 (Transferable Pattern)”

평가의 핵심 — “측정 + 회귀 검증 + drift 모니터링” — 은 다른 시스템에도 동일 패턴.

평가 구성요소일반 시스템 매핑
Gold datasetregression test, golden output
LLM-as-judgecode review bot, lint, automated PR check
A/B testfeature flag rollout, canary deployment
Drift detectionobservability metric anomaly, SLO violation alert
Confusion matrixerror categorization, root cause matrix
ROC/PR curveprecision-recall trade-off (검색·anti-spam·IDS)
Statistical significanceA/B 통계 (전통 웹 A/B와 같음)

일반 공식: “측정 → 비교 → 통계적 판정 → 회귀 검증”의 4단계가 ML·웹·인프라·검색 모든 시스템에 공통이다. ML 평가가 특별한 게 아니라 품질 측정 시스템의 한 사례.

운영 시나리오 — LLM 버전 교체 회귀 검증 (예시)

섹션 제목: “운영 시나리오 — LLM 버전 교체 회귀 검증 (예시)”
상황: 사내 챗봇 GPT-4o → GPT-4o-mini 교체 검토 (비용 17× ↓)
도구:
- Gold dataset: 200 한국어 Q&A (3개월 누적)
- LLM-as-judge: Claude Sonnet 4.6 (자기-bias 회피 위해 GPT 안 씀)
- Promptfoo dashboard
회귀 검증 흐름:
1. 같은 200개 query에 두 모델 응답 생성
2. judge로 pairwise 비교 (swap test 포함)
3. statistical: paired bootstrap, 95% CI
4. 사람 검수: judge가 의견 갈리는 ~30개
결과 (가상):
- 200개 중 GPT-4o-mini 우위 38%, GPT-4o 우위 42%, tie 20%
- 통계적으로 차이 없음 (p=0.47)
- 비용 17× ↓ → mini 채택 합리적
대안 비선택: 사람 검수 100% (비용 多), benchmark만 (도메인 mismatch).

§3.5 LLM-as-judge bias + §3.7 gold dataset + §3.15 통계 유의성 + §3.16 비용 산식 모두 적용.

  • LLM 모델 선택·교체 결정
  • LLM 응답 품질 회귀 검증
  • A/B 테스트 통계 분석
  • 데이터 큐레이션 품질 관리
  • bias·fairness audit
  • RAG 시스템 평가 (retrieval + generation)
  • ML 모델 모니터링 dashboard

플랫폼 엔지니어가 LLM 운영할 때 평가 직관이 다음에 도움 된다.

  • LLM 버전 교체 의사결정: GPT-4 → GPT-4o → Claude로 교체할 때 회귀 검증. gold dataset + LLM-as-judge로 자동화
  • Prompt 변경 회귀: prompt 수정 후 점수 떨어진 케이스 자동 식별
  • 모델 선택 협상: 벤치마크 점수만이 아닌 자기 도메인 gold set 점수가 진짜 기준
  • chatbot 품질 모니터링: drift 감지 → 사람 검수 트리거 → 데이터 보강 → 재학습 루프
  • bias audit: 사용자 그룹별 답변 품질 비교, 차별 위험 감지
개념 A개념 B차이점
AccuracyF1전체 vs precision·recall 조화. imbalance에서는 F1
PrecisionRecall양성 예측 정확 vs 양성 잡아내기. trade-off 관계
ROC-AUCPR-AUCbalance 데이터 vs imbalance에서 PR이 더 정확
PerplexityDownstream tasknext-token 예측 능력 vs 실제 작업 능력
BLEUBERTScoren-gram 일치 vs 임베딩 의미 거리
LLM-as-judge사람 평가80~90% 일치, 빠르고 싸지만 bias 있음
MMLULiveBench정적 벤치 (contamination 위험) vs 매월 갱신
Demographic parityEqualized odds결과 분포 같음 vs 오류율 같음
Gold datasetProduction traffic정제된 회귀 검증 vs 실 사용자 검증
  • Accuracy의 함정과 imbalanced data에서 F1·PR-AUC가 더 정확한 이유를 설명할 수 있다
  • LLM-as-judge의 4가지 bias(position, verbosity, self, length)를 말할 수 있다
  • MMLU 같은 정적 벤치마크의 contamination 함정과 LiveBench·Arena가 대응책인 이유를 설명할 수 있다
  • Gold dataset + regression eval이 LLM 운영의 핵심 도구인 이유를 설명할 수 있다
  • RAG 평가의 4지표(faithfulness, relevance, context precision, retrieval)를 구분할 수 있다
  • Demographic parity와 equalized odds의 차이를 설명할 수 있다
  • Data leakage의 3종(train/test split, target leakage, temporal)을 식별할 수 있다
  • 분류 평가: confusion matrix, ROC-AUC, PR-AUC, calibration plot, Brier score
  • LLM 평가: perplexity, BLEU, ROUGE, METEOR, BERTScore, BLEURT
  • LLM-as-judge: MT-Bench, AlpacaEval, Arena-Hard, G-Eval, Prometheus
  • 벤치마크: MMLU, HumanEval, GSM8K, MATH, BBH, IFEval, LiveBench, LMSYS Arena, SWE-Bench
  • 운영 도구: Promptfoo, Braintrust, LangSmith, Langfuse, Ragas, TruLens, ARES
  • 데이터 품질: Cohen’s kappa, Fleiss’ kappa, Krippendorff’s alpha
  • Bias·Fairness: Fairlearn, AIF360, BOLD, StereoSet, BBQ
  • RAG 평가: Ragas (faithfulness/relevance), DeepEval, ARES
  • sklearn classification_report로 imbalanced 데이터(예: 95:5) 분류 모델의 precision/recall/F1을 출력. accuracy만 보면 좋아 보이지만 minority class recall이 낮은지 확인
  • roc_auc_scoreaverage_precision_score(PR-AUC)를 같은 데이터에 비교. PR-AUC가 더 잘 변별하는지
  • 같은 질문에 GPT-4 응답과 Claude 응답을 만들고, 또 다른 LLM(예: o4-mini)에 비교 평가시킴. 응답 순서를 뒤집어 다시 평가 — position bias 체감
  • 짧은 정답 vs 장황한 정답을 평가 — verbosity bias 체감
  • 자기 도메인의 질문 50개에 정답을 직접 써본다 (gold set). promptfoo로 다른 LLM들에 같은 질문을 던지고 점수 비교. promptfoo 실행 후 dashboard에서 회귀 케이스 식별
  • prompt를 살짝 수정한 뒤 같은 gold set에서 점수 변화 측정 — regression eval 흐름 체험
  • Ragas 또는 TruLens로 RAG 시스템에 faithfulness/relevance/context precision 측정 — 어느 metric이 가장 약한지 식별 → 그게 개선 우선순위
  • 자기 LLM 챗봇에 사용자 그룹별(성별·연령·언어) 같은 질문을 던지고 답변 품질 비교 — 차별 시그널 감지
  • accuracy 좋은데 minority class 망가짐 → class_weight 조정, threshold 재조정, F1·PR-AUC 사용
  • LLM-as-judge 점수가 사람 평가와 안 맞음 → judge 모델 변경, 평가 prompt 개선, 다중 judge 평균
  • RAG retrieval은 좋은데 답변 품질 낮음 → faithfulness가 약함. reranker 도입 or 답변 prompt에 “출처에서만 답하라” 강조
  1. 분류는 accuracy·precision·recall·F1·ROC/PR-AUC, 회귀는 MSE·MAE·R², LLM은 perplexity·BLEU·BERTScore·LLM-as-judge가 표준이다.
  2. Accuracy의 함정·LLM-as-judge bias·benchmark contamination 등 silent failure가 평가의 흔한 함정이다.
  3. Gold dataset + regression eval이 운영자의 핵심 도구이며, MMLU 점수보다 자기 도메인 gold set 점수가 더 신뢰 가능.
  4. RAG는 retrieval 품질·faithfulness·answer relevance·context precision을 별도 측정해야 한다 (Ragas 표준).
  5. 데이터 품질(label noise, leakage, bias)이 평가의 절반 — 좋은 평가는 좋은 데이터에서 시작.

최종 수정: 2026-04-26