콘텐츠로 이동

대규모 웹 크롤러의 큐, 정중함, 중복 제거

대규모 웹 크롤러는 URL을 많이 가져오는 문제가 아니라, 우선순위와 정중함, 중복 제거, 장애 복구를 동시에 만족시키는 분산 시스템 설계 문제다. URL Frontier, robots.txt 처리, Bloom filter와 SimHash, 큐 기반 컴포넌트 분리, at-least-once와 멱등성까지 핵심 메커니즘을 연결해 살펴본다.

Layer
L9
Duration
길이 미정
Generated
2026. 5. 25. 오후 4:43:14

Script Companion

오디오와 함께 스크립트 보기

같은 레이어

L9에서 이어 듣기

  1. 설계 원칙을 운영 가능한 코드로 잇기 길이 미정
  2. Clean Architecture의 의존성 규칙 길이 미정
  3. DDD 기본기: 도메인 언어와 경계 설계 길이 미정
  4. Twelve-Factor App 운영 원칙 길이 미정
  5. CAP과 일관성으로 보는 분산 시스템 선택 길이 미정
  6. MSA 패턴, 분리의 이득과 운영 비용 길이 미정
  7. Saga Pattern: 로컬 커밋과 역순 보상 길이 미정
  8. CQRS와 이벤트 소싱의 운영 경계 길이 미정
  9. TDD와 테스트 피라미드로 설계하는 테스트 전략 길이 미정
  10. API 계약으로 안전하게 서비스 경계를 진화시키기 길이 미정
  11. URL Shortener와 Rate Limiter로 보는 시스템 디자인 길이 미정