이 글은 온라인 서비스 회사 Yandex가 겪은 한 인시던트에 대해 이야기합니다. 마스터 데이터베이스가 실패하면서 슬레이브 데이터베이스가 마스터 역할을 맡았는데, 이로 인해 과부하가 발생했습니다. 이에 대응하기 위해 구상한 방법 중 하나는 불필요한 재시도를 줄이는 것이었습니다. 자동 재시도를 차단하면 사용자 요청의 실패율이 올라가는 대신 서비스 전체의 안정성이 향상됩니다. 결국, 이 사건은 복잡성을 최소화하고 필요한 경우 재시도를 허용하는 방식으로 적절히 해결되었습니다.