- 갑작스런 장애가 발생(서버가 재부팅되면서 장애 발생)……재부팅 후에 NoReady 상태가 되면 대부분 swapoff 시키고 kubelet 재 시작하면 바로 해결되는데 요번엔 다른 이슈
- 구글링 분석
- 장애 원인
- pod 종료 상태를 설정하지 않는 podSyncStatus
- 해당 동작으로 인해 GarbageCollect가 주기적으로 샌드박스,로그 디렉토리를 제거하지 못하게 되면 gRPC 호출을 정상적으로하지 못하여 원인 발생
- 장애 원인
- 해결 방법
- 서비스 중지
sudo systemctl stop containerd.service
- containerd root로 이동
cd /var/lib/containerd
- sandbox 삭제
rm -rf io.containerd.grpc.v1.cri/sandboxes/*
- metadata database 삭제
- 파일을 열어서 보고 싶지만… 알 수없는 상태..
rm -rf io.containerd.metadata.v1.bolt/meta.db
- 재부팅
- 서비스 중지
- 상태 확인
- pod 정상적으로 동작