Kubernetes WorkerNode grpc 장애 해결

 

  • 갑작스런 장애가 발생(서버가 재부팅되면서 장애 발생)……재부팅 후에 NoReady 상태가 되면 대부분 swapoff 시키고 kubelet 재 시작하면 바로 해결되는데 요번엔 다른 이슈

  • 구글링 분석
    •  장애 원인
      • pod 종료 상태를 설정하지 않는 podSyncStatus
      • 해당 동작으로 인해 GarbageCollect가 주기적으로 샌드박스,로그 디렉토리를 제거하지 못하게 되면 gRPC 호출을 정상적으로하지 못하여 원인 발생
  • 해결 방법
    • 서비스 중지
      sudo systemctl stop containerd.service
      
    • containerd root로 이동
      cd /var/lib/containerd
      
    • sandbox 삭제
      rm -rf io.containerd.grpc.v1.cri/sandboxes/*
      
    • metadata database 삭제
      • 파일을 열어서 보고 싶지만… 알 수없는 상태..

      rm -rf io.containerd.metadata.v1.bolt/meta.db
      
    • 재부팅
  • 상태 확인
    • pod 정상적으로 동작

Leave a Comment