ประสบการณ์กู้ Kubernetes Cluster ล่ม

01/06/2020
เมฆดำปกคลุมท้องฟ้า อ.เมือง จ.สุรินทร์
และบรรยากาศแบบนี้ สิ่งที่คาดได้เสมอคือ

ไฟดับ

ดับนานเป็นชม. UPS ก็เอาไม่อยู่
พอไฟมา เปิด server ขึ้นปรากฏว่า …
Kubernetes Cluster ล่ม = access ไม่ได้ + service หายหมด

สมมติฐานแรก > SSD พัง แต่หลังจากเช็คแล้วทำงานปกติ
สมมติฐานสอง > OS พัง แต่หลังจากเช็คแล้วทำงานปกติ
สมมติฐานสาม > k8s พัง หลังจากเช็คแล้ว etcd ล่ม ทำให้ cluster ล่มไปด้วย

หาวิธี repair etcd 1 คืนเต็มๆ เหมือนจะสำเร็จ etcd กลับมารันได้ตามปกติ แต่ cluster ก็ไม่กลับคืนมา เอาไงดี ไม่น่าเชื่อว่า K8s จะพ่ายแพ้ต่อเมฆดำง่ายๆ

นึกขึ้นได้ว่าทำ snapshot เอาไว้ แต่ก็ไม่เคยคิดว่ามันจะช่วยได้ ( เพราะไม่เคยใช้มันซักครั้ง )

ลอง restore snapshot กลับคืนทั้งดุ้น ต่อด้วย reboot แล้วก็ลุ้นนนนนนนน

K8s Cluster is Running …

เย้ๆ โล่งใจ เกือบไปแล้วไม๊หล่ะ

สิ่งที่แว๊บเข้ามาในหัวคือ
1. อย่าไว้ในระบบไฟฟ้า
2. Cluster สามารถล่มได้ แม้ไม่มี Hardware เสียหาย
3. Kubernetes Cluster สามารถล่มได้จาก Software ที่ทำงานผิดพลาด ( ดับกระทันหัน )
4. จุด weak ของ K8s คือ etcd
5. ความประมาท ทำให้เจ็บปวด ( ควรทำ snapshot ไว้เสมอ อย่าไว้ใจเด็ดขาด )

20200602://TNK.Theory