CISA Series ตอนที่ 39 : D4 - Resilience + Backup — สองระดับความพร้อม

ใน ตอน 38 เราคุย BIA = base ของ resilience decision ทุกตัว

ตอนนี้ลงเรื่อง 2 layer ของความพร้อมที่ใช้รับมือเหตุไม่คาดคิด:

Layer 1 — System Resilience (Section 4.13): ทำให้ระบบไม่ล่มตอนเกิดเหตุเล็ก
Layer 2 — Backup + Restoration (Section 4.14): ทำให้ข้อมูลไม่หายเมื่อระบบล่มจริง

Resilience = absorb shock — ระบบสะดุดน้อย, recovery sometime หรือไม่ต้อง recovery เลย Backup = safety net — เมื่อ resilience ไม่พอ ยังมีข้อมูลให้กู้คืนได้

ทั้ง 2 layer ต้องมีคู่กัน — มี resilience อย่างเดียวแต่ไม่มี backup = วันที่ disaster ใหญ่จริงจะหายข้อมูล มี backup อย่างเดียวแต่ไม่มี resilience = ระบบล่มบ่อย แม้ recover ได้แต่ business เสียหาย

Layer 1 — System Resilience#

ภาพในหัว: สะพานไม้ไผ่ vs สะพานเหล็กแข็ง#

สะพานเหล็กที่แข็งมาก — ดีตอนปกติ แต่เวลาน้ำท่วมแรงๆ จะหัก เพราะไม่ยืดหยุ่น

สะพานไม้ไผ่ที่ engineering ดี — โน้มไปตามกระแสน้ำ ทนแรงกระแทกได้ดี

resilience = ความสามารถที่จะ absorb แรงกระแทก ไม่ใช่ความสามารถที่จะป้องกันการกระแทก

Clustering: หัวใจของ resilience#

application ที่รันบน server เดียว = single point of failure ตอน server fail = application ล่ม

clustering = รัน application กระจายบน multiple node ถ้า node ใดล้ม node อื่นรับช่วงต่อ

มี 2 model หลัก ที่ exam ออกซ้ำๆ:

Active-Active#

ทุก node ทำงานพร้อมกัน — load share

ตัวอย่างในชีวิตจริง: ด่านเก็บเงินทางด่วนที่เปิดทุกช่อง — ถ้าช่องใดเสีย ช่องอื่นยังเปิด

ข้อดี:

ใช้ resource เต็ม — ไม่มี node idle
failover เร็วที่สุด — เพราะ node อื่นทำงานอยู่แล้ว

ข้อเสีย:

application ต้อง design ให้ tolerate concurrent processing
complexity ในการ sync state ระหว่าง node สูง

ใช้กับ: web server (stateless), load balancer, API gateway

Active-Passive#

มี active node ที่ทำงาน + passive node ที่ standby ถ้า active ล้ม passive จะ takeover

ตัวอย่างในชีวิตจริง: นักบินกับนักบินรอง — ปกตินักบินทำงาน ถ้านักบินไม่สบาย นักบินรองรับช่วง

ข้อดี:

application ที่ไม่ tolerate concurrent ก็ใช้ได้
ราคาถูกกว่า active-active

ข้อเสีย:

passive node = idle ไม่ได้ใช้ resource
failover ช้ากว่า — มี delay ระหว่าง detect failure → takeover

ใช้กับ: database (state-heavy), legacy application

กรณีจริง: ICU monitoring ที่ขาด clustering#

โรงพยาบาลกรุงเทพแห่งหนึ่ง — ICU monitoring system รันบน server เดียว

วันที่ apply OS patch โดยไม่ test — application crash

พยาบาลต้อง monitor ผู้ป่วยด้วยมือ 45 นาที ระหว่าง IT restore จาก backup

แต่ — BIA ระบุว่า ICU monitoring มี RTO = 5 นาที

ระยะเวลาจริง = 45 นาที = ไม่ผ่าน RTO

control gap: resilience design (no clustering) ไม่ตอบ RTO requirement ที่ BIA กำหนด

นี่คือ pattern ที่ exam ออกบ่อย — BIA กำหนด RTO อย่างหนึ่ง แต่ resilience architecture ไม่ achievable

Telecom Resilience#

ที่หลายองค์กรลืม — resilience ของ network/internet connection

มี data center ดีแค่ไหน ถ้า internet ขาด ก็เหมือน data center ปิด

ตัวอย่างจริง: e-commerce ที่กรุงเทพ ใช้ ISP เจ้าเดียว — fiber cable ในกรุงเทพถูกตัด → website inaccessible 4 ชั่วโมง

ทางออก:

2 ISP จาก carrier คนละราย
diverse routing — fiber 2 เส้นที่ไม่อยู่ในท่อเดียวกัน
last-mile protection — connection 2 เส้นที่เข้าอาคารคนละทาง

cost ของ second connection อาจเป็นแค่ 8,000-15,000 บาท/เดือน — เทียบกับ 4 ชั่วโมง outage ตอน flash sale → ROI ชัดเจน

Metro cluster: protect site แต่ไม่ protect region#

clustering 2 site ในเขตเมืองเดียวกัน (เช่น 2 data center ในกรุงเทพ — สีลม + บางนา) = metro cluster

protect ได้: server fail, อาคารหนึ่งไฟดับ, fire ใน data center หนึ่ง

protectไม่ได้: เหตุการณ์ที่กระทบทั้งกรุงเทพ — flood ใหญ่ (เหมือนปี 2554), เหตุการณ์ทางการเมืองที่กระทบทั้งเมือง, blackout ทั้งภูมิภาค

ถ้าต้องการ region-level protection → ต้อง geographically diverse (กรุงเทพ + เชียงใหม่ + Singapore เป็นต้น)

Trap ของ exam เรื่อง resilience#

หลุมพราง	คำตอบที่ถูก
”active-active = ดีที่สุดเสมอ”	ขึ้นกับว่า application support concurrent processing มั้ย; active-passive อาจเหมาะกว่า
”เรามี cluster = resilient”	cluster ใน site เดียว ไม่ protect site-level disaster
”ISP รับผิดชอบเรื่อง telecom resilience”	องค์กรต้อง verify diverse routing เอง — SLA ของ ISP ไม่ใช่ substitute
”metro cluster = พอ”	metro = protect local incident, ไม่ protect regional disaster
”resilience = recovery time”	resilience = absorb + continue, recovery = หลังเหตุเกิด — คนละ concept

Layer 2 — Backup + Restoration#

Backup เป็น safety net ไม่ใช่ first line#

หลายองค์กรเข้าใจผิด — “เรามี backup = เราพร้อม”

ไม่ใช่ครับ — backup คือ last resort เมื่อ resilience ไม่พอ

ถ้า application clusters ทำงาน — recovery ใช้แค่ failover (วินาที) ถ้า application clusters fail — recovery ใช้ backup restoration (ชั่วโมง)

backup ที่ดี = “ถ้าโลกจบจริงๆ — ข้อมูลกลับมาได้”

Types of backup ที่ต้องรู้#

ประเภท	เนื้อหา	ความเร็ว backup	ความเร็ว restore
Full	ทั้ง dataset	ช้า	เร็ว (1 step)
Incremental	เฉพาะที่เปลี่ยนตั้งแต่ backup ครั้งล่าสุด	เร็ว	ช้า (chain ตั้งแต่ full → incremental ทุกตัว)
Differential	เฉพาะที่เปลี่ยนตั้งแต่ full ล่าสุด	กลางๆ	กลางๆ (full + last differential)

ในมุม exam — incremental ใช้ resource น้อย แต่ restoration ซับซ้อนกว่า differential

Replication: real-time backup#

สำหรับระบบ critical — ใช้ replication (real-time copy) ไม่ใช่ scheduled backup

ประเภท	เนื้อหา	RPO
Synchronous replication	write ที่ primary เสร็จก็เสร็จที่ secondary พร้อมกัน	~ 0
Asynchronous replication	write ที่ primary แล้วค่อย replicate ไป secondary	วินาที-นาที

trade-off: synchronous = RPO เล็กที่สุด แต่ performance overhead (primary ต้องรอ secondary confirm)

Storage media: ไม่ทุกอันเหมาะกัน#

CRM list หลายแบบ ผมขอ summary:

Tape — ราคาถูกที่สุด แต่ restore ช้า — เหมาะกับ long-term archive
Disk — เร็วกว่า tape — เหมาะกับ frequent restore
VTL (Virtual Tape Library) — disk ที่ทำตัวเหมือน tape — combo speed + management
Cloud — offsite by default แต่ต้อง manage egress cost + latency

ที่หลายคนพลาด — fireproof cabinet สำหรับเอกสารกระดาษ ≠ fireproof สำหรับ tape

magnetic media ทนความร้อนได้น้อยกว่ากระดาษมาก ตู้เก็บเอกสารที่ rated 1000°F ในเวลา 1 ชั่วโมง อาจไม่ปลอดภัยสำหรับ tape

ตัวอย่างจริง: โรงงาน Bangpoo เก็บ tape ใน fireproof cabinet ในห้อง server ตอนเกิดไฟไหม้ — cabinet ทน แต่ tape เสีย เพราะ rating ของ cabinet เป็นสำหรับเอกสาร

Offsite storage = เป็น must#

ถ้า backup เก็บที่เดียวกับ production → site disaster = ทั้งคู่หาย

offsite ต้อง:

Geographically separate — ไม่อยู่ในระยะ disaster เดียวกัน
Same security level — physical + logical security เท่า production
Tested transportation chain — ใครย้าย tape อย่างไร, chain of custody มั้ย

Cloud backup = offsite by default? — ไม่เสมอ#

ความเข้าใจผิดที่บ่อย: “ใช้ cloud backup = offsite แล้ว”

ไม่จำเป็น — cloud provider อาจมี data center ในเมืองเดียวกัน หรือใน region เดียวกันที่กระทบจาก disaster เดียวกัน

ต้องตรวจ:

Region ของ cloud backup ห่างจาก production
Data residency requirement ตาม PDPA ของไทย

Ransomware: ภัยใหม่ของ backup#

ransomware รุ่นใหม่ — design มาเพื่อ encrypt backup ก่อน production เพราะรู้ว่า backup คือทางรอด

ถ้า backup sync แบบ real-time → ransomware encrypt production → sync ไป backup → backup ก็ถูก encrypt

ทางป้องกัน:

Immutable backup — backup ที่ล็อกไม่ให้ overwrite/delete (WORM — Write Once, Read Many)
Air-gapped backup — backup ที่ disconnect จาก network จริงๆ (ใช้ tape, ใช้ cloud ที่มี cooldown period)
Multiple version retention — เก็บ backup หลาย version (รายวัน 30 วัน + รายสัปดาห์ 12 สัปดาห์ + รายเดือน 12 เดือน)

ตัวอย่างจริง: hospital ที่ใช้ cloud backup แบบ sync — ransomware encrypt production แล้ว sync overwrite clean backup ใน 3 วัน

ต้องไป recovery จาก backup ที่ 4 วันก่อน — เสีย patient record 4 วัน

control gap: cloud backup ไม่ได้ configure ให้ immutable

Backup ≠ Restoration — เรื่องที่ exam ออกแน่ๆ#

ที่ผมขอย้ำ — backup ที่ไม่เคย test restore ไม่ใช่ control

backup ทำสำเร็จ = ข้อมูลถูก copy restoration test = พิสูจน์ว่า copy นั้นใช้ได้จริง

ทั้ง 2 ไม่เหมือนกัน

ตัวอย่างจริง: convenience store chain — backup รายวัน 3 ปี ตอน disk fail → restore ไม่ได้ เพราะ backup format ไม่ compatible กับ database version ใหม่ (database upgrade ไป 8 เดือนก่อน) restoration ไม่เคย retest

ต้อง test restoration:

เป็นประจำ — ตามรอบที่กำหนด (รายไตรมาส / รายปี)
Full restoration — ไม่ใช่แค่ partial spot check
Time the restoration — เทียบกับ RTO ที่ BIA กำหนด
หลังการเปลี่ยนแปลง — version upgrade, migration, infrastructure change → ต้อง retest

Trap ของ exam เรื่อง backup#

หลุมพราง	คำตอบที่ถูก
”backup รายวัน = พร้อม”	ต้อง test restore + ตรงกับ RPO ของ BIA
”cloud = offsite”	ต้องเช็ค region ห่างจาก production
”fireproof cabinet = ปลอดภัยทุกอย่าง”	tape ต้องการ rating ที่ต่ำกว่ากระดาษ
”RPO = backup frequency”	RPO มาจาก BIA — backup frequency ต้อง align ตามนั้น
”encryption ไม่จำเป็นถ้า facility secure”	encryption เป็น independent layer — ใช้ตอน facility ถูกบุก / media ถูก steal in transit

เชื่อม Layer 1 + Layer 2#

Resilience คุม availability — Backup คุม data integrity#

ถ้าเกิด — server fail แต่ data ยังอยู่:

มี cluster → ทำงานต่อทันที
ไม่มี cluster → restore จาก same data แต่ใช้เวลา

ถ้าเกิด — data corruption / loss:

มี backup → restore data ก่อน → ระบบกลับมา
ไม่มี backup → ข้อมูลหายตลอดกาล

ดังนั้น — resilience ไม่ได้ทดแทน backup และ backup ไม่ได้ทดแทน resilience

ทั้งคู่ตอบคำถามคนละคำถาม

ทั้ง 2 layer ต้อง align กับ BIA#

resilience architecture → ตอบ RTO backup frequency → ตอบ RPO

ทั้ง 2 ตัวเลขมาจาก BIA

ถ้า BIA บอกว่า RPO = 1 ชั่วโมง — backup รายวันไม่พอ ต้อง replication ถ้า BIA บอกว่า RTO = 30 นาที — manual restore จาก tape ไม่ทัน ต้อง hot standby

ปิดบท: ความพร้อม 2 ชั้น#

ผมชอบมองความพร้อม 2 layer นี้แบบ checkpoint ของวิดีโอเกม

Resilience = อย่าให้ตัวละครตาย — มี shield, มี extra life, ระบบหลาย node ที่ takeover ได้
Backup = checkpoint ก่อนหน้าไว้ใช้ตอนตายจริงๆ — โหลด save ล่าสุด เริ่มใหม่จากจุดนั้น

ผู้เล่นที่ดีมีทั้ง 2 อย่าง — shield ที่ทนทาน + checkpoint ที่ใกล้

องค์กรที่ดีก็แบบเดียวกัน — clustering ที่ดี + backup ที่ test แล้ว

ตอนหน้าคือบทใหญ่ที่สุดของซีรีส์ทั้ง CISA — BCP + DRP + RPO/RTO + recovery sites มันคือบทรวมของ Part B ที่ exam ออกหนักที่สุดใน Domain 4

เดี๋ยว D5 จะลงเรื่อง backup encryption + key management ในมิติ cryptography ละเอียดอีกครั้ง

อ้างอิง CRM (CISA Review Manual 28th Edition): Domain 4: Section 4.13 System and Operational Resilience + Section 4.14 Data Backup, Storage and Restoration