CISA Series ตอนที่ 40 : D4 - BCP + DRP + RPO/RTO + กลยุทธ์การฟื้นฟู

นี่คือบทที่ผมเตรียมตัวที่สุดเลยครับ เพราะ Section 4.15 + 4.16 รวมกันคือส่วนที่ exam D4 ออกถามหนักที่สุด แล้วยังเป็นเรื่องที่ exam ชอบหลอกผ่านการสลับศัพท์ที่ฟังคล้ายๆ กันอีก

จะพยายามเล่าให้ครบ 4 หัวข้อใหญ่ของบทนี้:

BCP vs DRP — สองสิ่งที่ exam ชอบสลับ
RPO vs RTO — มิติของ recovery ที่ตัดสินทุกอย่าง
Hot / Warm / Cold / Mirror site — เลือกยังไงให้คุ้ม
BCP testing + maintenance — กระดาษที่ไม่เคยซ้อม = ไม่มีค่า

ก่อนเข้าเนื้อหา เอาตรงๆ บทนี้คือสิ่งที่ผมว่าทุก IS auditor ต้องรู้แม่น เพราะ scenario เรื่อง BCP/DRP โผล่ในข้อสอบ CISA แทบทุกชุด และเป็นคำถามต้นๆ ที่ทุก audit engagement ใช้ scope งาน

ส่วนที่ 1 — BCP vs DRP: เรื่องคนละมิติ#

BCP = ทั้งองค์กร / DRP = เฉพาะ IT#

ความแตกต่างที่ exam ออกซ้ำๆ:

มิติ	BCP	DRP
Scope	ทั้งองค์กร — business operations + IT + people + supply chain	เฉพาะ IT systems + data
Owner	senior management / CEO	CIO / IT operations
Time horizon	ตอนเกิดเหตุ + recovery + new normal	เฉพาะ technical recovery
Output	strategic — how org continues operating	tactical — step-by-step IT recovery
Example	”ตอน flood ทีม HR ทำงานจาก backup site ได้ยังไง, supplier ติดต่อใครทดแทน"	"Restore database จาก tape ไป recovery server ตามขั้น 1-7”

ความสัมพันธ์: DRP (Disaster Recovery Plan / แผนกู้คืนระบบหลังภัยพิบัติ) เป็น component หนึ่งของ BCP (Business Continuity Plan / แผนบริหารความต่อเนื่องของธุรกิจ)

ถ้าเขียน hierarchy:

1
BCP (ทั้งบริษัท)
2
├── DRP (IT recovery)
3
├── Crisis communication plan (สื่อสาร)
4
├── Supply chain continuity plan
5
├── HR continuity (relocate, work-from-home)
6
└── Facility recovery plan

Trap ที่ exam ออก — “BCP = IT’s job”#

ผิดเด็ดขาด BCP คือ board / senior management responsibility

IT รับผิดชอบ DRP ที่เป็น component ของ BCP แต่ BCP เป็นเรื่องของทั้งองค์กร

ถ้า org ไหน “BCP = IT department’s plan” → finding ทันที

ตัวอย่างจริง: น้ำท่วม 2554#

โรงงานในนิคมที่ปทุมธานี มี BCP เก่า 3 ปีที่ assume worst case = ไฟดับ 2 วัน

ตอน flood 2554 โรงงานจม 6 สัปดาห์

BCP ที่มี ไม่ใช่ผิดทั้งหมด แต่ไม่ครอบ scenarioที่เกิดจริง:

ไม่มีแผน relocate พนักงาน
ไม่มีแผน remote payroll
ไม่มีแผนสื่อสารกับ supplier ระหว่าง 6 สัปดาห์
ไม่มี procedure เคลม insurance
ไม่มี contingency operating ที่โรงงานสำรองพื้นที่อื่น

BCP มีอยู่ แต่ scope ผิด focus เฉพาะ technical incident ไม่ครอบ catastrophic scenario เลย

Creeping disaster — disaster ที่ค่อยๆ คืบมาเงียบๆ#

ก่อนข้าม pandemic ขอ flag ศัพท์เล็กๆ ที่ CRM 4.15.2 พูดถึง — creeping disaster = disaster ที่ค่อยๆ พัฒนาช้าๆ ไม่ใช่เกิดทันที

ตัวอย่างที่เห็นชัด:

database performance ที่ค่อยๆ ช้าลงจนถึงจุดที่ไม่ usable
data corruption ที่กัดกินทีละ record ผ่านไปหลายเดือนกว่าจะรู้
ภัยแล้งที่ค่อยๆ แห้ง
pandemic ที่ค่อยๆ ลามจาก local outbreak ไปทั่วโลก

ตรงข้ามกับ sudden disaster เช่น แผ่นดินไหว ไฟไหม้ flood — เกิดแล้วรู้ทันที

อันตรายของ creeping disaster คือ “ไม่มี clear trigger point” ให้ activate BCP — กว่าจะรู้ว่านี่คือ disaster ระบบก็เสียหายไปนานแล้ว

ตรงนี้แหละที่ monitoring tools + helpdesk ที่เป็น early warning system มีบทบาทสำคัญ — ตามที่ CRM ระบุ “many disruptions start as minor incidents” และ helpdesk ที่ดีคือคนแรกที่จับ pattern ผิดปกติได้

Pandemic planning — โรคระบาดไม่ใช่ disaster แบบ flood#

CRM แยก pandemic ออกเป็น scenario คนละแบบกับ disaster ปกติ เพราะ profile ของ disruption ต่างกันมากครับ:

ยาวกว่ามาก — flood / ไฟไหม้ อาจกินสัปดาห์ ส่วน pandemic กินเดือนหรือเป็นปี
กระทบทรัพยากรคน ไม่ใช่อาคาร — สำนักงานยังอยู่ดี แต่คนเข้ามาทำงานไม่ได้ / ป่วยพร้อมกัน / โดน quarantine
ลามทั้ง supply chain + ลูกค้า + พนักงานพร้อมกัน — recovery site ปกติช่วยไม่ได้ เพราะคนที่ไปประจำ site ก็ป่วยเหมือนกัน

BCP สำหรับ pandemic ต้องเน้นต่างจาก disaster ทั่วไป — remote work readiness (VPN (Virtual Private Network / เครือข่ายส่วนตัวเสมือน) capacity, laptop deployment, secure home access), key-person redundancy ลึกกว่าปกติ (สำรอง 3-4 ชั้น เผื่อทั้ง chain ป่วยพร้อมกัน) และ supplier/customer communication plan สำหรับสถานการณ์ที่ไม่มีใครรู้ว่าจะจบเมื่อไหร่

Black Swan — เหตุที่ไม่มีใคร plan ทัน#

อีกประเด็นที่ CRM 4.15.2 พูดตรงๆ คือ Black Swan event — เหตุที่ไม่มีใครคาดได้ ผลกระทบใหญ่ และมักอธิบายได้ “หลังเกิดแล้ว” เท่านั้น

ตัวอย่างคลาสสิก: 9/11, COVID-19, financial crisis ปี 2008, แผ่นดินไหวที่กระทบ nuclear plant ของ Fukushima

ประเด็นของ Black Swan ใน BCP ไม่ใช่ “ทำ plan ครอบให้ครบ” (เป็นไปไม่ได้) แต่คือ:

มี plan ที่ generic พอ ครอบ “loss of headquarters / loss of key supplier / loss of large % ของ workforce” ทั้ง 3 scenario โดยไม่ต้องตั้งคำถามว่าสาเหตุคืออะไร
หลีกเลี่ยง single point of failure ที่ระดับคนด้วย เช่น ห้าม CEO (Chief Executive Officer) + COO (Chief Operating Officer) บินไฟลต์เดียวกัน
review BCP กว้างหลัง event ใหม่ๆ ไม่ใช่แค่ update contact list

CRM พูดชัด — “เหตุพวกนี้หายาก แต่ถ้าเกิดอาจ paralyze องค์กรได้ management ต้องคิดถึง contingency แม้ในกรณีสุดโต่ง”

ส่วนที่ 2 — RPO vs RTO: มิติที่ exam หลอกบ่อยที่สุด#

นี่แหละสิ่งที่ผมว่าต้องจำให้แม่น#

ชื่อย่อ	ชื่อเต็ม	ตอบคำถาม	มิติ	อะไรเป็นตัวขับ
RPO	Recovery Point Objective	”เรารับการสูญเสียข้อมูลย้อนหลังกี่ชั่วโมง?“	data freshness	backup frequency / replication
RTO	Recovery Time Objective	”เราต้องกลับมาให้บริการได้ภายในกี่ชั่วโมง?“	downtime	recovery site / architecture

Restaurant fire analogy#

ลองนึกถึงร้านอาหารเกิดไฟไหม้ครับ มี 2 คำถามที่ต่างกัน:

คำถามแรก: “บัญชีรายรับรายจ่ายที่จดไว้ในกระดาษ — เราเสียได้ย้อนหลังเท่าไหร่?”

ถ้าจดทุกชั่วโมง backup → เสียอย่างมาก 1 ชั่วโมง = RPO (Recovery Point Objective / จุดเวลาที่ยอมเสียข้อมูล) = 1 ชั่วโมง ถ้าจดทุกวันสรุปวันเดียว → เสียอย่างมาก 1 วัน = RPO = 1 วัน

คำถามที่สอง: “ร้านต้องเปิดอีกครั้งภายในเท่าไหร่ ก่อนจะเสียลูกค้าทั้งหมด?”

ถ้าเป็นร้านแถบ business district → 1 วันก็เริ่มสูญลูกค้าประจำ = RTO (Recovery Time Objective / เวลาที่ยอมระบบล่ม) = 1 วัน ถ้าเป็นร้านในชุมชนเล็กๆ → 1 สัปดาห์ยังพอ = RTO = 1 สัปดาห์

RPO กับ RTO ต่างกันยังไง?

RPO = “ข้อมูลที่ recover ได้ ย้อนได้ไกลแค่ไหน”
RTO = “ใช้เวลานานแค่ไหนถึงกลับมา”

ระบบหนึ่งสามารถมี RPO 4 ชั่วโมง แต่ RTO 1 ชั่วโมงก็ได้ ยอม lose data 4 ชั่วโมงล่าสุด แต่ต้องกลับมาบริการใน 1 ชั่วโมง

Trap pattern#

Pattern ที่เห็นใน practice question ของ CISA บ่อย:

“ระบบมี RPO 2 ชั่วโมง — backup ทุก 24 ชั่วโมงพอมั้ย?”

ไม่พอครับ RPO 2 ชั่วโมง = ยอม lose data ย้อนได้ 2 ชั่วโมง ต้อง backup อย่างน้อยทุก 2 ชั่วโมง (หรือใช้ replication)

“ระบบมี RTO 1 ชั่วโมง — restore จาก tape ที่ใช้เวลา 4 ชั่วโมงพอมั้ย?”

ไม่พอ restore ต้องเร็วกว่า RTO ถึงจะ work

MTTR — ตัวเลขที่เกี่ยวข้อง#

อีกตัวที่บางครั้ง exam ออก: MTTR (Mean Time To Repair) = เวลาเฉลี่ยในการแก้ระบบที่ fail

MTTR ต่ำ → recovery เร็ว → support RTO ที่สั้นกว่า

แต่ MTTR ขึ้นกับ complexity ของ system, parts availability, skill ของช่าง

Other parameters: Interruption Window + MTO + SDO#

ตัวย่อ	หมายถึง	use case
Interruption Window	เวลาสูงสุดที่องค์กรรอได้ตั้งแต่ระบบ fail จนต้อง restore เสร็จ — ถ้าเกินนี้ ความเสียหายเริ่มสะสมจน “รับไม่ไหว”	ใช้ตั้ง RTO ของแต่ละระบบ
MTO	Maximum Tolerable Outage — เวลาสูงสุดที่อยู่ในโหมด alternate ได้	regulatory จำกัด / SDO ใน alternate mode ต่ำกว่าปกติจนข้อมูล catch-up เริ่มเยอะเกิน
SDO	Service Delivery Objective — ระดับ service ที่ยอมรับได้ระหว่าง recovery (ไม่ใช่ 100% แต่พอใช้)	ตอน run ที่ recovery site อาจรับ load ได้ 60% ของปกติ ก็ยังอยู่ภายใน SDO ที่ตกลง

Orphan data + Catch-up data + Disaster tolerance#

CRM 4.16.1 ทิ้ง 3 ศัพท์เล็กๆ ที่ exam ชอบหลอก ขออธิบายสั้นๆ ตรงนี้ครับ

ตอนเกิด disaster แล้ว restore กลับมา จะมีข้อมูล 3 กลุ่ม:

Catch-up data — transaction ที่เกิดในช่วงตั้งแต่ backup ล่าสุดจนถึงตอน disaster ที่ต้อง re-enter หลัง recovery (ถ้ายังเก็บไว้ในกระดาษ / cache ที่หน้างานได้)
Orphan data — ข้อมูลที่หายไปจริงๆ ไม่มีทาง recover ได้ ต่อให้ catch-up เสร็จก็ยังขาด คือ “RPO ที่ยังเหลือเป็นแผล” นั่นเอง
Disaster tolerance — ช่วงเวลาที่ business ยังพอ “ทน” สถานะที่ระบบ IT critical ไม่พร้อมใช้ ยิ่ง RTO ต่ำ → disaster tolerance ต่ำ → ต้องลงทุน recovery หนักกว่า

ลองนึก ระบบ POS (Point of Sale / เครื่องคิดเงินหน้าร้าน) ของร้านสะดวกซื้อ RPO 1 ชั่วโมง backup ทุก 1 ชั่วโมง ถ้าระบบพังตอน 14:45 backup ล่าสุดคือ 14:00 → transaction ของ 14:00–14:45 ที่ขายไปแล้ว ถ้าใบเสร็จยังเก็บได้ก็เป็น catch-up data ถ้าใบเสร็จหายไปด้วย = orphan data

ส่วนที่ 3 — Recovery Sites: เลือกตาม BIA#

BIA (Business Impact Analysis / การวิเคราะห์ผลกระทบต่อธุรกิจ) เป็นตัวขับเลือก recovery site แต่ละแบบ — CRM แนะนำหลายแบบ ขอเล่าเรียงตามระดับความพร้อม (จากมาก→น้อย)

Mirror Site#

คือ: copy ของ production แบบ real-time — ทั้ง hardware, software, data sync ตลอดเวลา ทำงานเหมือน production ทุกประการ

RPO / RTO: ใกล้ 0 / ใกล้ 0

ราคา: สูงสุด เหมือนมี production 2 ชุดเลย

ใช้กับ: ระบบ ultra-critical (ตลาดหุ้น, payment processing ของธนาคารใหญ่, monitoring system ของ ICU)

Hot Site#

คือ: site ที่พร้อมใช้งาน — มี hardware, software, network ทุกอย่าง data sync แต่อาจมี delay บ้าง

RPO / RTO: ชั่วโมง / น้อยกว่า 4 ชั่วโมง (โดยทั่วไป)

ราคา: สูง ค่า maintain hardware + software license + ค่า facility ครบ

ใช้กับ: ระบบ Mission Critical ที่ acceptance downtime สั้น

Warm Site#

คือ: site ที่มี hardware + network แต่ software / data ต้อง install + restore ก่อนใช้

RPO / RTO: วัน / 1-3 วัน (โดยทั่วไป)

ราคา: กลาง

ใช้กับ: ระบบ Important ที่ทนได้บ้าง

Cold Site#

คือ: ห้องเปล่าที่มี power + network เฉยๆ ทุกอย่างต้องขนเข้าไปติดตั้งหลังเกิดเหตุ

RPO / RTO: สัปดาห์ / 1+ สัปดาห์

ราคา: ต่ำสุด

ใช้กับ: ระบบ low priority ที่ทนได้นาน

Mobile Site#

คือ: truck/container ที่บรรจุ IT equipment พร้อม deploy ที่ไหนก็ได้ ใช้ตอนที่ primary site เสียหายและไม่มีพื้นที่ทดแทน

Reciprocal Agreement — ห้ามใช้สำหรับ critical system#

คือ: ข้อตกลงระหว่าง 2 องค์กร ตกลงให้ใช้ facility ของอีกฝ่ายได้ตอน disaster

ฟังดูดีนะ แต่exam ออกชัดเจนว่า reciprocal agreement = ไม่แนะนำสำหรับ critical system เพราะ:

Capacity — partner องค์กรมี capacity พอจริงมั้ย?
Compatibility — hardware/software/version ตรงกันมั้ย?
Security — ข้อมูลของเราจะ co-mingle กับของ partner
Licensing — software license ของเราใช้ใน partner site ได้มั้ย?
Politics — partner อาจเปลี่ยน mind ตอนเกิดเหตุจริง

กรณีจริง: Hot site ที่ไม่ exclusive#

ธนาคารภูมิภาคไทยแห่งหนึ่ง มีสัญญา hot site ที่สีลม

หลายปีที่ผ่านมาไม่เคย test เลย

วันที่เกิด fire ใน data center หลัก ธนาคาร declare disaster, contact hot site provider

provider แจ้งว่า มีอีก 3 บริษัท declare disaster พร้อมกัน, hot site เต็ม อ้าว

สัญญาของธนาคารไม่มี exclusivity clause ต้องรอ 18 ชั่วโมง

control gap:

ไม่เคย test hot site
สัญญาไม่มี exclusivity ระหว่าง simultaneous disaster
ไม่ได้ verify subscriber limit ของ provider

สิ่งที่ต้องอยู่ในสัญญา recovery site#

ขอ list ที่ผมว่าสำคัญที่สุดสำหรับ exam:

Exclusive access หรือ subscription-based (priority ของเรา)
Capacity guarantee — รับประกันว่ามี hardware พอ
Time guarantee — declare ตอนใด ใช้งานตอนใด
Duration — ใช้ได้นานสุดเท่าไหร่
Test rights — ทดสอบกี่ครั้งต่อปี
Configuration update — ใครรับผิดชอบ update hardware/software ใน hot site
Confidentiality — security ของ data ที่อยู่ใน site
Liability — ใครรับผิดถ้า hot site เสียหาย
Termination — เงื่อนไขเลิกสัญญา
Insurance — coverage ของ provider

ส่วนคั่น — BCP Components ที่หลายองค์กรลืม#

ก่อนข้ามไปเรื่อง testing ขอ flag 3 component ของ BCP ที่ CRM 4.15.8 ระบุชัด แต่หลายองค์กรชอบลืมก่อนครับ

Key Decision-Making Personnel — ใครมีอำนาจตัดสินตอนวิกฤต#

ตอน BCP ถูก activate จริง ใครเป็นคนตัดสินใจเรื่องใหญ่?

ใครประกาศ “นี่คือ disaster” และ activate BCP?
ใครตัดสินใจ failover ไป recovery site?
ใครคุยกับ regulator?
ใครให้ข่าวกับสื่อ?

ถ้าไม่ตอบล่วงหน้า ตอนเกิดเหตุจริงจะปั่นป่วนมาก เพราะทุกคนรอคำสั่ง

BCP ที่ดีระบุ:

Primary decision maker + alternate (เผื่อคน primary ติดต่อไม่ได้)
Authority limit — ใครอนุมัติ spending ระดับไหนได้
Succession order — ลำดับสำรอง 3-4 ชั้น ไม่ใช่แค่ primary + alternate
Contact information — เบอร์มือถือ, home phone, alternate email — verify เป็นระยะ

Crisis Communication Plan#

CRM แยก crisis communication เป็น component ของตัวเอง ไม่ใช่ส่วนเล็กๆ ของ DRP

ตอน disaster เกิดจริง บริษัทต้อง communicate กับ:

พนักงาน — มาทำงานที่ไหน ทำอะไร ขั้นตอน safety
ลูกค้า — service จะ resume เมื่อไหร่ ผลกระทบยังไง
Supplier / partner — supply chain disruption + timeline
Regulator — บางอุตสาหกรรมต้อง notify ภายในเวลากำหนด (ธปท., ก.ล.ต., PDPA (Personal Data Protection Act / พรบ.คุ้มครองข้อมูลส่วนบุคคล) office)
Insurance — claim filing timeline
Media / public — single spokesperson ที่ approved พูดได้

กับดักของ exam: “ทุกคนใน management พูดกับ media ได้” ผิด crisis communication ต้องมี single spokesperson ที่ approved + briefed message ที่ consistent ห้ามมีหลายเสียง confuse + เกิด liability

Insurance Coverage#

อีกเรื่องที่ CRM 4.15.8 ระบุชัด คือ insurance เป็น component หนึ่งของ BCP

ประเภท insurance ที่เกี่ยวข้องกับ IT disaster:

Property insurance — coverage hardware, facility damage
Business interruption insurance — coverage revenue loss ระหว่าง downtime
Cyber liability insurance — coverage breach response, regulatory penalty, third-party claims
Errors & Omissions (E&O) — coverage liability ที่เกิดจาก IT service ผิดพลาด

กฎเหล็ก: insurance ไม่ทดแทน BCP มัน complement กัน BCP กู้คืน operations, insurance shoulder financial loss

มุม IS Auditor#

3 จุดที่ตรวจ:

Coverage adequacy — coverage limit ครอบคลุม worst-case scenario ของ BIA ไหม
Policy currency — policy ยังไม่หมดอายุ + premium จ่ายครบ
Claim procedure — ทีม BCP รู้ขั้นตอนเคลม + เอกสารที่ต้องเตรียม + timeline

ลองนึก scenario: บริษัทแห่งหนึ่งซื้อ cyber liability insurance ตอน ransomware เกิด แต่ไม่ได้ notify insurer ภายใน 72 ชั่วโมงตามที่ policy ระบุ → claim ถูกปฏิเสธ เลย

policy ที่ดีที่สุดในโลก = ไม่มีค่า ถ้า claim procedure ไม่ถูก execute ตามเวลา

ส่วนที่ 4 — BCP Testing + Maintenance#

กระดาษที่ไม่เคยซ้อม = ไม่มีค่า#

ตัวอย่างจริงที่ยากเลย: hospital เอกชนที่กรุงเทพ annual BCP tabletop test

ระหว่าง test พบว่า:

emergency contact list มี 12 เบอร์ที่เป็นเบอร์เก่า (พนักงานออก/เปลี่ยนเบอร์)
backup site access code เป็นของ vendor ที่หมดสัญญา 8 เดือนก่อน
ไม่มีใคร update ตั้งแต่เขียน BCP เสร็จ

ถ้าเกิดเหตุจริง BCP ใช้ไม่ได้เลย

control gap: ไม่มีคน assign รับผิดชอบ BCP maintenance

BCP test vs DR test — คนละชุดกัน อย่าผสม#

จุดนี้คือจุดที่ผมเอง confuse นานมากครับ เพราะ CRM แยกเป็น 2 ชุดคนละชุดกัน:

BCP test types (Section 4.15.9) = ฝั่ง ธุรกิจ ทดสอบว่าทั้งองค์กรพร้อมรับมือมั้ย มี 3 ระดับ
DR test types (Section 4.16.5) = ฝั่ง IT recovery ทดสอบว่าระบบ failover ทำงานจริงมั้ย มี 5 ระดับ

หลายแหล่งจำสองอันนี้ผสมกันจนเป็น “5 ระดับ” รวด ซึ่งผิด ตอนสอบ exam ต้องตอบให้ตรงชุด

ชุดที่ 1 — BCP test types (ฝั่งธุรกิจ, 3 ระดับ)#

ระดับ	ชื่อ	ทำอะไร
1	Desk-based evaluation (tabletop / paper test)	ทีมหลักๆ ของ plan นั่งคุยกัน เดิน scenario บนกระดาษ ดู role ตัวเองว่ารู้ขั้นตอนมั้ย ทำได้ทั้ง plan หรือเฉพาะส่วน
2	Preparedness test (walk-through drill)	ทำตาม procedure จริงในส่วนหนึ่งของ plan — เช่น activate emergency contact tree, evacuation drill, test backup generator startup — ใช้ resource จริง แต่ไม่ shut down production
3	Full operational test	step เดียวก่อนถึง disaster จริง — plan ต้องผ่าน paper + preparedness มาก่อน ถึงค่อย shut down ของจริงทดสอบ

ชุดที่ 2 — DR test types (ฝั่ง IT recovery, 5 ระดับ)#

ระดับ	ชื่อ	ทำอะไร
1	Checklist review	แจก checklist ให้ recovery team review ว่ายัง current — pre-step ของ test จริง
2	Structured walk-through	ทีมเดิน plan ทีละ step บนกระดาษ ประเมิน effectiveness, ระบุจุดที่ต้อง enhance
3	Simulation test	ทีม role-play scenario disaster เต็มรูปแบบ แต่ ยังไม่ activate processing ที่ recovery site
4	Parallel test	recovery site ขึ้นมาทำงาน operational จริง โดยที่ primary site ยัง run ปกติ — เทียบ output 2 ฝั่ง
5	Full interruption test	ปิด primary site จริง shift ไป recovery site — รุนแรงสุด แพงสุด เสี่ยงสุด

Trap ของ exam — “tabletop = simulation = full test”#

ผิดเด็ดขาด tabletop = บนกระดาษอย่างเดียว, simulation = role-play แต่ไม่ activate, full interruption = ปิด primary จริง — 3 อันคนละ realism กัน

ถ้าองค์กรทดสอบเฉพาะ checklist / tabletop → flag finding เพราะ procedure ที่อยู่บนกระดาษอาจ break ตอน execute จริงก็ได้

กฎ progression: องค์กรไม่ควรกระโดดจาก checklist → full interruption ทันที ต้องไต่ระดับ ใช้ผลของ test ระดับล่างมา fix ก่อน escalate

BCP Maintenance: triggers ที่ต้อง update#

BCP ต้อง update เมื่อ:

พนักงาน turnover ในตำแหน่งที่อยู่ใน emergency contact
ระบบ IT ใหม่ go-live
ระบบเก่าเลิกใช้
regulatory requirement เปลี่ยน
vendor ที่ระบุใน BCP เปลี่ยน
business process เปลี่ยน
หลัง test เจอ gap
หลังเหตุจริงเกิด

ที่ดีที่สุด — มี named owner ที่รับผิดชอบ BCP maintenance + quarterly review

ผู้สอบบัญชี IS เช็คอะไรใน BCP/DRP#

CRM 4.15.11 ให้ checklist ละเอียดมาก section นี้ออกข้อสอบเยอะเพราะ exam ถาม “IS auditor จะตรวจอะไร” บ่อย

ขอจัดเป็น 5 sub-checklist ที่ผมว่าใกล้กับ exam ที่สุด ไม่ได้ลอก CRM แต่จัดใหม่ให้จำง่ายขึ้น

1) Review the Document — เช็คตัวเอกสาร BCP#

#	สิ่งที่ตรวจ
1	ขอ copy ของ business continuity policy + strategy ล่าสุด
2	ขอ copy ของ BCP manual ที่ใช้อยู่จริง
3	ขอผล RA / BIA ล่าสุด พร้อม RTO / RPO ที่อนุมัติแล้ว
4	สุ่ม copy ที่ distribute ไป (ทีมต่างๆ มี version ตรงกันมั้ย)
5	BCP สะท้อน business condition ปัจจุบันมั้ย (org chart, system, vendor ยัง match)
6	เอกสารระบุชัดมั้ยว่า “ใคร” เป็นคน invoke BCP (escalation procedure)
7	มี procedure update manual + ใครรับผิดชอบ + รอบเท่าไหร่

2) Review Applications Covered#

ตรวจว่า ทุก critical application ถูกครอบใน plan — ไม่ใช่แค่ server-based application หลัก แต่รวม workstation-based + niche application ที่ business พึ่ง

จุดที่ exam ออก: recovery site ต้องมี software version ที่ตรงกับ production — ถ้า version mismatch ก็ recover ไม่ได้ แม้ hardware พร้อม

3) Review BC Teams — คนพร้อมจริงมั้ย#

จุดนี้เป็น “live test” ที่ผู้สอบบัญชีทำได้ครับ:

ขอ manifest ของแต่ละ recovery team — ใครอยู่ทีมไหน, role อะไร
ขอ copy สัญญา / agreement กับ backup facility (hot site, vendor)
review list ของ emergency contact (vendor, hot-site contact, key personnel) ว่า up to date มั้ย
call sample จาก list — โทรไปจริงๆ ดูว่าเบอร์ใช้ได้ + คนยังอยู่ + มี copy ของ BCP manual

ที่เด็ดที่สุดในนี้คือ “call sample” — เป็น easy finding ที่ผ่านง่ายมากถ้าทำ แต่ส่วนใหญ่องค์กรเหมาว่า list ยังถูก ไม่เคย verify จริง

4) Plan Testing — auditor เช็คอะไรในผล test#

#	สิ่งที่ตรวจ
1	มี procedure documentation ของ test แต่ละครั้งครบมั้ย
2	backup procedure ของแต่ละ area ที่ DRP cover ถูกทำตามจริงมั้ย
3	backup + recovery procedure ถูก execute ตามที่เขียนมั้ย (สังเกตจริง)
4	emergency procedure complete, accurate, current, ใช้ได้จริงมั้ย
5	transaction ที่ทำผ่าน recovery process ถูก flag แยกจาก normal transaction มั้ย
6	ทุก recovery team มี written procedure ของตัวเองมั้ย
7	มี procedure update emergency procedure เมื่อมี change มั้ย
8	security procedure ใหม่ที่ใช้ใน recovery site ถูก document มั้ย
9	plan ครอบเรื่อง movement ไป recovery site ละเอียดพอมั้ย
10	plan ครอบเรื่อง operating จาก recovery site ละเอียดพอมั้ย
11	plan ครอบเรื่อง return procedure กลับ primary site หลัง disaster จบ

5) Questions to Consider — exam-relevant audit questions#

CRM ให้ list ของคำถามไว้ 20+ ข้อ ขอเลือก 8-10 ข้อที่ใกล้ exam ที่สุดมาไว้ตรงนี้:

#	คำถาม
1	ใครรับผิดชอบ coordinate BCP / DRP — มี named owner มั้ย
2	DRP ถูก update ครั้งล่าสุดเมื่อไหร่ + test ครั้งล่าสุดเมื่อไหร่
3	ระบบไหน ไม่ถูก cover ใน plan? ทำไม? (ตอบไม่ได้ = finding)
4	มี criteria ชัดมั้ยว่าตอนไหน escalate เป็น “disaster” + ใครเป็นคนตัดสิน
5	plan ครอบเรื่อง insurance มั้ย — claim filing timeline + procedure
6	สัญญา hot site มี SLA / OLA ระบุชัดมั้ย — capacity, time guarantee, exclusivity
7	backup facility อยู่ที่ไหน — เสี่ยง same-disaster กับ primary มั้ย
8	มี procedure สำหรับ manual processing ตอนระบบไม่พร้อมมั้ย
9	offsite storage ถูกใช้สำหรับ backup ของ critical data มั้ย
10	มี documentation เพียงพอ ให้ recovery team ที่ไม่คุ้น production ทำ recovery ได้มั้ย

กฎเหล็กของ auditor: ถ้าตอบ “ไม่รู้” หรือ “ต้องไปถาม” สำหรับคำถามใดคำถามหนึ่ง นั่นคือ finding ในตัวมันเองเลยครับ

Incident Classification: ไม่ทุกเหตุ = crisis#

ก่อนปิดบทขอ flag เรื่อง incident classification เป็นส่วนของ BCP ที่ exam ออก

ไม่ทุก incident ต้อง trigger BCP ต้อง classify ก่อน:

ระดับ	ลักษณะ	response
Negligible	กระทบเล็กน้อย, ไม่ต้องเปลี่ยน operation	helpdesk ปกติ
Minor	กระทบบางส่วน, แก้ได้ภายใน standard procedure	incident management
Major	กระทบหลายส่วน, ต้องการ coordinated response	major incident protocol + senior IT
Crisis	กระทบทั้ง business / regulator / public	activate BCP

กรณีจริงที่ misclassify#

convenience store chain — มี ransomware affect 3 ร้านใน 1 เขต

incident response team escalate เป็น crisis → activate ทั้ง BCP

กลายเป็นว่าทุก resource ของ crisis response team ทุ่มไปที่ ransomware ใน 3 ร้าน

ระหว่างนั้น payment network outage ที่กระทบทั้ง 200 ร้านเกิดขึ้น แต่ทีมหลักไม่ว่าง ต้องให้ทีม junior จัดการ

result: misclassify ของ event แรก → ทรัพยากรไม่พอสำหรับ event ที่ใหญ่กว่า อ้าว

บทเรียน: classification criteria ต้องชัด + objective ไม่ใช่ subjective judgment ของคนตอบโทรศัพท์คนแรก

Trap pattern รวมของ ตอน 40#

RPO vs RTO#

หลุมพราง	คำตอบที่ถูก
”RPO = RTO”	RPO = data freshness, RTO = downtime — คนละมิติ
”ใช้ RPO กับ recovery site”	RPO ขับ backup, RTO ขับ recovery site

BCP vs DRP#

หลุมพราง	คำตอบที่ถูก
”BCP = IT’s job”	BCP = senior management, DRP = IT
”BCP = DRP”	DRP เป็น component ของ BCP

Recovery Sites#

หลุมพราง	คำตอบที่ถูก
”Hot site = ดีที่สุดเสมอ”	ต้องตาม BIA — บางระบบ cold site เพียงพอและคุ้ม
”Cold site = ห่วย”	cold site เหมาะกับ low priority — choice ที่ valid
”Reciprocal agreement = ดี”	ไม่แนะนำสำหรับ critical system
”Mirror = Hot”	mirror = real-time full sync (RPO ~ 0), hot = pre-equipped แต่อาจ delay

Testing#

หลุมพราง	คำตอบที่ถูก
”tabletop = full test”	tabletop = paper, full = real failover
”test ครั้งเดียวพอ”	ต้อง annual + หลัง material change
”BCP 200 หน้า = พร้อม”	length ≠ readiness — testing + maintenance พิสูจน์ readiness

Cross-domain connection#

หัวข้อ	เชื่อมไป
BCP testing methodology	ตอน 09 (Testing & Sampling)
BCP policy + governance	ตอน 17A (D2 ERM)
Vendor recovery site review	ตอน 19 (Vendor Mgmt)
Incident management → BCP trigger	ตอน 34
BIA — base ของทั้งหมด	ตอน 38
Resilience + Backup	ตอน 39
Reporting incident result	ตอน 12 (Reporting)

เรื่องที่ลึกกว่านี้อ่านได้ที่#

ตอนนี้สรุปแก่นของ BCP / DRP ในมุมที่ exam D4 ออกถาม แต่บางเรื่องผมแยกไปเล่าลึกในซีรีส์ cybersecurity (บริบทกว้างกว่า audit) เผื่ออยากตามต่อ:

IRP (Incident Response Plan / แผนตอบสนองเหตุการณ์) / NIST (National Institute of Standards and Technology — สถาบันมาตรฐานของสหรัฐ) 800-61 incident response deep dive → cybersec EP.46 (Incident Response) + cisa-d5-51 (Monitoring & IR)
BCM (Business Continuity Management / การบริหารความต่อเนื่องของธุรกิจ) standards landscape (ISO 22301 — มาตรฐานสากล BCM, BCI — Business Continuity Institute, DRII — Disaster Recovery Institute International, FFIEC — Federal Financial Institutions Examination Council, FEMA — Federal Emergency Management Agency) — frameworks ของวงการ BCM ทั้ง landscape → cybersec EP.08 (Frameworks)
NIST 800-34 plan family (COOP — Continuity of Operations Plan, ISCP — Information System Contingency Plan, CIP — Critical Infrastructure Protection, OEP — Occupant Emergency Plan — plan ย่อยภายใต้ BCP umbrella) → cybersec EP.46 (Incident Response)
Insurance 7 CRM types (property, business interruption, cyber liability, E&O, valuable papers, extra expense, fidelity) → cisa-d5-43 (Policies & Physical)

ปิดบท: ความพร้อมไม่ใช่กระดาษ#

ผมรู้ว่าบทนี้หนักครับ แต่จริงๆ แล้ว core ของทั้ง section นี้สรุปได้ใน 3 ประโยค

1. BIA นำ ทุกตัวเลข RTO/RPO มาจาก business ไม่ใช่ IT

ถ้า business ไม่ได้นั่งทำ BIA ด้วย ตัวเลขที่ออกมาก็แค่ guess ของ IT

2. Testing + Maintenance ทำให้ plan ใช้ได้จริง

BCP ที่ไม่เคย test = paperwork BCP ที่ test แต่ไม่ update = false confidence BCP ที่ test + update = true control

3. Cost-benefit นำการเลือก architecture

ไม่ทุกระบบต้อง hot site ไม่ทุกระบบทน cold site ได้ เลือกตาม BIA + downtime cost ไม่ใช่ตาม “budget เหลือเท่าไหร่”

ในมุมผู้บริหาร ขอจบบทด้วยคำถาม 4 ข้อที่บอกว่า BCP/DRP ของบริษัทคุณ work หรือไม่:

“BIA ทำครั้งล่าสุดเมื่อไหร่? ใครเป็น sponsor?”
“BCP test ครั้งล่าสุดเมื่อไหร่? ระดับ tabletop หรือ full operational?”
“DRP ของระบบ critical ที่สุด มี documented backout plan + tested restoration มั้ย?”
“Recovery site ของเรามี exclusivity clause ในสัญญามั้ย? เคย test access จริงรึเปล่า?”

ถ้าตอบไม่ได้ นั่นแหละพื้นที่ที่ต้องลงไปทำ

ตอนหน้าจะปิด Domain 4 ทั้งหมด recap 11 ตอน + 5 บทเรียน + เกริ่น Domain 5 ที่จะมาเรื่อง security ต่อยอดจาก operations + resilience ของ D4

อ้างอิง CRM (CISA Review Manual 28th Edition): Domain 4: Section 4.15 Business Continuity Plan + Section 4.16 Development of Disaster Recovery Plans