สารบัญ
นี่คือบทที่ผมเตรียมตัวที่สุด เพราะ Section 4.15 + 4.16 รวมกันคือส่วนที่ exam D4 ออกถามหนักที่สุด — และเป็นเรื่องที่ exam ชอบหลอกผ่านการสลับศัพท์ที่ฟังคล้ายๆ กัน
ผมจะพยายามเล่าให้ครบ 4 หัวข้อใหญ่ของบทนี้:
- BCP vs DRP — สองสิ่งที่ exam ชอบสลับ
- RPO vs RTO — มิติของ recovery ที่ตัดสินทุกอย่าง
- Hot / Warm / Cold / Mirror site — เลือกอย่างไรให้คุ้ม
- BCP testing + maintenance — กระดาษที่ไม่เคยซ้อม = ไม่มีค่า
ก่อนเข้าเนื้อหา ขอบอกตรงๆ ว่า — บทนี้คือสิ่งที่ผมว่าทุก IS auditor ต้องรู้แม่น เพราะเวลาเข้าไปตรวจ organization จริง คำถามแรกๆ ที่ถาม = “BCP/DRP ของท่านเป็นยังไง”
ส่วนที่ 1 — BCP vs DRP: เรื่องคนละมิติ
BCP = ทั้งองค์กร / DRP = เฉพาะ IT
ความแตกต่างที่ exam ออกซ้ำๆ:
| มิติ | BCP | DRP |
|---|---|---|
| Scope | ทั้งองค์กร — business operations + IT + people + supply chain | เฉพาะ IT systems + data |
| Owner | senior management / CEO | CIO / IT operations |
| Time horizon | ตอนเกิดเหตุ + recovery + new normal | เฉพาะ technical recovery |
| Output | strategic — how org continues operating | tactical — step-by-step IT recovery |
| Example | ”ตอน flood ทีม HR ทำงานจาก backup site ได้ยังไง, supplier ติดต่อใครทดแทน" | "Restore database จาก tape ไป recovery server ตามขั้น 1-7” |
ความสัมพันธ์: DRP เป็น component หนึ่งของ BCP
ถ้าเขียน hierarchy:
BCP (ทั้งบริษัท)├── DRP (IT recovery)├── Crisis communication plan (สื่อสาร)├── Supply chain continuity plan├── HR continuity (relocate, work-from-home)└── Facility recovery planTrap ที่ exam ออก — “BCP = IT’s job”
ผิดเด็ดขาด — BCP คือ board / senior management responsibility
IT รับผิดชอบ DRP ที่เป็น component ของ BCP — แต่ BCP เป็นเรื่องของทั้งองค์กร
ถ้า org ไหน “BCP = IT department’s plan” → finding ทันที
ตัวอย่างจริง: น้ำท่วม 2554
โรงงานในนิคมที่ปทุมธานี — มี BCP เก่า 3 ปี ที่ assume worst case = ไฟดับ 2 วัน
ตอน flood 2554 — โรงงานจม 6 สัปดาห์
BCP ที่มี — ไม่ใช่ผิดทั้งหมด แต่ไม่ครอบ scenario ที่เกิดจริง:
- ไม่มีแผน relocate พนักงาน
- ไม่มีแผน remote payroll
- ไม่มีแผนสื่อสารกับ supplier ระหว่าง 6 สัปดาห์
- ไม่มี procedure เคลม insurance
- ไม่มี contingency operating ที่โรงงานสำรองพื้นที่อื่น
BCP มีอยู่ แต่ scope ผิด — focus เฉพาะ technical incident ไม่ครอบ catastrophic scenario
ส่วนที่ 2 — RPO vs RTO: มิติที่ exam หลอกบ่อยที่สุด
นี่คือสิ่งที่ผมว่าต้องจำให้แม่น
| ชื่อย่อ | ชื่อเต็ม | ตอบคำถาม | มิติ | อะไรเป็นตัวขับ |
|---|---|---|---|---|
| RPO | Recovery Point Objective | ”เรารับการสูญเสียข้อมูลย้อนหลังกี่ชั่วโมง?“ | data freshness | backup frequency / replication |
| RTO | Recovery Time Objective | ”เราต้องกลับมาให้บริการได้ภายในกี่ชั่วโมง?“ | downtime | recovery site / architecture |
Restaurant fire analogy
ลองนึกถึงร้านอาหารเกิดไฟไหม้ — มี 2 คำถามที่ต่างกัน:
คำถามแรก: “บัญชีรายรับรายจ่ายที่จดไว้ในกระดาษ — เราเสียได้ย้อนหลังเท่าไหร่?”
ถ้าจดทุกชั่วโมง backup → เสียอย่างมาก 1 ชั่วโมง = RPO = 1 ชั่วโมง ถ้าจดทุกวันสรุปวันเดียว → เสียอย่างมาก 1 วัน = RPO = 1 วัน
คำถามที่สอง: “ร้านต้องเปิดอีกครั้งภายในเท่าไหร่ ก่อนจะเสียลูกค้าทั้งหมด?”
ถ้าเป็นร้านแถบ business district → 1 วันก็เริ่มสูญลูกค้าประจำ = RTO = 1 วัน ถ้าเป็นร้านในชุมชนเล็กๆ → 1 สัปดาห์ยังพอ = RTO = 1 สัปดาห์
RPO กับ RTO ต่างกันยังไง?
- RPO = “ข้อมูลที่ recover ได้ ย้อนได้ไกลแค่ไหน”
- RTO = “ใช้เวลานานแค่ไหนถึงกลับมา”
ระบบหนึ่งสามารถมี RPO 4 ชั่วโมง แต่ RTO 1 ชั่วโมง — ยอม lose data 4 ชั่วโมงล่าสุด แต่ต้องกลับมาบริการใน 1 ชั่วโมง
Trap pattern
ที่ผมเห็นใน practice question บ่อย:
“ระบบมี RPO 2 ชั่วโมง — backup ทุก 24 ชั่วโมงพอมั้ย?”
ไม่พอ — RPO 2 ชั่วโมง = ยอม lose data ย้อนได้ 2 ชั่วโมง ต้อง backup อย่างน้อยทุก 2 ชั่วโมง (หรือใช้ replication)
“ระบบมี RTO 1 ชั่วโมง — restore จาก tape ที่ใช้เวลา 4 ชั่วโมงพอมั้ย?”
ไม่พอ — restore เร็วกว่า RTO ถึงจะ work
MTTR — ตัวเลขที่เกี่ยวข้อง
อีกตัวที่บางครั้ง exam ออก: MTTR (Mean Time To Repair) = เวลาเฉลี่ยในการแก้ระบบที่ fail
MTTR ต่ำ → recovery เร็ว → support RTO ที่สั้นกว่า
แต่ MTTR ขึ้นกับ — complexity ของ system, parts availability, skill ของช่าง
Other parameters: MTO + SDO
| ตัวย่อ | หมายถึง | use case |
|---|---|---|
| MTO | Maximum Tolerable Outage | regulatory จำกัด — เกินนี้ขัดกฎหมาย |
| SDO | Service Delivery Objective | ระดับ service ที่ยอมรับได้ระหว่าง recovery (ไม่ใช่ 100% แต่พอใช้) |
ส่วนที่ 3 — Recovery Sites: เลือกตาม BIA
CRM แนะนำ recovery site หลายแบบ ผมขอเล่าตามระดับความพร้อม (จากมาก→น้อย)
Mirror Site
คือ: copy ของ production แบบ real-time — ทั้ง hardware, software, data sync ตลอดเวลา ทำงานเหมือน production ทุกประการ
RPO / RTO: ใกล้ 0 / ใกล้ 0
ราคา: สูงสุด — เหมือนมี production 2 ชุด
ใช้กับ: ระบบ ultra-critical (ตลาดหุ้น, payment processing ของธนาคารใหญ่, monitoring system ของ ICU)
Hot Site
คือ: site ที่พร้อมใช้งาน — มี hardware, software, network ทุกอย่าง data sync แต่อาจมี delay บ้าง
RPO / RTO: ชั่วโมง / น้อยกว่า 4 ชั่วโมง (โดยทั่วไป)
ราคา: สูง — ค่า maintain hardware + software license + ค่า facility
ใช้กับ: ระบบ Mission Critical ที่ acceptance downtime สั้น
Warm Site
คือ: site ที่มี hardware + network แต่ software / data ต้อง install + restore ก่อนใช้
RPO / RTO: วัน / 1-3 วัน (โดยทั่วไป)
ราคา: กลาง
ใช้กับ: ระบบ Important ที่ทนได้บ้าง
Cold Site
คือ: ห้องเปล่าที่มี power + network ทุกอย่างต้องขนเข้าไปติดตั้งหลังเกิดเหตุ
RPO / RTO: สัปดาห์ / 1+ สัปดาห์
ราคา: ต่ำสุด
ใช้กับ: ระบบ low priority ที่ทนได้นาน
Mobile Site
คือ: truck/container ที่บรรจุ IT equipment พร้อม deploy ที่ไหนก็ได้ ใช้ตอนที่ primary site เสียหายและไม่มีพื้นที่ทดแทน
Reciprocal Agreement — ห้ามใช้สำหรับ critical system
คือ: ข้อตกลงระหว่าง 2 องค์กร — ตกลงให้ใช้ facility ของอีกฝ่ายได้ ตอน disaster
ฟังดูดี — แต่exam ออกชัดเจนว่า reciprocal agreement = ไม่แนะนำสำหรับ critical system เพราะ:
- Capacity — partner องค์กรมี capacity พอจริงมั้ย?
- Compatibility — hardware/software/version ตรงกันมั้ย?
- Security — ข้อมูลของเราจะ co-mingle กับของ partner
- Licensing — software license ของเราใช้ใน partner site ได้มั้ย?
- Politics — partner อาจเปลี่ยน mind ตอนเกิดเหตุจริง
กรณีจริง: Hot site ที่ไม่ exclusive
ธนาคารภูมิภาคไทยแห่งหนึ่ง — มีสัญญา hot site ที่สีลม
หลายปีที่ผ่านมา ไม่เคย test
วันที่เกิด fire ใน data center หลัก — ธนาคาร declare disaster, contact hot site provider
provider แจ้ง — มีอีก 3 บริษัทที่ declare disaster พร้อมกัน, hot site เต็ม
สัญญาของธนาคารไม่มี exclusivity clause — ต้องรอ 18 ชั่วโมง
control gap:
- ไม่เคย test hot site
- สัญญาไม่มี exclusivity ระหว่าง simultaneous disaster
- ไม่ได้ verify subscriber limit ของ provider
สิ่งที่ต้องอยู่ในสัญญา recovery site
ผมขอ list ที่ผมว่าสำคัญที่สุดสำหรับ exam:
- Exclusive access หรือ subscription-based (priority ของเรา)
- Capacity guarantee — รับประกันว่ามี hardware พอ
- Time guarantee — declare ตอนใด ใช้งานตอนใด
- Duration — ใช้ได้นานสุดเท่าไหร่
- Test rights — ทดสอบกี่ครั้งต่อปี
- Configuration update — ใครรับผิดชอบ update hardware/software ใน hot site
- Confidentiality — security ของ data ที่อยู่ใน site
- Liability — ใครรับผิดถ้า hot site เสียหาย
- Termination — เงื่อนไขเลิกสัญญา
- Insurance — coverage ของ provider
ส่วนที่ 4 — BCP Testing + Maintenance
กระดาษที่ไม่เคยซ้อม = ไม่มีค่า
ตัวอย่างจริงที่ยาก: hospital เอกชนที่กรุงเทพ — annual BCP tabletop test
ระหว่าง test พบว่า:
- emergency contact list มี 12 เบอร์ที่เป็นเบอร์เก่า (พนักงานออก/เปลี่ยนเบอร์)
- backup site access code เป็นของ vendor ที่หมดสัญญา 8 เดือนก่อน
- ไม่มีใคร update ตั้งแต่เขียน BCP เสร็จ
ถ้าเกิดเหตุจริง — BCP ใช้ไม่ได้
control gap: ไม่มีคน assign รับผิดชอบ BCP maintenance
BCP Testing: 3 ระดับที่ต้องรู้
CRM แบ่ง testing เป็นหลายระดับ ผมขอ list 3 ระดับใหญ่ที่ exam ออก:
ระดับที่ 1 — Tabletop / Walk-through
คือ: ทีมนั่งคุยกัน — ไล่ scenario, อ่าน BCP ทีละขั้น, discuss ว่าใครทำอะไร
ข้อดี: เร็ว, ราคาถูก, ไม่กระทบ business operations ข้อจำกัด: ไม่ได้ทดสอบจริง — แค่ paper exercise
ใช้ตอน: เริ่มต้น, รุ่นแรกของ BCP, train new member
ระดับที่ 2 — Walk-through Drill / Simulation
คือ: ทำตามขั้น BCP จริง — ไป backup site, restart system, ทดสอบ procedure แต่ยังไม่ failover production จริง
ข้อดี: ทดสอบ procedure จริง — เจอ gap ที่ paper exercise ไม่เจอ ข้อจำกัด: ใช้ resource เยอะกว่า, ต้อง coordinate
ใช้ตอน: หลังจากผ่าน tabletop, ปีละ 1-2 ครั้ง
ระดับที่ 3 — Full Operational Test / Parallel Test / Full Interruption
คือ: failover จริง — production switch ไป backup site, ทดสอบ end-to-end
ข้อดี: test ที่ realistic ที่สุด — ทุก dependency, ทุก timing, ทุก human factor ถูก test ข้อจำกัด: risky — ถ้า test fail จริงก็ outage จริง ใช้ resource เยอะที่สุด
ใช้ตอน: ปีละครั้ง สำหรับระบบ critical, ทำในช่วง low-business window
Trap ของ exam — “tabletop = full test”
ผิดเด็ดขาด tabletop คือจุดเริ่มต้น — full operational test คือ true validation
ถ้าองค์กรทดสอบเฉพาะ tabletop → flag finding เพราะ procedure ที่อยู่บนกระดาษอาจ break ตอน execute จริง
BCP Maintenance: triggers ที่ต้อง update
BCP ต้อง update เมื่อ:
- พนักงาน turnover ในตำแหน่งที่อยู่ใน emergency contact
- ระบบ IT ใหม่ go-live
- ระบบเก่าเลิกใช้
- regulatory requirement เปลี่ยน
- vendor ที่ระบุใน BCP เปลี่ยน
- business process เปลี่ยน
- หลัง test เจอ gap
- หลังเหตุจริงเกิด
ที่ดีที่สุด — มี named owner ที่รับผิดชอบ BCP maintenance + quarterly review
Incident Classification: ไม่ทุกเหตุ = crisis
ก่อนปิดบทขอ flag เรื่อง incident classification — เป็นส่วนของ BCP ที่ exam ออก
ไม่ทุก incident ต้อง trigger BCP — ต้อง classify:
| ระดับ | ลักษณะ | response |
|---|---|---|
| Negligible | กระทบเล็กน้อย, ไม่ต้องเปลี่ยน operation | helpdesk ปกติ |
| Minor | กระทบบางส่วน, แก้ได้ภายใน standard procedure | incident management |
| Major | กระทบหลายส่วน, ต้องการ coordinated response | major incident protocol + senior IT |
| Crisis | กระทบทั้ง business / regulator / public | activate BCP |
กรณีจริงที่ misclassify
convenience store chain — มี ransomware affect 3 ร้านใน 1 เขต
incident response team escalate เป็น crisis → activate ทั้ง BCP
กลายเป็นว่า — ทุก resource ของ crisis response team ทุ่มไปที่ ransomware ใน 3 ร้าน
ระหว่างนั้น — payment network outage ที่กระทบทั้ง 200 ร้าน เกิดขึ้น แต่ทีมหลักไม่ว่าง ต้องให้ทีม junior จัดการ
result: misclassify ของ event แรก → ทรัพยากรไม่พอสำหรับ event ที่ใหญ่กว่า
บทเรียน: classification criteria ต้องชัด + objective — ไม่ใช่ subjective judgment ของคนตอบโทรศัพท์คนแรก
Trap pattern รวมของ ตอน 40
RPO vs RTO
| หลุมพราง | คำตอบที่ถูก |
|---|---|
| ”RPO = RTO” | RPO = data freshness, RTO = downtime — คนละมิติ |
| ”ใช้ RPO กับ recovery site” | RPO ขับ backup, RTO ขับ recovery site |
BCP vs DRP
| หลุมพราง | คำตอบที่ถูก |
|---|---|
| ”BCP = IT’s job” | BCP = senior management, DRP = IT |
| ”BCP = DRP” | DRP เป็น component ของ BCP |
Recovery Sites
| หลุมพราง | คำตอบที่ถูก |
|---|---|
| ”Hot site = ดีที่สุดเสมอ” | ต้องตาม BIA — บางระบบ cold site เพียงพอและคุ้ม |
| ”Cold site = ห่วย” | cold site เหมาะกับ low priority — choice ที่ valid |
| ”Reciprocal agreement = ดี” | ไม่แนะนำสำหรับ critical system |
| ”Mirror = Hot” | mirror = real-time full sync (RPO ~ 0), hot = pre-equipped แต่อาจ delay |
Testing
| หลุมพราง | คำตอบที่ถูก |
|---|---|
| ”tabletop = full test” | tabletop = paper, full = real failover |
| ”test ครั้งเดียวพอ” | ต้อง annual + หลัง material change |
| ”BCP 200 หน้า = พร้อม” | length ≠ readiness — testing + maintenance พิสูจน์ readiness |
Cross-domain connection
| หัวข้อ | เชื่อมไป |
|---|---|
| BCP testing methodology | ตอน 09 (Testing & Sampling) |
| BCP policy + governance | ตอน 17 (D2 ERM) |
| Vendor recovery site review | ตอน 19 (Vendor Mgmt) |
| Incident management → BCP trigger | ตอน 34 |
| BIA — base ของทั้งหมด | ตอน 38 |
| Resilience + Backup | ตอน 39 |
| Reporting incident result | ตอน 12 (Reporting) |
ปิดบท: ความพร้อมไม่ใช่กระดาษ
ผมรู้ว่าบทนี้หนัก — แต่จริงๆ แล้ว core ของทั้ง section นี้สรุปเป็น 3 ประโยค:
1. BIA นำ — ทุกตัวเลข RTO/RPO มาจาก business ไม่ใช่ IT
ถ้า business ไม่ได้นั่งทำ BIA ด้วย — ตัวเลขที่ออกมาก็แค่ guess ของ IT
2. Testing + Maintenance ทำให้ plan ใช้ได้จริง
BCP ที่ไม่เคย test = paperwork BCP ที่ test แต่ไม่ update = false confidence BCP ที่ test + update = true control
3. Cost-benefit นำการเลือก architecture
ไม่ทุกระบบต้อง hot site ไม่ทุกระบบทน cold site ได้ เลือกตาม BIA + downtime cost — ไม่ใช่ตาม “budget เหลือเท่าไหร่”
ในมุมผู้บริหาร ผมขอจบบทด้วยคำถาม 4 ข้อที่บอกว่า BCP/DRP ของบริษัทคุณ work หรือไม่:
- “BIA ทำครั้งล่าสุดเมื่อไหร่? ใครเป็น sponsor?”
- “BCP test ครั้งล่าสุดเมื่อไหร่? ระดับ tabletop หรือ full operational?”
- “DRP ของระบบ critical ที่สุด มี documented backout plan + tested restoration มั้ย?”
- “Recovery site ของเรามี exclusivity clause ในสัญญามั้ย? เคย test access จริงรึเปล่า?”
ถ้าตอบไม่ได้ — นั่นคือพื้นที่ที่ต้องลงไปทำ
ตอนหน้าผมจะปิด Domain 4 ทั้งหมด — recap 11 ตอน + 5 บทเรียน + เกริ่น Domain 5 ที่จะมาเรื่อง security ที่ต่อยอดจาก operations + resilience ของ D4
อ้างอิง CRM (CISA Review Manual 28th Edition): Domain 4: Section 4.15 Business Continuity Plan + Section 4.16 Development of Disaster Recovery Plans