สารบัญ
ถ้าให้เดาว่า outage อันดับ 1 ของ IT ทั่วโลกมาจากอะไร — คุณจะเดาว่าอะไร?
Hacker? — ไม่ใช่ Hardware fail? — ไม่ใช่ Natural disaster? — ห่างไกล
คำตอบคือ — change ที่เราทำเอง
จากสถิติ IT operations ที่ ISACA + ITIL community เก็บมา — การ “เปลี่ยนแปลง” ที่ไม่ได้ผ่าน change management อย่างถูกต้อง คือสาเหตุของ production outage มากกว่าทุกสาเหตุอื่นรวมกัน
ที่น่าสนใจคือ — change ส่วนใหญ่ไม่ได้ตั้งใจทำให้พัง มันทำเพื่อแก้ปัญหา / เพิ่ม feature / patch security แต่เพราะไม่ได้ test, ไม่ได้ approve, ไม่มี backout plan → กลายเป็น outage
ตอนนี้คุยทุกแง่ของ Section 4.8 — Change + Configuration + Patch Management — ที่ผมเรียกว่า “ปิดประตูตัวเอง”
ทำไม Change Management ถึงไม่ใช่ bureaucracy
Image ที่หลายคนมีของ change management = “process ช้าๆ ที่กลั่น IT ออกมาเป็นกระดาษ form”
นี่คือความเข้าใจผิดที่อันตราย — เพราะมันทำให้ทีม dev/ops พยายาม bypass กระบวนการ
ผมขอเสนอ frame ใหม่: change management = “เราจะทำให้แน่ใจว่า ถ้าพังเรา rollback ได้ทัน”
ลองนึกถึงหมอผ่าตัด — ก่อนผ่า หมอทำ 4 อย่าง:
- ดู scan + indication — แน่ใจว่าควรผ่าตรงนี้
- ทบทวนกับทีม — ทุกคนเข้าใจตรงกัน
- เตรียม contingency — ถ้าเลือดออกหนักจะทำยังไง? ถ้าเปลี่ยน plan กลางคันจะทำยังไง?
- document ทุกขั้น — เผื่อต้องตามต่อหรือมีคดีความ
หมอที่ดีไม่เคยผ่าโดยไม่รู้วิธีกลับ — เพราะถ้าเปิดท้องไปแล้วเจอเรื่องไม่คาดคิด ต้องมีทางถอย
change management ก็แบบนี้ — เราไม่ deploy โดยไม่รู้วิธี rollback
3 ประเภทของ change ที่ exam ชอบหลอก
CRM แบ่ง release เป็น 3 ประเภท แต่ละประเภทมี process ที่ต่างกัน แต่ทุกประเภทมี control
ประเภทที่ 1 — Major Release
- เนื้อหา: feature ใหม่, architecture change, integration ใหม่
- ความถี่: น้อยที่สุด (รายไตรมาส / ราย 6 เดือน)
- process: เต็มรูปแบบ — RFC, impact analysis, testing ใน UAT, sign-off, scheduled deployment, post-implementation review
- backout plan: ต้องมี + ทดสอบแล้ว
ประเภทที่ 2 — Minor Release
- เนื้อหา: bug fix เล็กๆ, configuration tweak, parameter change
- ความถี่: บ่อย (รายเดือน / รายสัปดาห์)
- process: ลดทอนแต่ยังครบ — minor RFC, peer review, testing แบบ smoke test, sign-off
- backout plan: ต้องมี
ประเภทที่ 3 — Emergency Release
- เนื้อหา: critical bug, security patch ที่ห้ามรอ, production hot fix
- ความถี่: ตอนเกิดเหตุจริง
- process: เร็วแต่ยังควบคุม — verbal approval ก่อน, written ตามหลัง, mandatory post-implementation review
- backout plan: ต้องมี (เพราะ urgency = ไม่ได้ test เต็ม → risk สูง)
Trap ใหญ่ที่สุดของ exam — Emergency change ≠ no controls
ที่ผมว่าอันตรายและ exam ออกแน่ๆ:
“Emergency = ไม่ต้องผ่าน process” — ผิด
emergency change ยังต้องมี:
- authorization (อาจเป็น verbal ก่อน, written ตาม)
- logging (ทุก action ที่ทำ)
- post-hoc review (review ภายใน X วัน)
ถ้าองค์กรไหน emergency change > 10% ของทั้งหมด → flag finding ทันที เพราะนั่นคือ sign ของ process avoidance — ทีม dev ใช้ “emergency” เป็นข้ออ้าง bypass change management
ตัวอย่างจริง: e-commerce platform ที่ผมเจอ — 6 เดือน apply emergency change 140 ครั้ง 23 ครั้งสร้าง incident ใหม่ ไม่มี post-implementation review เลย
นี่ไม่ใช่ “emergency” — นี่คือ change management ที่ตายไปแล้ว
Patch Management: cyber security ผ่านการ update
Patch ≠ optional
ทำไม security patch ถึงเป็นเรื่องด่วน?
เพราะ — เมื่อ vendor ออก patch สาธารณะ = vulnerability นั้นถูกเปิดเผยแล้ว hacker รู้แล้วว่าจะเข้ามาจากตรงไหน
ทุกวันที่ผ่านไปโดยไม่ติด patch = วันที่ attacker รู้แต่เราไม่ได้ปิดประตู
แต่ patch ก็ไม่ใช่ “apply ทันที” เสมอ
นี่คือความขัดแย้งของ patch management:
- ติดเร็ว → กันโจรเร็ว แต่อาจ break production
- ติดช้า → ไม่ break แต่เปิด window ให้โจรนาน
วิธีที่ work: test → stage → production ในระยะเวลาที่กำหนด
| Tier | คำอธิบาย | timeline สำหรับ critical patch |
|---|---|---|
| Test environment | ลง patch ก่อน เช็คว่า break อะไรมั้ย | < 24 ชั่วโมงหลัง release |
| Staging | ลง patch ใน environment ที่ใกล้ production | 24-72 ชั่วโมง |
| Production | ลงตามแผน rollout (ทยอยที่ละกลุ่ม) | 7-14 วัน |
สำหรับ patch ที่มี exploit ใน the wild แล้ว — timeline จะสั้นลงทันที (24-48 ชั่วโมงทั้ง pipeline)
กรณีจริง: SCADA factory ที่ Bangpoo
โรงงานแห่งหนึ่ง — ทีม IT apply OS patch ให้กับเครื่อง production control ในเย็นวันศุกร์ โดยไม่ test ก่อน
patch มี compatibility issue กับ SCADA system — Monday เช้า production start ไม่ได้
ลอง rollback — แต่ไม่มี documented backout procedure
ใช้เวลา 6 ชั่วโมง restore จาก backup → เสียกะการผลิตทั้งวัน
control gap ทุกชั้น:
- ไม่มี test environment ก่อนลง production
- ไม่มี documented backout plan
- ลง patch เย็นวันศุกร์ (= “Friday deployment” anti-pattern — ถ้าพังเสาร์อาทิตย์ไม่มีใครแก้)
Configuration Management: blueprint ของระบบ
CMDB คืออะไร
CMDB (Configuration Management Database) = ฐานข้อมูลที่บันทึกว่า ระบบของเราตอนนี้ configure ยังไง
- server แต่ละตัวรัน OS version อะไร? patch level เท่าไหร่?
- database parameter set ยังไง?
- network device firewall rule ปัจจุบัน?
- ระบบ A กับ B เชื่อมกันที่ port อะไร?
ถ้า CMDB accurate — auditor ตอบคำถาม “ระบบเรามีอะไรอยู่บ้าง” ได้
ถ้า CMDB outdated หรือไม่มี — ทุก control downstream ก็เดิน blind
กรณี hospital DB parameter
โรงพยาบาลแห่งหนึ่ง — developer เปลี่ยน “timeout parameter” ใน database เพื่อปรับ performance
parameter นั้น โดยบังเอิญ — disable audit logging ของการ access ผู้ป่วย
2 สัปดาห์ต่อมา — investigation เรื่อง data breach ต้องการ audit log → log ไม่อยู่
control gap:
- configuration change ของ database ไม่ผ่าน change management
- ไม่มี security review สำหรับ configuration change
- ไม่มี monitoring ว่า audit logging กำลัง active อยู่หรือไม่
นี่คือเหตุผลที่ — configuration change ทุกตัวต้องผ่าน process ไม่ว่าจะดู minor แค่ไหน
Backout Plan: สิ่งที่ exam ชอบเช็ค
ที่ผมว่า — feature เดียวที่ทำให้ change management workจริงๆ คือ backout plan
ถ้า change fail แล้ว rollback ได้ภายใน X นาที = พื้นที่เสี่ยงจำกัด ถ้า change fail แล้ว rollback ไม่ได้ = พื้นที่เสี่ยงไม่จำกัด
requirement สำหรับ backout plan ที่ใช้ได้จริง:
- Documented step-by-step — ไม่ใช่ “เดี๋ยว IT จะคิด”
- Tested — ทดสอบใน test environment ว่า rollback ได้จริง ใช้เวลาเท่าไหร่
- Resourced — มีคนที่รู้วิธีทำ + standby ในช่วง deployment
- Time-boxed — กำหนดล่วงหน้า “ถ้าหลัง X นาทียังไม่ stable ให้ rollback”
Trap ของ exam: “เรามี backup เลยไม่ต้องมี backout plan” — ผิด backup คือ data, backout plan คือกระบวนการ — เป็นเรื่องคนละเรื่อง
ที่ auditor ต้องตรวจใน Change Management
5 จุดหลัก:
- Authorization — ทุก change มี approval จากระดับที่ถูกต้องมั้ย?
- Testing — มี evidence ของการ test ก่อน production มั้ย?
- Backout plan — documented + tested?
- Emergency change ratio — > 10% = red flag
- Reconciliation — change log ใน CMDB ตรงกับ change request ที่ approve มั้ย? มี change ที่อยู่ใน log แต่ไม่มี approval = unauthorized change
จุดที่ 5 คือสิ่งที่ผมว่าน่าตรวจที่สุด — มัน reveal “ghost changes” ที่ทีมแอบทำโดยไม่ผ่าน process
ปิดบท: process ที่ดูช้า แต่จริงๆ เร็ว
ความเข้าใจผิดของหลายคน — change management ทำให้ deploy ช้า
ความจริง — change management แท้จริงทำให้ deploy เร็ว เพราะ:
- ลด rollback / outage → ไม่ต้องเสียเวลาแก้ของพัง
- มี documentation → ครั้งหน้าทำได้เร็วขึ้น
- มี backout plan → กล้า deploy เร็วเพราะรู้ว่าถอยได้
องค์กรที่ deploy เร็วที่สุดในโลก (Google, Netflix, Amazon) มี change management process ที่เข้มงวดกว่าองค์กรทั่วไป — แต่ automate ทุกขั้น
DevOps ที่ดี ≠ ไม่มี change control DevOps ที่ดี = change control ที่ automate
ตอนถัดไปเรามาคุยเรื่องที่เก็บทุก trace ของ change — Log Management + SLA ที่เป็น measurable contract ระหว่าง IT กับ business
อ้างอิง CRM (CISA Review Manual 28th Edition): Domain 4: Section 4.8 IT Change, Configuration and Patch Management