CISA Series ตอนที่ 35 : D4 - Change + Configuration + Patch Management — ทำไมระบบดีๆ ถึงพังหลัง update

ถ้าให้เดาว่า outage อันดับ 1 ของ IT ทั่วโลกมาจากอะไร — คุณจะเดาว่าอะไร?

Hacker? — ไม่ใช่ Hardware fail? — ไม่ใช่ Natural disaster? — ห่างไกล

คำตอบคือ — change ที่เราทำเอง

จากสถิติ IT operations ที่ ISACA + ITIL community เก็บมา — การ “เปลี่ยนแปลง” ที่ไม่ได้ผ่าน change management อย่างถูกต้อง คือสาเหตุของ production outage มากกว่าทุกสาเหตุอื่นรวมกัน

ที่น่าสนใจคือ — change ส่วนใหญ่ไม่ได้ตั้งใจทำให้พัง มันทำเพื่อแก้ปัญหา / เพิ่ม feature / patch security แต่เพราะไม่ได้ test, ไม่ได้ approve, ไม่มี backout plan → กลายเป็น outage

ตอนนี้คุยทุกแง่ของ Section 4.8 — Change + Configuration + Patch Management — ที่ผมเรียกว่า “ปิดประตูตัวเอง”

ทำไม Change Management ถึงไม่ใช่ bureaucracy#

Image ที่หลายคนมีของ change management = “process ช้าๆ ที่กลั่น IT ออกมาเป็นกระดาษ form”

นี่คือความเข้าใจผิดที่อันตราย — เพราะมันทำให้ทีม dev/ops พยายาม bypass กระบวนการ

ผมขอเสนอ frame ใหม่: change management = “เราจะทำให้แน่ใจว่า ถ้าพังเรา rollback ได้ทัน”

ลองนึกถึงหมอผ่าตัด — ก่อนผ่า หมอทำ 4 อย่าง:

ดู scan + indication — แน่ใจว่าควรผ่าตรงนี้
ทบทวนกับทีม — ทุกคนเข้าใจตรงกัน
เตรียม contingency — ถ้าเลือดออกหนักจะทำยังไง? ถ้าเปลี่ยน plan กลางคันจะทำยังไง?
document ทุกขั้น — เผื่อต้องตามต่อหรือมีคดีความ

หมอที่ดีไม่เคยผ่าโดยไม่รู้วิธีกลับ — เพราะถ้าเปิดท้องไปแล้วเจอเรื่องไม่คาดคิด ต้องมีทางถอย

change management ก็แบบนี้ — เราไม่ deploy โดยไม่รู้วิธี rollback

3 ประเภทของ change ที่ exam ชอบหลอก#

CRM แบ่ง release เป็น 3 ประเภท แต่ละประเภทมี process ที่ต่างกัน แต่ทุกประเภทมี control

ประเภทที่ 1 — Major Release#

เนื้อหา: feature ใหม่, architecture change, integration ใหม่
ความถี่: น้อยที่สุด (รายไตรมาส / ราย 6 เดือน)
process: เต็มรูปแบบ — RFC, impact analysis, testing ใน UAT, sign-off, scheduled deployment, post-implementation review
backout plan: ต้องมี + ทดสอบแล้ว

ประเภทที่ 2 — Minor Release#

เนื้อหา: bug fix เล็กๆ, configuration tweak, parameter change
ความถี่: บ่อย (รายเดือน / รายสัปดาห์)
process: ลดทอนแต่ยังครบ — minor RFC, peer review, testing แบบ smoke test, sign-off
backout plan: ต้องมี

ประเภทที่ 3 — Emergency Release#

เนื้อหา: critical bug, security patch ที่ห้ามรอ, production hot fix
ความถี่: ตอนเกิดเหตุจริง
process: เร็วแต่ยังควบคุม — verbal approval ก่อน, written ตามหลัง, mandatory post-implementation review
backout plan: ต้องมี (เพราะ urgency = ไม่ได้ test เต็ม → risk สูง)

Trap ใหญ่ที่สุดของ exam — Emergency change ≠ no controls#

ที่ผมว่าอันตรายและ exam ออกแน่ๆ:

“Emergency = ไม่ต้องผ่าน process” — ผิด

emergency change ยังต้องมี:

authorization (อาจเป็น verbal ก่อน, written ตาม)
logging (ทุก action ที่ทำ)
post-hoc review (review ภายใน X วัน)

ถ้าองค์กรไหน emergency change > 10% ของทั้งหมด → flag finding ทันที เพราะนั่นคือ sign ของ process avoidance — ทีม dev ใช้ “emergency” เป็นข้ออ้าง bypass change management

ตัวอย่างจริง: e-commerce platform ที่ผมเจอ — 6 เดือน apply emergency change 140 ครั้ง 23 ครั้งสร้าง incident ใหม่ ไม่มี post-implementation review เลย

นี่ไม่ใช่ “emergency” — นี่คือ change management ที่ตายไปแล้ว

Patch Management: cyber security ผ่านการ update#

Patch ≠ optional#

ทำไม security patch ถึงเป็นเรื่องด่วน?

เพราะ — เมื่อ vendor ออก patch สาธารณะ = vulnerability นั้นถูกเปิดเผยแล้ว hacker รู้แล้วว่าจะเข้ามาจากตรงไหน

ทุกวันที่ผ่านไปโดยไม่ติด patch = วันที่ attacker รู้แต่เราไม่ได้ปิดประตู

แต่ patch ก็ไม่ใช่ “apply ทันที” เสมอ#

นี่คือความขัดแย้งของ patch management:

ติดเร็ว → กันโจรเร็ว แต่อาจ break production
ติดช้า → ไม่ break แต่เปิด window ให้โจรนาน

วิธีที่ work: test → stage → production ในระยะเวลาที่กำหนด

Tier	คำอธิบาย	timeline สำหรับ critical patch
Test environment	ลง patch ก่อน เช็คว่า break อะไรมั้ย	< 24 ชั่วโมงหลัง release
Staging	ลง patch ใน environment ที่ใกล้ production	24-72 ชั่วโมง
Production	ลงตามแผน rollout (ทยอยที่ละกลุ่ม)	7-14 วัน

สำหรับ patch ที่มี exploit ใน the wild แล้ว — timeline จะสั้นลงทันที (24-48 ชั่วโมงทั้ง pipeline)

กรณีจริง: SCADA factory ที่ Bangpoo#

โรงงานแห่งหนึ่ง — ทีม IT apply OS patch ให้กับเครื่อง production control ในเย็นวันศุกร์ โดยไม่ test ก่อน

patch มี compatibility issue กับ SCADA system — Monday เช้า production start ไม่ได้

ลอง rollback — แต่ไม่มี documented backout procedure

ใช้เวลา 6 ชั่วโมง restore จาก backup → เสียกะการผลิตทั้งวัน

control gap ทุกชั้น:

ไม่มี test environment ก่อนลง production
ไม่มี documented backout plan
ลง patch เย็นวันศุกร์ (= “Friday deployment” anti-pattern — ถ้าพังเสาร์อาทิตย์ไม่มีใครแก้)

Configuration Management: blueprint ของระบบ#

CMDB คืออะไร#

CMDB (Configuration Management Database) = ฐานข้อมูลที่บันทึกว่า ระบบของเราตอนนี้ configure ยังไง

server แต่ละตัวรัน OS version อะไร? patch level เท่าไหร่?
database parameter set ยังไง?
network device firewall rule ปัจจุบัน?
ระบบ A กับ B เชื่อมกันที่ port อะไร?

ถ้า CMDB accurate — auditor ตอบคำถาม “ระบบเรามีอะไรอยู่บ้าง” ได้

ถ้า CMDB outdated หรือไม่มี — ทุก control downstream ก็เดิน blind

กรณี hospital DB parameter#

โรงพยาบาลแห่งหนึ่ง — developer เปลี่ยน “timeout parameter” ใน database เพื่อปรับ performance

parameter นั้น โดยบังเอิญ — disable audit logging ของการ access ผู้ป่วย

2 สัปดาห์ต่อมา — investigation เรื่อง data breach ต้องการ audit log → log ไม่อยู่

control gap:

configuration change ของ database ไม่ผ่าน change management
ไม่มี security review สำหรับ configuration change
ไม่มี monitoring ว่า audit logging กำลัง active อยู่หรือไม่

นี่คือเหตุผลที่ — configuration change ทุกตัวต้องผ่าน process ไม่ว่าจะดู minor แค่ไหน

Backout Plan: สิ่งที่ exam ชอบเช็ค#

ที่ผมว่า — feature เดียวที่ทำให้ change management workจริงๆ คือ backout plan

ถ้า change fail แล้ว rollback ได้ภายใน X นาที = พื้นที่เสี่ยงจำกัด ถ้า change fail แล้ว rollback ไม่ได้ = พื้นที่เสี่ยงไม่จำกัด

requirement สำหรับ backout plan ที่ใช้ได้จริง:

Documented step-by-step — ไม่ใช่ “เดี๋ยว IT จะคิด”
Tested — ทดสอบใน test environment ว่า rollback ได้จริง ใช้เวลาเท่าไหร่
Resourced — มีคนที่รู้วิธีทำ + standby ในช่วง deployment
Time-boxed — กำหนดล่วงหน้า “ถ้าหลัง X นาทียังไม่ stable ให้ rollback”

Trap ของ exam: “เรามี backup เลยไม่ต้องมี backout plan” — ผิด backup คือ data, backout plan คือกระบวนการ — เป็นเรื่องคนละเรื่อง

ที่ auditor ต้องตรวจใน Change Management#

5 จุดหลัก:

Authorization — ทุก change มี approval จากระดับที่ถูกต้องมั้ย?
Testing — มี evidence ของการ test ก่อน production มั้ย?
Backout plan — documented + tested?
Emergency change ratio — > 10% = red flag
Reconciliation — change log ใน CMDB ตรงกับ change request ที่ approve มั้ย? มี change ที่อยู่ใน log แต่ไม่มี approval = unauthorized change

จุดที่ 5 คือสิ่งที่ผมว่าน่าตรวจที่สุด — มัน reveal “ghost changes” ที่ทีมแอบทำโดยไม่ผ่าน process

ปิดบท: process ที่ดูช้า แต่จริงๆ เร็ว#

ความเข้าใจผิดของหลายคน — change management ทำให้ deploy ช้า

ความจริง — change management แท้จริงทำให้ deploy เร็ว เพราะ:

ลด rollback / outage → ไม่ต้องเสียเวลาแก้ของพัง
มี documentation → ครั้งหน้าทำได้เร็วขึ้น
มี backout plan → กล้า deploy เร็วเพราะรู้ว่าถอยได้

องค์กรที่ deploy เร็วที่สุดในโลก (Google, Netflix, Amazon) มี change management process ที่เข้มงวดกว่าองค์กรทั่วไป — แต่ automate ทุกขั้น

DevOps ที่ดี ≠ ไม่มี change control DevOps ที่ดี = change control ที่ automate

ตอนถัดไปเรามาคุยเรื่องที่เก็บทุก trace ของ change — Log Management + SLA ที่เป็น measurable contract ระหว่าง IT กับ business

อ้างอิง CRM (CISA Review Manual 28th Edition): Domain 4: Section 4.8 IT Change, Configuration and Patch Management