801 คำ
4 นาที
CISA Series ตอนที่ 35 : D4 - Change + Configuration + Patch Management — ทำไมระบบดีๆ ถึงพังหลัง update
สารบัญ

ถ้าให้เดาว่า outage อันดับ 1 ของ IT ทั่วโลกมาจากอะไร — คุณจะเดาว่าอะไร?

Hacker? — ไม่ใช่ Hardware fail? — ไม่ใช่ Natural disaster? — ห่างไกล

คำตอบคือ — change ที่เราทำเอง

จากสถิติ IT operations ที่ ISACA + ITIL community เก็บมา — การ “เปลี่ยนแปลง” ที่ไม่ได้ผ่าน change management อย่างถูกต้อง คือสาเหตุของ production outage มากกว่าทุกสาเหตุอื่นรวมกัน

ที่น่าสนใจคือ — change ส่วนใหญ่ไม่ได้ตั้งใจทำให้พัง มันทำเพื่อแก้ปัญหา / เพิ่ม feature / patch security แต่เพราะไม่ได้ test, ไม่ได้ approve, ไม่มี backout plan → กลายเป็น outage

ตอนนี้คุยทุกแง่ของ Section 4.8 — Change + Configuration + Patch Management — ที่ผมเรียกว่า “ปิดประตูตัวเอง


ทำไม Change Management ถึงไม่ใช่ bureaucracy#

Image ที่หลายคนมีของ change management = “process ช้าๆ ที่กลั่น IT ออกมาเป็นกระดาษ form

นี่คือความเข้าใจผิดที่อันตราย — เพราะมันทำให้ทีม dev/ops พยายาม bypass กระบวนการ

ผมขอเสนอ frame ใหม่: change management = “เราจะทำให้แน่ใจว่า ถ้าพังเรา rollback ได้ทัน”

ลองนึกถึงหมอผ่าตัด — ก่อนผ่า หมอทำ 4 อย่าง:

  1. ดู scan + indication — แน่ใจว่าควรผ่าตรงนี้
  2. ทบทวนกับทีม — ทุกคนเข้าใจตรงกัน
  3. เตรียม contingency — ถ้าเลือดออกหนักจะทำยังไง? ถ้าเปลี่ยน plan กลางคันจะทำยังไง?
  4. document ทุกขั้น — เผื่อต้องตามต่อหรือมีคดีความ

หมอที่ดีไม่เคยผ่าโดยไม่รู้วิธีกลับ — เพราะถ้าเปิดท้องไปแล้วเจอเรื่องไม่คาดคิด ต้องมีทางถอย

change management ก็แบบนี้ — เราไม่ deploy โดยไม่รู้วิธี rollback


3 ประเภทของ change ที่ exam ชอบหลอก#

CRM แบ่ง release เป็น 3 ประเภท แต่ละประเภทมี process ที่ต่างกัน แต่ทุกประเภทมี control

ประเภทที่ 1 — Major Release#

  • เนื้อหา: feature ใหม่, architecture change, integration ใหม่
  • ความถี่: น้อยที่สุด (รายไตรมาส / ราย 6 เดือน)
  • process: เต็มรูปแบบ — RFC, impact analysis, testing ใน UAT, sign-off, scheduled deployment, post-implementation review
  • backout plan: ต้องมี + ทดสอบแล้ว

ประเภทที่ 2 — Minor Release#

  • เนื้อหา: bug fix เล็กๆ, configuration tweak, parameter change
  • ความถี่: บ่อย (รายเดือน / รายสัปดาห์)
  • process: ลดทอนแต่ยังครบ — minor RFC, peer review, testing แบบ smoke test, sign-off
  • backout plan: ต้องมี

ประเภทที่ 3 — Emergency Release#

  • เนื้อหา: critical bug, security patch ที่ห้ามรอ, production hot fix
  • ความถี่: ตอนเกิดเหตุจริง
  • process: เร็วแต่ยังควบคุม — verbal approval ก่อน, written ตามหลัง, mandatory post-implementation review
  • backout plan: ต้องมี (เพราะ urgency = ไม่ได้ test เต็ม → risk สูง)

Trap ใหญ่ที่สุดของ exam — Emergency change ≠ no controls#

ที่ผมว่าอันตรายและ exam ออกแน่ๆ:

“Emergency = ไม่ต้องผ่าน process”ผิด

emergency change ยังต้องมี:

  • authorization (อาจเป็น verbal ก่อน, written ตาม)
  • logging (ทุก action ที่ทำ)
  • post-hoc review (review ภายใน X วัน)

ถ้าองค์กรไหน emergency change > 10% ของทั้งหมด → flag finding ทันที เพราะนั่นคือ sign ของ process avoidance — ทีม dev ใช้ “emergency” เป็นข้ออ้าง bypass change management

ตัวอย่างจริง: e-commerce platform ที่ผมเจอ — 6 เดือน apply emergency change 140 ครั้ง 23 ครั้งสร้าง incident ใหม่ ไม่มี post-implementation review เลย

นี่ไม่ใช่ “emergency” — นี่คือ change management ที่ตายไปแล้ว


Patch Management: cyber security ผ่านการ update#

Patch ≠ optional#

ทำไม security patch ถึงเป็นเรื่องด่วน?

เพราะ — เมื่อ vendor ออก patch สาธารณะ = vulnerability นั้นถูกเปิดเผยแล้ว hacker รู้แล้วว่าจะเข้ามาจากตรงไหน

ทุกวันที่ผ่านไปโดยไม่ติด patch = วันที่ attacker รู้แต่เราไม่ได้ปิดประตู

แต่ patch ก็ไม่ใช่ “apply ทันที” เสมอ#

นี่คือความขัดแย้งของ patch management:

  • ติดเร็ว → กันโจรเร็ว แต่อาจ break production
  • ติดช้า → ไม่ break แต่เปิด window ให้โจรนาน

วิธีที่ work: test → stage → production ในระยะเวลาที่กำหนด

Tierคำอธิบายtimeline สำหรับ critical patch
Test environmentลง patch ก่อน เช็คว่า break อะไรมั้ย< 24 ชั่วโมงหลัง release
Stagingลง patch ใน environment ที่ใกล้ production24-72 ชั่วโมง
Productionลงตามแผน rollout (ทยอยที่ละกลุ่ม)7-14 วัน

สำหรับ patch ที่มี exploit ใน the wild แล้ว — timeline จะสั้นลงทันที (24-48 ชั่วโมงทั้ง pipeline)

กรณีจริง: SCADA factory ที่ Bangpoo#

โรงงานแห่งหนึ่ง — ทีม IT apply OS patch ให้กับเครื่อง production control ในเย็นวันศุกร์ โดยไม่ test ก่อน

patch มี compatibility issue กับ SCADA system — Monday เช้า production start ไม่ได้

ลอง rollback — แต่ไม่มี documented backout procedure

ใช้เวลา 6 ชั่วโมง restore จาก backup → เสียกะการผลิตทั้งวัน

control gap ทุกชั้น:

  • ไม่มี test environment ก่อนลง production
  • ไม่มี documented backout plan
  • ลง patch เย็นวันศุกร์ (= “Friday deployment” anti-pattern — ถ้าพังเสาร์อาทิตย์ไม่มีใครแก้)

Configuration Management: blueprint ของระบบ#

CMDB คืออะไร#

CMDB (Configuration Management Database) = ฐานข้อมูลที่บันทึกว่า ระบบของเราตอนนี้ configure ยังไง

  • server แต่ละตัวรัน OS version อะไร? patch level เท่าไหร่?
  • database parameter set ยังไง?
  • network device firewall rule ปัจจุบัน?
  • ระบบ A กับ B เชื่อมกันที่ port อะไร?

ถ้า CMDB accurate — auditor ตอบคำถาม “ระบบเรามีอะไรอยู่บ้าง” ได้

ถ้า CMDB outdated หรือไม่มี — ทุก control downstream ก็เดิน blind

กรณี hospital DB parameter#

โรงพยาบาลแห่งหนึ่ง — developer เปลี่ยน “timeout parameter” ใน database เพื่อปรับ performance

parameter นั้น โดยบังเอิญ — disable audit logging ของการ access ผู้ป่วย

2 สัปดาห์ต่อมา — investigation เรื่อง data breach ต้องการ audit log → log ไม่อยู่

control gap:

  • configuration change ของ database ไม่ผ่าน change management
  • ไม่มี security review สำหรับ configuration change
  • ไม่มี monitoring ว่า audit logging กำลัง active อยู่หรือไม่

นี่คือเหตุผลที่ — configuration change ทุกตัวต้องผ่าน process ไม่ว่าจะดู minor แค่ไหน


Backout Plan: สิ่งที่ exam ชอบเช็ค#

ที่ผมว่า — feature เดียวที่ทำให้ change management workจริงๆ คือ backout plan

ถ้า change fail แล้ว rollback ได้ภายใน X นาที = พื้นที่เสี่ยงจำกัด ถ้า change fail แล้ว rollback ไม่ได้ = พื้นที่เสี่ยงไม่จำกัด

requirement สำหรับ backout plan ที่ใช้ได้จริง:

  1. Documented step-by-step — ไม่ใช่ “เดี๋ยว IT จะคิด”
  2. Tested — ทดสอบใน test environment ว่า rollback ได้จริง ใช้เวลาเท่าไหร่
  3. Resourced — มีคนที่รู้วิธีทำ + standby ในช่วง deployment
  4. Time-boxed — กำหนดล่วงหน้า “ถ้าหลัง X นาทียังไม่ stable ให้ rollback”

Trap ของ exam: “เรามี backup เลยไม่ต้องมี backout plan” — ผิด backup คือ data, backout plan คือกระบวนการ — เป็นเรื่องคนละเรื่อง


ที่ auditor ต้องตรวจใน Change Management#

5 จุดหลัก:

  1. Authorization — ทุก change มี approval จากระดับที่ถูกต้องมั้ย?
  2. Testing — มี evidence ของการ test ก่อน production มั้ย?
  3. Backout plan — documented + tested?
  4. Emergency change ratio — > 10% = red flag
  5. Reconciliation — change log ใน CMDB ตรงกับ change request ที่ approve มั้ย? มี change ที่อยู่ใน log แต่ไม่มี approval = unauthorized change

จุดที่ 5 คือสิ่งที่ผมว่าน่าตรวจที่สุด — มัน reveal “ghost changes” ที่ทีมแอบทำโดยไม่ผ่าน process


ปิดบท: process ที่ดูช้า แต่จริงๆ เร็ว#

ความเข้าใจผิดของหลายคน — change management ทำให้ deploy ช้า

ความจริง — change management แท้จริงทำให้ deploy เร็ว เพราะ:

  • ลด rollback / outage → ไม่ต้องเสียเวลาแก้ของพัง
  • มี documentation → ครั้งหน้าทำได้เร็วขึ้น
  • มี backout plan → กล้า deploy เร็วเพราะรู้ว่าถอยได้

องค์กรที่ deploy เร็วที่สุดในโลก (Google, Netflix, Amazon) มี change management process ที่เข้มงวดกว่าองค์กรทั่วไป — แต่ automate ทุกขั้น

DevOps ที่ดี ≠ ไม่มี change control DevOps ที่ดี = change control ที่ automate

ตอนถัดไปเรามาคุยเรื่องที่เก็บทุก trace ของ change — Log Management + SLA ที่เป็น measurable contract ระหว่าง IT กับ business


อ้างอิง CRM (CISA Review Manual 28th Edition): Domain 4: Section 4.8 IT Change, Configuration and Patch Management