876 คำ
4 นาที
CISA Series ตอนที่ 34 : D4 - เมื่อระบบทำงานช้า/ล่ม — Capacity, Incident, Problem Management
สารบัญ

ตอนนี้ผมขอเล่าเรื่องที่เป็น “ชีวิตจริงของ IT operations” — เมื่อระบบเริ่มช้า / เริ่มเพี้ยน / เริ่มล่ม — ใครทำอะไร?

CRM แบ่งเรื่องนี้เป็น 3 ขั้นที่ต่อกัน:

  1. Capacity Management (Section 4.6) — รู้ก่อนล่ม
  2. Incident Management (Section 4.7) — กู้คืนเมื่อล่ม
  3. Problem Management (Section 4.7) — เลิกล่มซ้ำ

ทั้ง 3 ขั้นเป็น lifecycle เดียวกัน — แต่ exam ชอบหลอกว่า incident กับ problem เป็นเรื่องเดียวกัน

มันไม่ใช่ครับ และผมขออธิบายเรื่องนี้ให้ชัดเจนในตอนนี้


ขั้นที่ 1 — Capacity Management: รู้ก่อนล่ม#

ทำไม outage ส่วนใหญ่ “ค่อยๆ มา” ก่อนล่มจริง#

ความเข้าใจผิดที่ผมเคยมี: ระบบล่ม = อยู่ดีๆ ก็ล่ม

จริงๆ แล้วสำหรับ outage เกือบทุกแบบ — มี signal มาก่อน เป็นวันๆ หรือเป็นสัปดาห์ก่อนระบบล่มจริง:

  • Disk usage ค่อยๆ ขึ้นจาก 70% → 80% → 90% → 99% (ใช้เวลาเป็นเดือน)
  • Response time ค่อยๆ ช้าจาก 200ms → 500ms → 2s → timeout
  • CPU spike เกิดบ่อยขึ้นทีละน้อยๆ
  • Database connection pool ค่อยๆ ถูกใช้จนเต็ม

Capacity Management = ระบบที่จับ signal เหล่านี้ ก่อนที่จะกลายเป็น outage

ลองเปรียบกับทางหลวง — ก่อนรถจะติดสนิท จะมีช่วงเวลาที่ความเร็วช้าลงก่อน ถ้าจับ signal ช่วงนี้ได้ — มีเวลาเปิดเลนเพิ่ม / route ใหม่ / แจ้งเตือน

Capacity Management ทำอะไรบ้าง#

3 หน้าที่หลัก:

  1. Monitor — เก็บ metric ของ resource (CPU, memory, disk, network bandwidth, database connection)
  2. Threshold + Alert — ตั้งค่า threshold ที่ alert ก่อนถึงจุดวิกฤต
  3. Forecast + Plan — ประมาณการความต้องการในอนาคต และวาง capacity ล่วงหน้า

ความผิดพลาดที่บ่อยคือ — มี monitor แต่ไม่มี alert ที่ actionable หรือมี alert แต่ไม่มี forecast

ตัวอย่างจริง: TV commercial vs server capacity#

ลองนึกถึง e-commerce platform ของไทย — server รับ load ปกติได้สบาย

วันหนึ่งฝ่าย Marketing ออก TV commercial ระดับชาติ — traffic พุ่ง 10 เท่าตัวภายใน 30 นาที

server ล่มภายใน 30 นาที ลูกค้าซื้อไม่ได้ 4 ชั่วโมงในช่วงที่ commercial ออกอากาศ

root cause: Capacity planning ไม่ครอบคลุม “demand spike จาก marketing campaign” และไม่มี auto-scaling policy

ที่ผมว่าน่าสนใจที่สุดคือ — นี่ไม่ใช่ปัญหา IT ล้วน มันคือปัญหาการสื่อสารระหว่าง business กับ IT

ถ้า Marketing บอก IT ล่วงหน้า 1 สัปดาห์ → IT มีเวลา scale up ระบบ → server รับ load ได้

แต่ถ้า Marketing บอก IT แค่ “วัน launch” → ไม่ทัน

มุมผู้บริหารที่ผมว่าควรเก็บ: Capacity planning เป็น business decision ที่ต้องการ input จากทุกฝ่าย ไม่ใช่งาน IT คนเดียว

Trap ของ exam เรื่อง capacity#

หลุมพรางคำตอบที่ถูก
”uptime 99.9% = พอ”ต้องดูด้วยว่า downtime ที่ 0.1% เกิดเมื่อไหร่ — peak hour vs off-hour ส่งผลต่างกันมาก
”capacity = IT’s problem”demand growth (marketing, expansion) มาจาก business — IT ทำเองคนเดียวไม่ได้
”virtualization = ปลอดภัย”hypervisor compromise = ทุก VM ถูก compromise พร้อมกัน

ขั้นที่ 2 — Incident Management: กู้คืนเมื่อล่มจริง#

Incident = restore service ASAP#

Incident Management คำถามเดียว: “ทำยังไงให้ user กลับมาใช้งานได้เร็วที่สุด”

ไม่ใช่ “ทำไมมันล่ม” ไม่ใช่ “ป้องกันไม่ให้เกิดอีกยังไง”

ลองเปรียบกับ ER ของโรงพยาบาล — เมื่อคนไข้มา หมอไม่ได้นั่งวินิจฉัยโรคก่อน, ไม่ได้สอบสวนวิถีชีวิต — หมอ stabilize ก่อน ทำให้ vital sign กลับมาดี ทำให้คนไข้ปลอดภัยจากภาวะวิกฤต

หา root cause = ขั้นตอนถัดไป (= Problem Management)

Workflow มาตรฐาน#

ขั้นสิ่งที่ทำคนรับผิดชอบ
Detectionจับสัญญาณว่าเกิด incidentMonitor / user report
Loggingสร้าง ticket บันทึก incidentHelpdesk / NOC
Classification + Priorityจัดประเภท + กำหนด priorityIncident manager
Initial responseลงมือ stabilizeTech team
Resolutionกลับมาให้บริการได้Tech team
Closureปิด ticket + ส่งต่อ ProblemIncident manager

Priority ที่ exam ชอบหลอก#

priority ของ incident ไม่ได้ขึ้นกับ — “ใครร้องเรียน”

CIO printer พัง — priority ต่ำ Payment processing ล่ม — priority สูง

priority = impact × urgency ที่กระทบ business

หลายองค์กรพลาดตรงนี้ — staff คนหนึ่งดังกว่า บ่นเก่งกว่า ก็ได้ priority สูงกว่า ทั้งที่ business impact ต่ำกว่ามาก

Trap ของข้อสอบ: “CIO request = high priority” — ผิด เพราะ priority ต้องตัดสินจาก business impact ไม่ใช่ requester seniority

SoD ในการ logging#

ที่หลายคนมองข้าม — คนที่เปิด ticket ไม่ควรเป็นคนเดียวกับคนที่ปิด ticket

ถ้า operator คนเดียว เปิด-แก้-ปิด ตัวเอง — เปิด door สำหรับ silent close: incident ที่ไม่ได้แก้จริง แต่ปิด ticket ไปแล้ว

control: ต้องแยก role ระหว่าง logging กับ resolving


ขั้นที่ 3 — Problem Management: เลิกล่มซ้ำ#

Incident ≠ Problem (สำคัญที่สุดของบทนี้)#

ถ้าจำได้แค่อย่างเดียวจากบทนี้ ขอให้จำ:

มิติIncidentProblem
เป้าหมายrestore serviceeliminate root cause
ความเร็วที่ต้องการเร็วที่สุดละเอียดที่สุด
ผลลัพธ์ระบบกลับมาใช้ได้ปัญหาไม่กลับมาอีก
เครื่องมือrunbook, escalationRCA (5 Whys, Fishbone)
ตัวอย่าง”Reboot switch แล้ว line กลับมา""switch firmware bug — patch แล้วเลิกซ้ำ”

Hospital readmission analogy#

ลองนึกถึงโรงพยาบาล — คนไข้คนหนึ่งมา ER 3 ครั้งในเดือนเดียว ทุกครั้งหายใจไม่ออก ทุกครั้งให้ออกซิเจน + ส่งกลับบ้าน

  • Incident management = ให้ออกซิเจน ส่งกลับบ้าน (รักษาอาการ)
  • Problem management = ทำไมคนไข้กลับมาเรื่อยๆ → ตรวจปอด → เจอ asthma → จ่ายยา + แนะนำ environment → ปัญหาไม่กลับมาอีก

โรงพยาบาลที่ดี = stabilize ได้เร็ว โรงพยาบาลที่เก่ง = stabilize ได้เร็ว + วินิจฉัยต้นเหตุ + รักษาไม่ให้กลับ

ตัวอย่างจริง: factory switch ที่ล่มเดือนละ 3 ครั้ง#

โรงงานแห่งหนึ่งที่ระยอง — production line shutdown 3 ครั้งในเดือน เพราะ “network timeout error”

ทุกครั้ง — IT reboot switch, line กลับมาใน 30 นาที (incident management ทำได้ดี)

แต่ไม่มีใครถาม — “ทำไม switch มัน fail ซ้ำ?”

ครั้งที่ 4 — fail ตอนกำลังจะ ship ของส่งออก ส่งของไม่ทัน → ค่าปรับตามสัญญา

ตอนนั้นถึงเริ่ม investigate — เจอว่า switch มี firmware bug ที่ trigger ตอน temperature สูง vendor ออก patch มา 6 เดือนแล้ว แต่ไม่มีใคร apply

problem management failure: incident เกิดซ้ำ ไม่มีใครยกขึ้นเป็น problem

Workaround vs Fix#

อีกหลุมพรางที่ exam ออก — “workaround = fix

ไม่ใช่ครับ:

  • Workaround = วิธีแก้เฉพาะหน้า ทำให้ระบบทำงานต่อได้ ทั้งที่ root cause ยังอยู่
  • Fix = แก้ root cause permanent

ตัวอย่าง: switch fail → reboot = workaround (ปัญหา firmware bug ยังอยู่) → patch firmware = fix

มาตรฐานที่ดี — workaround มีไว้ให้ helpdesk ใช้ระหว่างที่ permanent fix กำลัง develop แต่ห้ามให้ workaround กลายเป็น “fix ถาวร”

ในระบบ ITIL จะเรียกตัว known issue ที่มี workaround ชั่วคราว = Known Error ต้องเก็บใน Known Error Database พร้อม timeline ของ permanent fix

Undocumented workaround = ความเสี่ยงที่ใหญ่ที่สุด#

อีกอย่างที่ผมเจอบ่อย — workaround ที่ไม่ได้เขียนลง

ตัวอย่าง: POS terminal ที่กรุงเทพ ทุกร้านเจอปัญหา freeze ช่วง 5-8 โมงเย็น staff ทุกคนรู้ว่า “reboot terminal แล้วใช้ได้”

ไม่มีใครจดบันทึก — ส่งต่อกันด้วยปากเปล่า

วันที่ auditor ขอดู incident log — ไม่มี record ของปัญหา freeze เลย

problem ลึกซ่อน 9 เดือนโดย management ไม่รู้

ความรู้ที่ไม่ได้ document = พนักงานลาออกเมื่อไหร่ ความรู้ตามไปด้วย


flow รวม: 3 ขั้นที่ต่อกัน#

Capacity Monitoring → จับ signal ก่อนเหตุ
ระบบล่ม
Incident Management → restore ASAP
RCA + Problem Mgmt → หา root cause + fix permanent
Capacity Adjustment → update threshold ตามที่เรียนรู้
loop ใหม่

3 ขั้นนี้ไม่ใช่ลำดับครั้งเดียว — มันเป็น loop ที่หมุนตลอดเวลา

ทุกรอบที่ผ่าน — ระบบควรฉลาดขึ้น capacity monitoring ละเอียดขึ้น, incident response เร็วขึ้น, root cause ถูกเก็บใน knowledge base

ถ้าระบบไม่ฉลาดขึ้น = ไม่มี learning loop = problem management ไม่ทำงาน


ส่วนที่ auditor ต้องตรวจ#

ถ้าเป็น auditor ที่ตรวจ operations ของ organization ผมจะถาม 3 คำถาม:

  1. “Capacity dashboard ของเรามีอะไรบ้าง? threshold ตั้งที่ไหน?” — ถ้าไม่มี dashboard, finding ทันที
  2. “Last 6 เดือน incident ที่ priority 1-2 มีกี่ ticket — และมี problem ticket ที่ link กลับกี่ตัว?” — ถ้าตัวเลขห่างกันมาก = problem management ไม่ทำงาน
  3. “Known Error Database มีรึเปล่า? มีกี่รายการที่อยู่นานกว่า 90 วัน?” — Known Error ที่ค้างนาน = sign ว่า permanent fix ไม่ progressing

ปิดบท: คุณภาพ IT ไม่ได้วัดที่จำนวน incident#

มีคนชอบบอกว่า — IT ที่ดี = IT ที่ไม่มี incident

ผมว่าไม่ใช่ เพราะ incident เกิดได้เสมอ ใน scale ที่ใหญ่พอ

IT ที่ดีจริงๆ วัดที่:

  • Mean time to detect สั้น — รู้ตัวเร็ว
  • Mean time to recover สั้น — restore เร็ว
  • Recurrence rate ต่ำ — ไม่ล่มซ้ำเรื่องเดิม

IT ที่ตัวเลขสูงในข้อ 1-2 แต่สูงในข้อ 3 ด้วย = firefighting ดี แต่ prevention ห่วย

ตอนถัดไปเราจะลงเรื่องที่เป็นต้นเหตุ outageอันดับ 1 ของ IT ทั่วโลก — ไม่ใช่ hacker ไม่ใช่ hardware fail แต่คือ — change ที่เราทำเอง Change Management + Patch Management


อ้างอิง CRM (CISA Review Manual 28th Edition): Domain 4: Section 4.6 Systems Availability and Capacity Management + Section 4.7 Problem and Incident Management