927 คำ
5 นาที
CISA Series ตอนที่ 36 : D4 - Log Management — Black Box ขององค์กร + SLA
สารบัญ

มี 2 เรื่องที่ดูเหมือนแยกกันแต่ผมตัดสินใจเอามาคุยตอนเดียวกัน เพราะมันเกี่ยวพันลึก:

  • Log Management (Section 4.9) — ความจำขององค์กร
  • SLA (Section 4.10) — สัญญาที่ทำให้ “บริการ IT ดี” วัดได้

ทั้งคู่ตอบคำถามเดียวกัน: “เราจะ accountable ได้ยังไง”

  • Log = accountable ต่อ “เกิดอะไรขึ้น” (เมื่อมี dispute / breach / regulatory query)
  • SLA = accountable ต่อ “ตกลงจะให้บริการแค่ไหน” (เมื่อ business ต้องการบริการระดับไหน)

ส่วนที่ 1 — Log: Black Box ขององค์กร#

ภาพในหัว: Black Box ของเครื่องบิน#

ทุกเครื่องบินพาณิชย์มี black box — กล่องที่บันทึกทุกอย่างที่เกิดขึ้นในห้อง cockpit + sensor ของเครื่อง

วันที่เครื่องบินทุกวันธรรมดา — black box ทำงานเงียบๆ ไม่มีใครสนใจ

วันที่เครื่องบินตก — black box คือสิ่งแรกที่ investigator ขอ เพราะมันคือสิ่งเดียวที่บอกได้ว่าเกิดอะไรในนาทีสุดท้าย

log ขององค์กรก็แบบนี้ — วันธรรมดามันไม่มีค่า แต่วันที่ — incident เกิด, breach เกิด, dispute เกิด, regulator ขอตรวจ — log คือสิ่งเดียวที่ตอบได้

ประเภทของ log ที่ auditor ต้องรู้#

CRM list log ไว้ 8 ประเภท ผมขอ group ใหม่ตามจุดประสงค์:

Group 1 — Operations log (สำหรับ run ระบบ)

  • System log — OS startup, shutdown, error
  • Server log — activity ของ server แต่ละเครื่อง
  • Event log — network traffic, login attempt

Group 2 — Compliance log (สำหรับ audit trail)

  • Change log — ใครเปลี่ยนอะไร
  • Audit log — สำหรับ reconstruction event
  • Database log — INSERT/UPDATE/DELETE

Group 3 — Security log (สำหรับจับการโจมตี)

  • Security log — security threshold event
  • Access control log — ใคร access อะไร เมื่อไหร่

แต่ละ group มี integrity requirement ที่ต่างกัน — security log ต้องการ tamper-proof สูงสุด

Log management cycle — 6 ขั้นที่ต้องครบ#

log ไม่ใช่แค่ “เก็บไว้” — มันมี cycle ที่ต้องครบ:

  1. Collect — เก็บจากทุก source
  2. Generate alert — ตั้ง rule ที่จับ anomaly
  3. Store — เก็บ + protect from tampering
  4. Analyze — วิเคราะห์ pattern
  5. Report — ส่งสรุปให้คนที่ relevant
  6. Action — แก้ไข / improve

ถ้าขาดขั้นไหน — log ก็แค่กองข้อมูลที่เก็บไว้แพงๆ ไม่ได้เป็น control

กรณีจริงที่ผมเคยเจอ#

กรณี 1 — DVR ที่นิคมอุตสาหกรรม: ระบบกล้อง CCTV ของนิคม เก็บภาพ local ที่ DVR ของแต่ละอาคาร

วันหนึ่งมีของหายในห้อง server — ทีม facility ไป pull DVR หาภาพย้อนหลัง

พบว่า DVR drive ของอาคารนั้น “ถูก overwrite” ในสัปดาห์ก่อนเหตุ — มี IT staff คนหนึ่งเข้าห้อง server พอดี

control gap:

  • log เก็บใน server เดียวกับที่ admin มี physical access
  • ไม่มี centralized log storage
  • ไม่มี write-protection

สรุป: กล้องวงจรปิดที่ภาพถูกลบได้ = ไม่ใช่ control

กรณี 2 — โรงพยาบาลที่ DBA controls log: มีข้อร้องเรียน — patient คนหนึ่งบอกว่า medical record ของตนถูก access โดยคนที่ไม่ควร

ทีม IT ไป pull access log → log เก็บใน application server เดียวกันที่ DBA มี full access

ปัญหา: DBA คือคนเดียวที่อาจถูกสงสัย — แต่ก็เป็นคนเดียวที่อาจ modify log

log ที่ใช้ใน investigation ไม่สามารถใช้เป็นหลักฐานน่าเชื่อถือได้

control ที่ขาด: SoD ระหว่างคนคุมระบบกับคนคุม log

SIEM: ตั้งแล้วต้อง calibrate#

SIEM (Security Information and Event Management) = system ที่ centralize log + correlate + alert

หลายองค์กรลงทุนซื้อ SIEM ราคาหลักล้าน — แต่ใช้งานไม่ได้

ทำไม? เพราะ — ตั้งแต่ วันแรกถึงวันนี้ ไม่เคย calibrate threshold

ตัวอย่างจริง: e-commerce platform ที่กรุงเทพ — ติด WAF (Web Application Firewall) ที่ block 500 suspicious request ต่อวัน ตั้ง SIEM alert “ถ้าเกิน 1000 request ต่อชั่วโมง”

attacker ที่ฉลาด — รู้ตัวเลข threshold พวกนี้ → ค่อยๆ ยิง 50 request/ชั่วโมง

6 วันต่อมา — สำเร็จ exfiltrate ข้อมูลลูกค้า

SIEM ทำงานตามที่ถูกตั้งค่า — แต่threshold ผิด

บทเรียน: มี SIEM ≠ มี security monitoring SIEM ที่ไม่ calibrate = false sense of security

Log retention: balance ระหว่างกฎหมายกับ cost#

retention period ของ log ต้อง align กับ:

  • Legal/regulatory — PDPA ของไทยกำหนดบางระยะเวลาสำหรับ data processing log, ธปท. กำหนดอีกตัวสำหรับธนาคาร, ก.ล.ต. อีกตัว
  • Audit investigation timeline — typical = 7 ปี
  • Cost of storage — เก็บมากเกิน = แพง
  • Privacy concern — log ที่มี personal data ก็ต้องลบเมื่อหมดวัตถุประสงค์

ที่หลายคนพลาด — assume “เก็บมากที่สุด = ดีที่สุด” ไม่ใช่ครับ retention policy ต้องเฉพาะเจาะจง

Trap pattern เรื่อง log#

หลุมพรางคำตอบที่ถูก
”เรามี log = มี control”log จะเป็น control ก็ต่อเมื่อ — comprehensive + protected + retained + monitored
”sysadmin คนเดียวจัดการ log ของระบบที่ตัวเองคุม”SoD ผิด — คนคุมระบบไม่ควรเป็นคนเดียวที่คุม log
”SIEM ทำงาน auto”SIEM ต้องการ calibration ของ alert threshold + คนที่ไป investigate
”เก็บ log นานๆ ดีที่สุด”ต้อง balance: legal minimum, cost, privacy
”change log = change management record”change log = เกิดอะไร, change management record = ใครอนุมัติ ต้อง reconcile กัน

เรื่องที่ผมเก็บไว้สำหรับ D5#

log management ใน D4 = operations focus — เก็บ log สำหรับ run + audit trail

ใน D5 จะกลับมาที่ log อีกครั้งในมุม security — SIEM, SOC, threat hunting — ใช้ log ในการจับ attacker

เดี๋ยว D5 จะลงเรื่อง SIEM operations ละเอียด


ส่วนที่ 2 — SLA: สัญญาที่วัดได้#

SLA ทำให้ “service ดี” จับต้องได้#

ก่อนมี SLA — IT กับ business มีความเข้าใจ “service ดี” ต่างกัน

  • IT — “เราตั้งใจดูแลระบบให้เต็มที่”
  • Business — “ระบบล่ม 4 ชั่วโมงต่อเดือน เป็น ‘ดี’ มั้ย?”

SLA = เปลี่ยนจากความ subjective เป็น measurable contract

SLA components ที่ครบควรมี#

มิติหมายถึงตัวอย่าง metric
Availabilityระบบใช้งานได้กี่ % ของเวลา99.9% uptime per month
Accuracyผลลัพธ์ถูกต้อง< 0.01% transaction error
Completenessครอบคลุมขอบเขตที่ตกลงreport ออกครบ 100% ของ scheduled
Timelinessตอบสนองทันเวลาresponse time < 200ms
Recoveryกู้คืนเร็วP1 incident resolve < 4 hours

ที่หลายองค์กรพลาด — focus เฉพาะ availability โดยลืมมิติอื่น

Trap ใหญ่ที่สุด: meet SLA ≠ ดี#

ตัวอย่างที่ผมว่าน่าจำที่สุด:

ธนาคารแห่งหนึ่งกำหนด ATM availability = 99.8% / เดือน

รายงานเดือน X — IT รายงาน 99.82% ผ่าน SLA

แต่ — 90% ของ downtime ในเดือนนั้น เกิดที่ช่วง 5 โมงเย็น - 2 ทุ่ม (peak time ของการกดเงิน) และ concentrate อยู่ที่ 15 สาขาในกรุงเทพที่คนใช้เยอะที่สุด

ตัวเลขผ่าน SLA แต่ลูกค้าด่ายับ

control gap: SLA design ไม่ capture business impact — aggregate uptime ปกปิด pattern ของ downtime ที่กระทบจริงๆ

แก้ยังไง? — เพิ่ม SLA dimension:

  • “uptime during peak hours (5pm-8pm) ต้อง > 99.95%”
  • “downtime ที่สาขา top-15 ต้อง < X minute / month”

SLA แบบ outsource: accountability ไม่ outsource#

เรื่องที่ exam ออกแน่ๆ:

outsource service ≠ outsource accountability

เมื่อองค์กร outsource IT service ไปให้ vendor — responsibility ในการทำงานไป vendor แต่accountability ต่อลูกค้า, regulator, board ยังอยู่กับองค์กร

ตัวอย่างจริง: โรงพยาบาลแห่งหนึ่งใช้ EMR system แบบ SaaS — vendor ให้ uptime SLA 99.9%

vendor ส่งรายงานทุกเดือนว่า 99.9% — โรงพยาบาลรับรองทุกเดือนโดยไม่ verify

วันหนึ่ง — security incident ที่ data center ของ vendor → ข้อมูลผู้ป่วยรั่ว

ตอน investigation พบว่า — “uptime” ที่ vendor คำนวณ ไม่นับ planned maintenance window ที่ระบบ accessible แบบไม่ patch

แต่ในมุม regulator — โรงพยาบาลคือ data controller ตาม PDPA ไม่ใช่ vendor

ความรับผิดชอบทางกฎหมาย = โรงพยาบาล

เชื่อม ตอน 19 (Vendor Management) ที่คุยเรื่อง SOC report + outsourcing controls

สิ่งที่ auditor ต้องตรวจสำหรับ outsourced SLA#

3 ข้อหลัก:

  1. SOC 1/SOC 2 report ของ vendor — มี? อายุไม่เกิน 1 ปี? scope ครอบคลุมระบบที่ใช้?
  2. Independent verification — มี monitoring ฝั่งเรา ไม่ใช่ trust report ของ vendor อย่างเดียว
  3. Right-to-audit clause — ในสัญญา มีสิทธิ์ไป audit vendor มั้ย?

Trap pattern เรื่อง SLA#

หลุมพรางคำตอบที่ถูก
”SLA = IT manage”SLA เป็น bilateral — business ก็มี responsibility (ส่งข้อมูล input ทันเวลา ฯลฯ)
“meet SLA = service ดี”aggregate metric อาจ mask peak-hour failure ที่กระทบจริง
”outsource = vendor problem”accountability ต่อ regulator + ลูกค้ายังอยู่กับองค์กร
”ITIL = ISO 20000”ITIL = best-practice (flexible), ISO 20000 = certifiable standard (formal)

เชื่อม Log + SLA: สองหน้าของเรื่องเดียวกัน#

ที่ผมเอามาคุยตอนเดียวกัน เพราะมัน complementary:

  • SLA = ตกลงล่วงหน้าว่า “service ดี” คืออะไร
  • Log = หลักฐานยืนยันว่า service จริงเป็นยังไง

ถ้ามี SLA แต่ไม่มี log → ไม่มีทางพิสูจน์ว่า meet หรือไม่ meet ถ้ามี log แต่ไม่มี SLA → ไม่มี baseline ว่าควรเป็นยังไง

ทั้งคู่ทำงานคู่กัน


ปิดบท: ความ accountable ของ IT operations#

ในที่สุด — log management + SLA management = ทำให้ IT accountable

  • accountable ต่อ “เกิดอะไรในระบบ” (log)
  • accountable ต่อ “ตกลงให้บริการแค่ไหน” (SLA)

IT ที่ดี = IT ที่กล้าให้คนอื่นตรวจตัวเอง — มี log ที่ครบ, SLA ที่วัดได้, รายงานที่ honest

IT ที่ปิดทึบ — มักเป็น IT ที่กลัวการตรวจสอบ — และนั่นคือ red flag ที่สุดสำหรับ auditor

ตอนถัดไปจะลงเรื่อง — Database Management ระบบเก็บข้อมูลที่มี DBA ผู้มีกุญแจทุกดอก ใครคุม DBA?


อ้างอิง CRM (CISA Review Manual 28th Edition): Domain 4: Section 4.9 Operational Log Management + Section 4.10 IT Service Level Management