หัวข้อในสัปดาห์นี้ของรายวิชา CSI203 สถาปัตยกรรมดิจิทัลและระบบปฏิบัติการ คือ ‘การบริหารจัดการปัญหา’ (Problem Management) ในการพัฒนาระบบหรือการดูแลโครงสร้างพื้นฐานดิจิทัล สิ่งหนึ่งที่หลีกเลี่ยงไม่ได้คือ ‘ปัญหา’ ไม่ว่าจะเป็นระบบทำงานช้า ผู้ใช้ไม่สามารถเข้าถึงข้อมูลได้ หรือแม้กระทั่งช่องโหว่ด้านความปลอดภัยที่อาจถูกโจมตีได้ การแก้ปัญหาแบบ ‘ปุบปับ’ หรือแก้ที่ปลายเหตุ อาจทำให้ปัญหาเดิมกลับมาซ้ำอีกครั้งโดยไม่รู้ตัว ดังนั้น ในภาคเรียนนี้ เราจะมาเรียนรู้ กระบวนการจัดการปัญหาอย่างเป็นระบบ ตั้งแต่การตรวจจับ การวิเคราะห์หาสาเหตุที่แท้จริงด้วยเทคนิคต่างๆ เช่น 5 Whys หรือ Root Cause Analysis (RCA) ไปจนถึงการแก้ไขและป้องกันในระยะยาว นอกจากนั้น ในส่วนของ Workshop วันนี้ เราจะได้เห็นการประยุกต์ใช้จริงผ่าน Demo 2 สถานการณ์ ได้แก่ ปัญหาด้านประสิทธิภาพ (Performance) ของระบบไฟล์ และปัญหาด้านความปลอดภัย (Security) ของการสื่อสารแบบ Real-time พร้อมทั้งฝึกการนำเสนอโปรเจกต์ตามโครงสร้างมาตรฐานอีกด้วย
Incident Management คือกระบวนการจัดการกับเหตุการณ์ผิดปกติที่เกิดขึ้นในระบบไอที โดยมีเป้าหมายเพื่อ ฟื้นฟูระบบให้กลับมาทำงานตามปกติได้เร็วที่สุด และ ลดผลกระทบต่อการดำเนินธุรกิจ ให้มากที่สุด
การรับรู้ว่ามีเหตุการณ์ผิดปกติ ผ่านการแจ้งผู้ใช้, Alert จากระบบ Monitoring, หรือการตรวจสอบ Log
ระบุสาเหตุและประเมินผลกระทบ จำแนกประเภทปัญหา ระดับความรุนแรง และวิเคราะห์หาสาเหตุเบื้องต้น
ดำเนินการแก้ไขปัญหา ทั้งแบบชั่วคราว (Workaround) และแบบถาวร (Permanent Fix) หรือส่งต่อทีมที่เกี่ยวข้อง
ยืนยันการแก้ไข บันทึกข้อมูล สรุปบทเรียน และปรับปรุงกระบวนการเพื่อป้องกันการเกิดซ้ำ
| ขั้นตอน | กิจกรรมหลัก | เป้าหมาย | ระยะเวลาโดยประมาณ |
|---|---|---|---|
| Detection | ตรวจจับ, รับแจ้ง, Alert | รู้ว่ามีปัญหาโดยเร็ว | ภายใน 5-15 นาที |
| Analysis | วิเคราะห์สาเหตุ, ประเมินผลกระทบ | เข้าใจปัญหาและขอบเขต | 15-60 นาที |
| Resolution | แก้ไขชั่วคราว/ถาวร, ส่งต่อทีม | ระบบกลับมาทำงานปกติ | ตามความซับซ้อน |
| Closure | ยืนยัน, บันทึก, สรุปบทเรียน | ป้องกันการเกิดซ้ำ | 30-60 นาที |
| Incident Management | Problem Management |
|---|---|
| แก้ไขเหตุการณ์เฉพาะหน้า | วิเคราะห์หาสาเหตุที่แท้จริง |
| ฟื้นฟูระบบให้เร็วที่สุด | ป้องกันไม่ให้เกิดซ้ำ |
| ตอบคำถาม "อะไรเกิดขึ้น" | ตอบคำถาม "ทำไมถึงเกิดขึ้น" |
| มุ่งเน้นระยะสั้น | มุ่งเน้นระยะยาว |
เมื่อมีผู้ใช้งานพร้อมกันมากกว่า 50 คน ส่งผลกระทบต่อประสิทธิภาพการทำงานขององค์กร
พบ Query แบบ Full Table Scan บนตาราง file_metadata ทำให้ฐานข้อมูลทำงานหนัก
Disk Queue Length สูงผิดปกติ เนื่องจากการอ่านไฟล์ซ้ำซ้อนโดยไม่มี Cache
พบ Slow Query จำนวนมากที่ไม่มี Index ส่งผลให้การค้นหาช้าลง
มีการเรียก API เดิมซ้ำโดยไม่มี Cache ทำให้เกิดการโหลดข้อมูลซ้ำซ้อน
💡 สถานะสีเขียว = การสื่อสารปลอดภัย (เข้ารหัส) | สีแดง = ตรวจพบการเชื่อมต่อที่ไม่ปลอดภัย (ต้องแก้ไขทันที)
อาการ: ระบบช้า, CPU สูง, Response time นาน
เครื่องมือ: Log, Profiler, Monitor, JMeter
แก้ไข: Index, Cache, Pagination, CDN
ป้องกัน: Performance Testing, Code Review, Load Testing
อาการ: ข้อมูลไม่เข้ารหัส, เสี่ยง MITM Attack
เครื่องมือ: Wireshark, SSL Labs, Network Analyzer
แก้ไข: TLS 1.3, HSTS, wss://, mTLS
ป้องกัน: Security Audit, Pen Testing, Encryption Monitor
| รายการ | คะแนน | หมายเหตุ |
|---|---|---|
| การมีส่วนร่วมในชั้นเรียน (ถาม-ตอบ) | 1% | การถาม-ตอบเกี่ยวกับกระบวนการจัดการปัญหาและ Demo ทั้งสอง |
| แบบทดสอบความเข้าใจ | 2% | ทดสอบเนื้อหาทฤษฎี การประยุกต์ใช้ และการวิเคราะห์ปัญหา |
📌 หมายเหตุ: นักศึกษาสามารถทดลองใช้งาน Demo #2 เพื่อทำความเข้าใจการตรวจจับสถานะการเข้ารหัส และนำไปประยุกต์ใช้ในการนำเสนอโปรเจกต์จริง