การจําแนกผู้ที่มีความเสี่ยงในการเป็นโรคมะเร็งเต้านมด้วยอัลกอริทึมต้นไม้ตัดสินใจ กรณีศึกษา: โรงพยาบาลสุทธาเวช มหาวิทยาลัยมหาสารคาม ประเทศไทย

Main Article Content

ชัยยันต์ สุขหมั่น
สุภาวดี วิชิตชาญ

บทคัดย่อ

       งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของอัลกอริทึมต้นไม้ตัดสินใจ (decision tree algorithm) ในการจำแนกประเภทโรคมะเร็งเต้านม (breast cancer) และศึกษาปัจจัยเสี่ยงที่ทำให้เกิดโรคมะเร็งเต้านม ผู้วิจัยได้ใช้ข้อมูลเวชระเบียนของผู้ป่วยที่มีก้อนเนื้อบริเวณเต้านมจากคณะแพทยศาสตร์ มหาวิทยาลัยมหาสารคาม ระหว่างปี พ.ศ. 2553 ถึง พ.ศ. 2565 จากการทำความสะอาดข้อมูลเหลือข้อมูลทั้งหมด 1,524 ระเบียน ซึ่งมีข้อมูลผู้ป่วยที่มีความเสี่ยงต่ำในการเป็นโรคมะเร็งเต้านม จำนวน 1,343 ระเบียน และข้อมูลผู้ป่วยที่มีความเสี่ยงสูงในการเป็นโรคมะเร็งเต้านม จำนวน 181 ระเบียน จากผลการศึกษาพบว่า ต้นไม้ตัดสินใจ C4.5, C5.0 และ Random forest ให้ค่าความถูกต้อง (accuracy) ค่อนข้างสูง แต่ค่าเกณฑ์ในการทำนาย AUC (area under ROC curve) ค่อนข้างต่ำ เนื่องจากการทำนายโมเดลไม่สามารถแยกกลุ่ม (class) ได้ดีพอ ซึ่งพบว่าข้อมูลที่ใช้ในการจำแนกคลาสมีจำนวนของคลาสมากน้อยไม่เท่ากัน (class imbalance) เพื่อแก้ปัญหาข้อมูลไม่สมดุลในงานวิจัยนี้ใช้เทคนิคการสุ่มเพิ่ม (oversampling) เพื่อเพิ่มจำนวนตัวอย่างในคลาสที่น้อยเพื่อทำให้จำนวนตัวอย่างในทุกคลาสเท่ากันหรือใกล้เคียงกัน และวิธีสุ่มลด (undersampling) ลดตัวอย่างในคลาสที่มีจำนวนมากลงเพื่อทำให้จำนวนตัวอย่างในทุกคลาสเท่ากันหรือใกล้เคียงกัน พบว่าต้นไม้ตัดสินใจ C4.5 และ C5.0 ให้ผลลัพธ์ไม่ต่างจากเดิมและผลลัพธ์ที่ได้ไม่ต่างกันมากนัก ส่วน Random forest ให้ค่า AUC และค่าความระลึก (recall) ที่ดีขึ้นเมื่อเปรียบเทียบกับต้นไม้ตัดสินใจ C4.5 และ C5.0 ซึ่งสูงกว่าประมาณ 15-20%

Article Details

บท
บทความวิจัย

References

ณัฏฐพร นันทิวัฒนา. (2563). มะเร็งเต้านม มะเร็งอันดับ 1 ของผู้หญิง. โรงพยาบาล ศิครินทร์. https://www.sikarin.com/doctor-articles/โรคมะเร็งเต้านม-มะเร็ง

สถาบันมะเร็งแห่งชาติ. (2561). ทะเบียนมะเร็งระดับโรงพยาบาล พ.ศ. 2559. พรทรัพย์การพิมพ์.

สายชล สินสมบูรณ์ทอง. (2560). การทำเหมืองข้อมูล เล่ม 1 การค้นหาความรู้จากข้อมูล. จามจุรีโปรดักส์.

อุกฤษฏ์ ศรีสุข และจารี ทองคำ. (2564). การเปรียบเทียบประสิทธิภาพของเทคนิคเหมืองข้อมูลสำหรับอุบัติการณ์ของผู้ป่วย. วารสาร วิทยาศาสตร์ และ เทคโนโลยี มหาวิทยาลัยมหาสารคาม, 40(2), 157-163.

Nemade, V., & Fegade, V. (2023). Machine learning techniques for breast cancer prediction. Procedia Computer Science, 218, 1314-1320.