Classification of people at risk for breast cancer using decision tree algorithm, case study: Suddhavej Hospital, Mahasarakham University, Thailand
Main Article Content
Abstract
This research focuses on evaluating the effectiveness of the Decision Tree Algorithm in classifying breast cancer, as well as investigating the associated risk factors. The study employs medical record data from breast mass patients at Mahasarakham University's Faculty of Medicine, spanning 2010 to 2022. The dataset, post-cleansing, comprises 1,524 records, with 1,343 representing low-risk breast cancer patients and 181 representing high-risk cases. The study indicates that the Decision Tree Algorithms, specifically C4.5, C5.0, and Random Forest, exhibit substantial classification accuracy. However, their area under the ROC curve (AUC) values are relatively low due to insufficient class separation, which stems from class imbalance. The research tackles this issue by employing oversampling to augment the minority class instances and undersampling to reduce the majority class instances. The outcomes reveal that both C4.5 and C5.0 Decision Trees yield comparable results, while Random Forest demonstrates a superior AUC and recall, approximately 15-20% higher than C4.5 and C5.0.
Article Details
References
ณัฏฐพร นันทิวัฒนา. (2563). มะเร็งเต้านม มะเร็งอันดับ 1 ของผู้หญิง. โรงพยาบาล ศิครินทร์. https://www.sikarin.com/doctor-articles/โรคมะเร็งเต้านม-มะเร็ง
สถาบันมะเร็งแห่งชาติ. (2561). ทะเบียนมะเร็งระดับโรงพยาบาล พ.ศ. 2559. พรทรัพย์การพิมพ์.
สายชล สินสมบูรณ์ทอง. (2560). การทำเหมืองข้อมูล เล่ม 1 การค้นหาความรู้จากข้อมูล. จามจุรีโปรดักส์.
อุกฤษฏ์ ศรีสุข และจารี ทองคำ. (2564). การเปรียบเทียบประสิทธิภาพของเทคนิคเหมืองข้อมูลสำหรับอุบัติการณ์ของผู้ป่วย. วารสาร วิทยาศาสตร์ และ เทคโนโลยี มหาวิทยาลัยมหาสารคาม, 40(2), 157-163.
Nemade, V., & Fegade, V. (2023). Machine learning techniques for breast cancer prediction. Procedia Computer Science, 218, 1314-1320.