วิธีการสร้างแบบจำลองเชิงทำนายพฤติกรรมการผิดเงื่อนไขการปล่อยชั่วคราวของศาล จากชุดข้อมูลที่ไม่สมดุลโดยใช้เทคนิคการเรียนรู้ของเครื่อง
Main Article Content
บทคัดย่อ
การวิจัยครั้งนี้มีวัตถุประสงค์ (1) เพื่อสร้างแบบจำลองสำหรับการทำนายพฤติกรรมการผิดเงื่อนไขการปล่อยชั่วคราวของศาล ด้วยวิธีการสุ่มตัวอย่างสังเคราะห์ที่ปรับเปลี่ยนได้ (Adaptive Synthetic Sampling Approach: ADASYN) และ (2) เพื่อประเมินประสิทธิภาพของแบบจำลองการเรียนรู้ที่มีปัญหาชุดข้อมูลไม่สมดุล วิธีการวิจัยเป็นการแก้ปัญหาด้วยกระบวนการเรียนรู้ของเครื่อง (Machine Learning) ซึ่งกระบวนการนี้ประกอบด้วย 6 ขั้นตอน 1) เก็บรวบรวมข้อมูลจากศาลจังหวัดพะเยา ระหว่างเดือนมกราคม 2560 - พฤษภาคม 2565 จำนวนระเบียนทั้งหมด 2,577 ระเบียน และ 19 คุณลักษณะ จากการปล่อยชั่วคราวของศาลในคดีอาญา 2) การเตรียมข้อมูลโดยเปรียบเทียบวิธีการแก้ไขปัญหาข้อมูลไม่สมดุลจำนวน 4 วิธี ได้แก่ Random Oversampling, SMOTE, BorderlineSMOTE และ ADASYN เพื่อเรียนรู้จากชุดข้อมูลที่ไม่สมดุล ซึ่งมีข้อมูลกลุ่มมาก (majority) จำนวน 2,475 ระเบียน และข้อมูลกลุ่มน้อย (minority) จำวน 102 ระเบียน หรือมีอัตราส่วนข้อมูลกลุ่มน้อยต่อข้อมูลกลุ่มมากคิดเป็น 1: 24.26 ผลการเปรียบเทียบพบว่าวิธี ADASYN เป็นวิธีที่ให้ประสิทธิภาพสูงสุด และใช้การเลือกคุณลักษณะแบบฝังตัว 3) สร้างแบบจำลองการจำแนกประเภทด้วยอัลกอริทึม Gradient Boosting Machines ที่มีประสิทธิภาพสูงสำหรับการเรียนรู้ และทดสอบแบบจำลองเมื่อเปรียบเทียบกับอัลกอริทึม AdaBoost และ XGBoost 4) ประเมินประสิทธิภาพแบบจำลองด้วย 4 เมตริกหลัก คือค่าความถูกต้อง ค่าความแม่นยำ ค่าความครบถ้วน ค่าประสิทธิภาพโดยรวม 5) การปรับพารามิเตอร์ของแบบจำลองเพื่อหาค่าที่เหมาะสมที่สุด และ 6) การนำแบบจำลองไปใช้งาน สำหรับผลการประเมินประสิทธิภาพ มีค่าความถูกต้องคิดเป็นร้อยละ 97.44 ค่าความแม่นยำ 96.37 ค่าความครบถ้วน 98.39 และค่าประสิทธิภาพโดยรวม 97.46
Article Details
References
กองการต่างประเทศ สำานักงานศาลยุติธรรม. (2555). การขอปล่อยชั่วคราวต่อศาล. กองการต่างประเทศ สำนักงานศาลยุติธรรม
กิตติภพ แซ่เตีย และ จิรภัทร์ หยกรัตนศักดิ์. (2564). การจัดการข้อมูลไม่สมดุลของการทำากลยุทธ์เสนอขายประกันต่อยอดสำาหรับผู้ถือบัตรเครดิต. ใน: เอกสารการประชุมวิชาการระดับชาติ ครั้งที่ 13 มหาวิทยาลัยราชภัฏนครปฐม (หน้า 514-523). มหาวิทยาลัยราชภัฏนครปฐม.
พุทธิพร ธนธรรมเมธี และเยาวเรศ ศิริสถิตย์กุล. (2561). เทคนิคการจำาแนกข้อมูลที่พัฒนาสำาหรับชุดข้อมูลที่ไม่สมดุลของภาวะข้อเข่าเสื่อมในผู้สูงอายุ. วารสาร
วิทยาศาสตร์และเทคโนโลยี, 27(6), 1164-1178.
วิชญ์วิสิฐ เกสรสิทธิ์, วิชิต หล่อจีระชุณห์กุล และจิราวัลย์ จิตรถเวช. (2561). การแก้ปัญหาข้อมูลไม่สมดุลของข้อมูลสาหรับการจาแนกผู้ป่วยโรคเบาหวาน. KKU
Research Journal (Graduate Studies), 18(3), 11-21.
สลิลยา เศษเพ็ง, เทพไท ไชยทอง และ สุทธิศักดิ์ศรลัมพ์. (2563). การประเมินความแม่นยำาของแบบจำาลองปริมาณน้ำาฝนสะสมวิกฤติ (AP-Model) ในการคาดการณ์พื้นที่ระดับความอ่อนไหวต่อการเกิดดินถล่มล่วงหน้า. การประชุมวิชาการวิศวกรรมโยธาแห่งชาติ ครั้งที่ 25, ชลบุรี ; 2563.
สำนักงานพัฒนารัฐบาลดิจิทัล (องค์การมหาชน). (2563). กรอบการทำางานปัญญาประดิษฐ์ภาครัฐ. https://www.dga.or.th/document-sharing/dga-e-book/annual-ai/47112/.
หัสพล ธัมมิกรัตน์. (2563). การวินิจฉัยโรคพาร์กินสันโดยใช้การเรียนรู้ของเครื่อง. จุฬาลงกรณ์มหาวิทยาลัย.
Berrar, D. (2018). Cross-validation. Encyclopedia of Bioinformatics and Computational Biology,1, Elsevier.
Chawla, Nitesh V., Bowyer, Kevin W., Hall, Lawrance O., & Kegelmeyer, W., Philip. (2002). SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artifcial Intelligence Research, 16, 321-357.
Chen, Z., Zhou, L. & Yu, W. (2021). ADASYN-random forest based intrusion detection model. SPML 2021: 2021 4th International Conference on Signal Processing and Machine Learning (pp. 152-159), United States.
Chen, T. & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference.
Elgeldawi, E., Sayed, A., Galal, A. & Zaki, A. (2021). Hyperparameter tuning for machine learning algorithms used for Arabic sentiment analysis. Informatics, 8, 79.
Gheyas, I. & Smith, L. (2010). Feature subset selectionin large dimensionality domains. Pattern Recognition, 43, 5-13.
Guan, J., Jiang, X & Mao, B. (2021). A method for class-imbalance learning in android malware detection. Electronics 2021, 10, 3124.
Han, H., Wang, W. & Mao, B. (2005). Borderline-SMOTE: A new over-sampling method in imbalanced data sets learning. In: International Conference on Intelligent Computing Hefei (pp. 878-887). China.
He, H., B., Yang, G. E. & Li, S. (2008). ADASYN: Adaptive synthetic sampling approach for imbalanced learning. IEEE World Congress on Computational Intelligence: 2008 IEEE International Joint Conference on Neural Networks (pp. 1322-1328). Hong Kong.
Jiang, Z., Pan, T., Zhang, C. & Yang, J. (2021). A new oversampling method based on the classifcation contribution degree. Symmetry, 13(2), 194.
Krawczyk. (2016). Learning from imbalanced data: open challenges and future directions. Progress in Artifcial Intelligence, 5, 221-232.
Kulkarni, A., Feras, A., Batarseh & Chong, D. (2020). Foundations of data imbalance and solutions for a data democracy. Data Democracy At the Nexus of Artificial Intelligence, Software Development, and Knowledge Engineering, 83-106.
Minh, H. (2018, October 11). How to Handle Imbalanced Data in Classifcation Problems. https://medium.com/@nminh.hoang1023/handling-imbalanceddata-in-classifcation-problems-7de598c1059f.
Natekin, A. & Knoll, A. (2013). Gradient Boosting Machines. A Tutorial. Frontiers in Neurorobotics, 7, 21.
Saito, S., Shirakawa, S & Akimoto, Y. (2018). Embedded feature selection using probabilistic model-based. Optimization. the Genetic and Evolutionary Computation Conference 2018 Companion (pp. 1922-1925). Japan.
Schapire, R.E. & Freund, Y. (2012). Boosting: foundations and algorithms. The MIT Press Cambridge.
Wu, P. & Zhao, H. (2011). Some analysis and research of the AdaBoost algorithm. Communications in Computer and Information Science, 134, 1-5.
Zhua, R., Guob, Y & Xuec, J.H. (2020). Adjusting the imbalance ratio by the dimensionality of imbalanced data. Pattern Recognition Letters, 133, 217-223.