วิธีการสร้างแบบจำลองเชิงทำนายพฤติกรรมการผิดเงื่อนไขการปล่อยชั่วคราวของศาล จากชุดข้อมูลที่ไม่สมดุลโดยใช้เทคนิคการเรียนรู้ของเครื่อง

Main Article Content

วิทยา ปัญญา
วฤษาย์ ร่มสายหยุด

บทคัดย่อ

การวิจัยครั้งนี้มีวัตถุประสงค์ (1) เพื่อสร้างแบบจำลองสำหรับการทำนายพฤติกรรมการผิดเงื่อนไขการปล่อยชั่วคราวของศาล ด้วยวิธีการสุ่มตัวอย่างสังเคราะห์ที่ปรับเปลี่ยนได้ (Adaptive Synthetic Sampling Approach: ADASYN) และ (2) เพื่อประเมินประสิทธิภาพของแบบจำลองการเรียนรู้ที่มีปัญหาชุดข้อมูลไม่สมดุล วิธีการวิจัยเป็นการแก้ปัญหาด้วยกระบวนการเรียนรู้ของเครื่อง (Machine Learning) ซึ่งกระบวนการนี้ประกอบด้วย 6 ขั้นตอน 1) เก็บรวบรวมข้อมูลจากศาลจังหวัดพะเยา ระหว่างเดือนมกราคม 2560 - พฤษภาคม 2565 จำนวนระเบียนทั้งหมด 2,577 ระเบียน และ 19 คุณลักษณะ จากการปล่อยชั่วคราวของศาลในคดีอาญา 2) การเตรียมข้อมูลโดยเปรียบเทียบวิธีการแก้ไขปัญหาข้อมูลไม่สมดุลจำนวน 4 วิธี ได้แก่ Random Oversampling, SMOTE, BorderlineSMOTE และ ADASYN เพื่อเรียนรู้จากชุดข้อมูลที่ไม่สมดุล ซึ่งมีข้อมูลกลุ่มมาก (majority) จำนวน 2,475 ระเบียน และข้อมูลกลุ่มน้อย (minority) จำวน 102 ระเบียน หรือมีอัตราส่วนข้อมูลกลุ่มน้อยต่อข้อมูลกลุ่มมากคิดเป็น 1: 24.26 ผลการเปรียบเทียบพบว่าวิธี ADASYN เป็นวิธีที่ให้ประสิทธิภาพสูงสุด และใช้การเลือกคุณลักษณะแบบฝังตัว 3) สร้างแบบจำลองการจำแนกประเภทด้วยอัลกอริทึม Gradient Boosting Machines ที่มีประสิทธิภาพสูงสำหรับการเรียนรู้ และทดสอบแบบจำลองเมื่อเปรียบเทียบกับอัลกอริทึม AdaBoost และ XGBoost 4) ประเมินประสิทธิภาพแบบจำลองด้วย 4 เมตริกหลัก คือค่าความถูกต้อง ค่าความแม่นยำ ค่าความครบถ้วน ค่าประสิทธิภาพโดยรวม 5) การปรับพารามิเตอร์ของแบบจำลองเพื่อหาค่าที่เหมาะสมที่สุด และ 6) การนำแบบจำลองไปใช้งาน สำหรับผลการประเมินประสิทธิภาพ มีค่าความถูกต้องคิดเป็นร้อยละ 97.44 ค่าความแม่นยำ 96.37 ค่าความครบถ้วน 98.39 และค่าประสิทธิภาพโดยรวม 97.46

Article Details

บท
Original Articles

References

กองการต่างประเทศ สำานักงานศาลยุติธรรม. (2555). การขอปล่อยชั่วคราวต่อศาล. กองการต่างประเทศ สำนักงานศาลยุติธรรม

กิตติภพ แซ่เตีย และ จิรภัทร์ หยกรัตนศักดิ์. (2564). การจัดการข้อมูลไม่สมดุลของการทำากลยุทธ์เสนอขายประกันต่อยอดสำาหรับผู้ถือบัตรเครดิต. ใน: เอกสารการประชุมวิชาการระดับชาติ ครั้งที่ 13 มหาวิทยาลัยราชภัฏนครปฐม (หน้า 514-523). มหาวิทยาลัยราชภัฏนครปฐม.

พุทธิพร ธนธรรมเมธี และเยาวเรศ ศิริสถิตย์กุล. (2561). เทคนิคการจำาแนกข้อมูลที่พัฒนาสำาหรับชุดข้อมูลที่ไม่สมดุลของภาวะข้อเข่าเสื่อมในผู้สูงอายุ. วารสาร

วิทยาศาสตร์และเทคโนโลยี, 27(6), 1164-1178.

วิชญ์วิสิฐ เกสรสิทธิ์, วิชิต หล่อจีระชุณห์กุล และจิราวัลย์ จิตรถเวช. (2561). การแก้ปัญหาข้อมูลไม่สมดุลของข้อมูลสาหรับการจาแนกผู้ป่วยโรคเบาหวาน. KKU

Research Journal (Graduate Studies), 18(3), 11-21.

สลิลยา เศษเพ็ง, เทพไท ไชยทอง และ สุทธิศักดิ์ศรลัมพ์. (2563). การประเมินความแม่นยำาของแบบจำาลองปริมาณน้ำาฝนสะสมวิกฤติ (AP-Model) ในการคาดการณ์พื้นที่ระดับความอ่อนไหวต่อการเกิดดินถล่มล่วงหน้า. การประชุมวิชาการวิศวกรรมโยธาแห่งชาติ ครั้งที่ 25, ชลบุรี ; 2563.

สำนักงานพัฒนารัฐบาลดิจิทัล (องค์การมหาชน). (2563). กรอบการทำางานปัญญาประดิษฐ์ภาครัฐ. https://www.dga.or.th/document-sharing/dga-e-book/annual-ai/47112/.

หัสพล ธัมมิกรัตน์. (2563). การวินิจฉัยโรคพาร์กินสันโดยใช้การเรียนรู้ของเครื่อง. จุฬาลงกรณ์มหาวิทยาลัย.

Berrar, D. (2018). Cross-validation. Encyclopedia of Bioinformatics and Computational Biology,1, Elsevier.

Chawla, Nitesh V., Bowyer, Kevin W., Hall, Lawrance O., & Kegelmeyer, W., Philip. (2002). SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artifcial Intelligence Research, 16, 321-357.

Chen, Z., Zhou, L. & Yu, W. (2021). ADASYN-random forest based intrusion detection model. SPML 2021: 2021 4th International Conference on Signal Processing and Machine Learning (pp. 152-159), United States.

Chen, T. & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference.

Elgeldawi, E., Sayed, A., Galal, A. & Zaki, A. (2021). Hyperparameter tuning for machine learning algorithms used for Arabic sentiment analysis. Informatics, 8, 79.

Gheyas, I. & Smith, L. (2010). Feature subset selectionin large dimensionality domains. Pattern Recognition, 43, 5-13.

Guan, J., Jiang, X & Mao, B. (2021). A method for class-imbalance learning in android malware detection. Electronics 2021, 10, 3124.

Han, H., Wang, W. & Mao, B. (2005). Borderline-SMOTE: A new over-sampling method in imbalanced data sets learning. In: International Conference on Intelligent Computing Hefei (pp. 878-887). China.

He, H., B., Yang, G. E. & Li, S. (2008). ADASYN: Adaptive synthetic sampling approach for imbalanced learning. IEEE World Congress on Computational Intelligence: 2008 IEEE International Joint Conference on Neural Networks (pp. 1322-1328). Hong Kong.

Jiang, Z., Pan, T., Zhang, C. & Yang, J. (2021). A new oversampling method based on the classifcation contribution degree. Symmetry, 13(2), 194.

Krawczyk. (2016). Learning from imbalanced data: open challenges and future directions. Progress in Artifcial Intelligence, 5, 221-232.

Kulkarni, A., Feras, A., Batarseh & Chong, D. (2020). Foundations of data imbalance and solutions for a data democracy. Data Democracy At the Nexus of Artificial Intelligence, Software Development, and Knowledge Engineering, 83-106.

Minh, H. (2018, October 11). How to Handle Imbalanced Data in Classifcation Problems. https://medium.com/@nminh.hoang1023/handling-imbalanceddata-in-classifcation-problems-7de598c1059f.

Natekin, A. & Knoll, A. (2013). Gradient Boosting Machines. A Tutorial. Frontiers in Neurorobotics, 7, 21.

Saito, S., Shirakawa, S & Akimoto, Y. (2018). Embedded feature selection using probabilistic model-based. Optimization. the Genetic and Evolutionary Computation Conference 2018 Companion (pp. 1922-1925). Japan.

Schapire, R.E. & Freund, Y. (2012). Boosting: foundations and algorithms. The MIT Press Cambridge.

Wu, P. & Zhao, H. (2011). Some analysis and research of the AdaBoost algorithm. Communications in Computer and Information Science, 134, 1-5.

Zhua, R., Guob, Y & Xuec, J.H. (2020). Adjusting the imbalance ratio by the dimensionality of imbalanced data. Pattern Recognition Letters, 133, 217-223.