Predictive Modeling Approach of Breach Behaviors for Provisional Release to the Court from Imbalanced Dataset Problem using Machine Learning Techniques

Main Article Content

Wittaya Panya
Walisa Romsaiyud

Abstract

The purposes of this research were (1) to build the model for predicting the breach behaviors for provisional release for the court with the Adaptive Synthetic Sampling Approach and (2) to evaluate the performance of a model based on the imbalanced dataset problem. The research methodology was to solve the problem with the Machine Learning process. The process consists of 6 steps; 1) data collection that collects data from Phayao Provincial Court during the January 2017 - May 2022 on 2,577 records and 19 features from provisional releases to the court in crime cases, 2) data preparation by using the Adaptive Synthetic Sampling: ADASYN for learning data from the imbalanced dataset. The majority class has 2,475 examples and the minority class has 102 examples or a majority to minority ratio of 1: 24.26, 3) build the classification model with eXtreme Gradient Boosting: XGBoost algorithm of high efficiency for training and testing a model by comparing with AdaBoost and Gradient Boosting, 4) evaluation the model with four main metrics are accuracy, precision, recall and F-measure, 5) parameter tuning for finding the optimal value and 6) model prediction. The experimental results showed that the model has high performance in predicting breach behaviors for provisional release for court with the measurement results of accuracy value 98.49%, precision 98.18%, recall 98.78%, and F-measure 98.48%.

Article Details

Section
Original Articles

References

กองการต่างประเทศ สำานักงานศาลยุติธรรม. (2555). การขอปล่อยชั่วคราวต่อศาล. กองการต่างประเทศ สำนักงานศาลยุติธรรม

กิตติภพ แซ่เตีย และ จิรภัทร์ หยกรัตนศักดิ์. (2564). การจัดการข้อมูลไม่สมดุลของการทำากลยุทธ์เสนอขายประกันต่อยอดสำาหรับผู้ถือบัตรเครดิต. ใน: เอกสารการประชุมวิชาการระดับชาติ ครั้งที่ 13 มหาวิทยาลัยราชภัฏนครปฐม (หน้า 514-523). มหาวิทยาลัยราชภัฏนครปฐม.

พุทธิพร ธนธรรมเมธี และเยาวเรศ ศิริสถิตย์กุล. (2561). เทคนิคการจำาแนกข้อมูลที่พัฒนาสำาหรับชุดข้อมูลที่ไม่สมดุลของภาวะข้อเข่าเสื่อมในผู้สูงอายุ. วารสาร

วิทยาศาสตร์และเทคโนโลยี, 27(6), 1164-1178.

วิชญ์วิสิฐ เกสรสิทธิ์, วิชิต หล่อจีระชุณห์กุล และจิราวัลย์ จิตรถเวช. (2561). การแก้ปัญหาข้อมูลไม่สมดุลของข้อมูลสาหรับการจาแนกผู้ป่วยโรคเบาหวาน. KKU

Research Journal (Graduate Studies), 18(3), 11-21.

สลิลยา เศษเพ็ง, เทพไท ไชยทอง และ สุทธิศักดิ์ศรลัมพ์. (2563). การประเมินความแม่นยำาของแบบจำาลองปริมาณน้ำาฝนสะสมวิกฤติ (AP-Model) ในการคาดการณ์พื้นที่ระดับความอ่อนไหวต่อการเกิดดินถล่มล่วงหน้า. การประชุมวิชาการวิศวกรรมโยธาแห่งชาติ ครั้งที่ 25, ชลบุรี ; 2563.

สำนักงานพัฒนารัฐบาลดิจิทัล (องค์การมหาชน). (2563). กรอบการทำางานปัญญาประดิษฐ์ภาครัฐ. https://www.dga.or.th/document-sharing/dga-e-book/annual-ai/47112/.

หัสพล ธัมมิกรัตน์. (2563). การวินิจฉัยโรคพาร์กินสันโดยใช้การเรียนรู้ของเครื่อง. จุฬาลงกรณ์มหาวิทยาลัย.

Berrar, D. (2018). Cross-validation. Encyclopedia of Bioinformatics and Computational Biology,1, Elsevier.

Chawla, Nitesh V., Bowyer, Kevin W., Hall, Lawrance O., & Kegelmeyer, W., Philip. (2002). SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artifcial Intelligence Research, 16, 321-357.

Chen, Z., Zhou, L. & Yu, W. (2021). ADASYN-random forest based intrusion detection model. SPML 2021: 2021 4th International Conference on Signal Processing and Machine Learning (pp. 152-159), United States.

Chen, T. & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference.

Elgeldawi, E., Sayed, A., Galal, A. & Zaki, A. (2021). Hyperparameter tuning for machine learning algorithms used for Arabic sentiment analysis. Informatics, 8, 79.

Gheyas, I. & Smith, L. (2010). Feature subset selectionin large dimensionality domains. Pattern Recognition, 43, 5-13.

Guan, J., Jiang, X & Mao, B. (2021). A method for class-imbalance learning in android malware detection. Electronics 2021, 10, 3124.

Han, H., Wang, W. & Mao, B. (2005). Borderline-SMOTE: A new over-sampling method in imbalanced data sets learning. In: International Conference on Intelligent Computing Hefei (pp. 878-887). China.

He, H., B., Yang, G. E. & Li, S. (2008). ADASYN: Adaptive synthetic sampling approach for imbalanced learning. IEEE World Congress on Computational Intelligence: 2008 IEEE International Joint Conference on Neural Networks (pp. 1322-1328). Hong Kong.

Jiang, Z., Pan, T., Zhang, C. & Yang, J. (2021). A new oversampling method based on the classifcation contribution degree. Symmetry, 13(2), 194.

Krawczyk. (2016). Learning from imbalanced data: open challenges and future directions. Progress in Artifcial Intelligence, 5, 221-232.

Kulkarni, A., Feras, A., Batarseh & Chong, D. (2020). Foundations of data imbalance and solutions for a data democracy. Data Democracy At the Nexus of Artificial Intelligence, Software Development, and Knowledge Engineering, 83-106.

Minh, H. (2018, October 11). How to Handle Imbalanced Data in Classifcation Problems. https://medium.com/@nminh.hoang1023/handling-imbalanceddata-in-classifcation-problems-7de598c1059f.

Natekin, A. & Knoll, A. (2013). Gradient Boosting Machines. A Tutorial. Frontiers in Neurorobotics, 7, 21.

Saito, S., Shirakawa, S & Akimoto, Y. (2018). Embedded feature selection using probabilistic model-based. Optimization. the Genetic and Evolutionary Computation Conference 2018 Companion (pp. 1922-1925). Japan.

Schapire, R.E. & Freund, Y. (2012). Boosting: foundations and algorithms. The MIT Press Cambridge.

Wu, P. & Zhao, H. (2011). Some analysis and research of the AdaBoost algorithm. Communications in Computer and Information Science, 134, 1-5.

Zhua, R., Guob, Y & Xuec, J.H. (2020). Adjusting the imbalance ratio by the dimensionality of imbalanced data. Pattern Recognition Letters, 133, 217-223.