A comparative study on imputation methods for clustering with missing data

Main Article Content

Pinidchaya Chottanom
Niwan Wattanakitrungroj
Sasiporn Tongman

Abstract

Managing missing data by data imputation always challenges the subsequent data analysis process.  Especially when a small amount of important data cannot be eliminated. In General, missing data can be imputed by filling its central value, such as the mean or mode value, although such methods might be unsuitable for every dataset with various distributions. Therefore, machine learning approaches to predict missing values are an interesting option. In this research, the impact of five missing data imputation methods was experimented with by clustering data with three missing rate levels. Two simulated 2D datasets and one real-world bank customer dataset were used in this work. Five missing data imputation methods, including Mean/Mode, K-Nearest Neighbors (KNN), Multivariate Imputation by Chained Equations (MICE), KNN, MICE Random Forest, and MICE Bayesian Ridge methods, were compared. After imputation, the data were clustered by both Hierarchical Clustering and Density-based Spatial Clustering of Applications with Noise (DBSCAN) Clustering approaches with various parameter setups for comparison. The experimental results show that KNN, MICE KNN, and MICE Random Forest imputation methods usually perform well, and consistently yield high values of Adjusted Rand Index (ARI), Normalized Mutual Information (NMI), Fowlkes-Mallows Index (FMI), and Purity regardless of data missing rate level. In addition, each clustering method may be suitable for each dataset differently.  Therefore, using both an appropriate clustering approach and an imputation method to fill up data in this study, rather than traditional mean and mode imputation techniques, can expressively enhance clustering performance values ranging from 0.81 to nearly 1.

Article Details

Section
Original Articles

References

กัลยา วานิชบัญชา. (2558). การวิเคราะห์สถิติขั้นสูงด้วย SPSS for Windows (พิมพ์ครั้งที่ 10). ศูนย์หนังสือจุฬาลงกรณ์มหาวิทยาลัย.

พัชนา สุวรรณแสน. (2562). การจัดการข้อมูลสูญหาย: วิธีเคเนียร์เรสเนเบอร์. วารสารวิจัยวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยราชภัฏนครราชสีมา, 11(2), 45–57.

ศรีรักษ์ ศรีทองชัย. (2566). การเปรียบเทียบวิธีการประมาณค่าสูญหายในการพยากรณ์ความเข้มข้นของ PM2.5 ด้วยโครงข่ายประสาทเทียม LSTM. วารสารนวัตกรรมการเรียนรู้และเทคโนโลยี, 3(1), 59–67.

อุมาพร ยกกำพล, อัชฌาณัท รัตนเลิศนุสรณ์ และอุไรวรรณ เจริญกีรติกุล. (2561). การเปรียบเทียบประสิทธิภาพของการจัดกลุ่มข้อมูลวิธีการแบบลำดับขั้นและวิธีการเคมีนสำหรับข้อมูลผสมเชิงหมวดหมู่กับเชิงตัวเลข. ใน การประชุมวิชาการสถิติประยุกต์และเทคโนโลยีสารสนเทศระดับชาติ ประจำปี 2561: Digital Transformation and Thailand 4.0 (น. 1–6). คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์.

Batista, G. E. A. P. A., & Monard, M. C. (2003). Experimental comparison of k-Nearest Neighbour and Mean or Mode Imputation Methods with the internal strategies used by C4.5 and CN2 to treat missing data. University of São Paulo at São Carlos.

Ester, M., Kriegel, H.-P., Sander, J., & Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. In Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (pp. 226–231). AAAI Press.

Maryani, I., Riana, D., Astuti, R. D., Ishaq, A., Sutrisno, & Pratama, E. A. (2018). Customer segmentation based on RFM model and clustering techniques with K-Means algorithm. 2018 Third International Conference on Informatics and Computing (ICIC), 1–6.

Mostafa, S. M., Eladimy, A. S., Hamad, S., & Amano, H. (2020). CBRG: A novel algorithm for handling missing data using Bayesian ridge regression and feature selection based on gain ratio. IEEE Access, 8, 216969–216985.

Murti, D. M. P., Pujianto, U., Wibawa, A. P., & Akbar, M. I. (2019). K-Nearest Neighbor (k-NN) based missing data imputation. 2019 5th International Conference on Science in Information Technology (ICSITech), 83–88.

Pan, R., Yang, T., & Cao, J. (2015). Missing data imputation by k nearest neighbours based on grey relational structure and mutual information. Applied Intelligence, 43(3), 614–632.

Sanjar, K., Bekhzod, O., Kim, J., & Paul, A. (2020). Missing data imputation for geolocation-based price prediction using KNN–MCF method. ISPRS International Journal of Geo-Information, 9(6), Article 347.

Shah, A. D., Bartlett, J. W., Carpenter, J., Nicholas, O., & Hemingway, H. (2014). Comparison of random forest and parametric imputation models for imputing missing data using MICE: A CALIBER study. American Journal of Epidemiology, 179(6), 764–774.

Singal, A. (2023). Bank term deposit predictions [Data set]. Kaggle. https://www.kaggle.com/datasets/thedevastator/bank-term-deposit-prediction

Van Buuren, S., & Groothuis-Oudshoorn, C. G. M. (2011). mice: Multivariate imputation by chained equations in R. Journal of Statistical Software, 45(3), 1–67.

Wood, A. M., White, I. R., & Thompson, S. G. (2004). Are missing outcome data adequately handled? A review of published randomized controlled trials in major medical journals. Clinical Trials, 1(4), 368–376.

Zhang, Z. (2016). Missing data imputation: Focusing on single imputation. Annals of Translational Medicine, 4(1), Article 19.