การศึกษาเปรียบเทียบวิธีการเติมค่าสูญหายสำหรับการจัดกลุ่มข้อมูลที่มีการสูญหาย

Main Article Content

พินิจชญา โชติถนอม
นิวรรณ วัฒนกิจรุ่งโรจน์
ศศิพร ทองแม้น

บทคัดย่อ

การจัดการข้อมูลสูญหายด้วยการเติมข้อมูลมีความท้าทายต่อการวิเคราะห์ข้อมูล โดยเฉพาะข้อมูลที่มีน้อยและมีความสำคัญไม่สามารถตัดออกได้ โดยทั่วไปข้อมูลสูญหายอาจเติมโดยใช้ค่ากลางของข้อมูล เช่น ค่าเฉลี่ยหรือฐานนิยม (Mean/Mode) อย่างไรก็ตาม วิธีการดังกล่าวไม่เหมาะสมสำหรับข้อมูลที่มีการกระจายตัวที่หลากหลาย  การประยุกต์ใช้การเรียนรู้ของเครื่องเพื่อทำนายค่าที่สูญหายไปจึงเป็นทางเลือกหนึ่ง งานวิจัยนี้ศึกษาผลกระทบของวิธีการเติมค่าข้อมูลสูญหายต่อประสิทธิภาพในการจัดกลุ่มโดยใช้ข้อมูลจำลองสองมิติและข้อมูลจริงเกี่ยวกับลูกค้าธนาคาร ซึ่งแต่ละชุดข้อมูลได้ทดลองให้มีอัตราการสูญหายสามระดับ ต่อมาเปรียบเทียบการเติมค่าข้อมูลสูญหาย 5 วิธี ได้แก่ วิธี Mean/Mode วิธี K-Nearest Neighbors (KNN) วิธี Multivariate Imputation by Chained Equations (MICE) KNN วิธี MICE Random Forest และวิธี MICE Bayesian Ridge จากนั้นจัดกลุ่มด้วยวิธี Hierarchical Clustering และวิธี Density-based Spatial Clustering of Applications with Noise (DBSCAN) Clustering โดยกำหนดค่าพารามิเตอร์หลากหลาย เพื่อเปรียบเทียบประสิทธิภาพ ผลการทดลองพบว่า การเติมข้อมูลสูญหายในข้อมูลที่มีอัตรการสูญหายทั้งสามระดับด้วยวิธี KNN วิธี MICE KNN และ วิธี MICE Random Forest จะให้ค่า Adjusted Rand Index (ARI) ค่า Normalized Mutual Information (NMI) ค่า  Fowlkes-Mallows Index (FMI) และ ค่า Purity สูงสุดเป็นอันดับต้นเสมอ นอกจากนี้ แต่ละชุดข้อมูลจะพบวิธีการจัดกลุ่มที่เหมาะสมแตกต่างกันไป ดังนั้น การใช้วิธีการที่เหมาะสมทั้งวิธีการจัดกลุ่มและวิธีการเติมข้อมูลสูญหายแทนที่จะใช้วิธีการเติมด้วยค่ากลางแบบดั้งเดิมจะช่วยเพิ่มประสิทธิภาพการจัดกลุ่มได้มากขึ้น โดยได้ค่าประสิทธิภาพที่ดีของตัวชี้วัดเหล่านี้อยู่ในช่วงค่า 0.81 ถึงค่าใกล้ 1

Article Details

ประเภทบทความ
บทความวิจัย

เอกสารอ้างอิง

กัลยา วานิชบัญชา. (2558). การวิเคราะห์สถิติขั้นสูงด้วย SPSS for Windows (พิมพ์ครั้งที่ 10). ศูนย์หนังสือจุฬาลงกรณ์มหาวิทยาลัย.

พัชนา สุวรรณแสน. (2562). การจัดการข้อมูลสูญหาย: วิธีเคเนียร์เรสเนเบอร์. วารสารวิจัยวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยราชภัฏนครราชสีมา, 11(2), 45–57.

ศรีรักษ์ ศรีทองชัย. (2566). การเปรียบเทียบวิธีการประมาณค่าสูญหายในการพยากรณ์ความเข้มข้นของ PM2.5 ด้วยโครงข่ายประสาทเทียม LSTM. วารสารนวัตกรรมการเรียนรู้และเทคโนโลยี, 3(1), 59–67.

อุมาพร ยกกำพล, อัชฌาณัท รัตนเลิศนุสรณ์ และอุไรวรรณ เจริญกีรติกุล. (2561). การเปรียบเทียบประสิทธิภาพของการจัดกลุ่มข้อมูลวิธีการแบบลำดับขั้นและวิธีการเคมีนสำหรับข้อมูลผสมเชิงหมวดหมู่กับเชิงตัวเลข. ใน การประชุมวิชาการสถิติประยุกต์และเทคโนโลยีสารสนเทศระดับชาติ ประจำปี 2561: Digital Transformation and Thailand 4.0 (น. 1–6). คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์.

Batista, G. E. A. P. A., & Monard, M. C. (2003). Experimental comparison of k-Nearest Neighbour and Mean or Mode Imputation Methods with the internal strategies used by C4.5 and CN2 to treat missing data. University of São Paulo at São Carlos.

Ester, M., Kriegel, H.-P., Sander, J., & Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. In Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (pp. 226–231). AAAI Press.

Maryani, I., Riana, D., Astuti, R. D., Ishaq, A., Sutrisno, & Pratama, E. A. (2018). Customer segmentation based on RFM model and clustering techniques with K-Means algorithm. 2018 Third International Conference on Informatics and Computing (ICIC), 1–6.

Mostafa, S. M., Eladimy, A. S., Hamad, S., & Amano, H. (2020). CBRG: A novel algorithm for handling missing data using Bayesian ridge regression and feature selection based on gain ratio. IEEE Access, 8, 216969–216985.

Murti, D. M. P., Pujianto, U., Wibawa, A. P., & Akbar, M. I. (2019). K-Nearest Neighbor (k-NN) based missing data imputation. 2019 5th International Conference on Science in Information Technology (ICSITech), 83–88.

Pan, R., Yang, T., & Cao, J. (2015). Missing data imputation by k nearest neighbours based on grey relational structure and mutual information. Applied Intelligence, 43(3), 614–632.

Sanjar, K., Bekhzod, O., Kim, J., & Paul, A. (2020). Missing data imputation for geolocation-based price prediction using KNN–MCF method. ISPRS International Journal of Geo-Information, 9(6), Article 347.

Shah, A. D., Bartlett, J. W., Carpenter, J., Nicholas, O., & Hemingway, H. (2014). Comparison of random forest and parametric imputation models for imputing missing data using MICE: A CALIBER study. American Journal of Epidemiology, 179(6), 764–774.

Singal, A. (2023). Bank term deposit predictions [Data set]. Kaggle. https://www.kaggle.com/datasets/thedevastator/bank-term-deposit-prediction

Van Buuren, S., & Groothuis-Oudshoorn, C. G. M. (2011). mice: Multivariate imputation by chained equations in R. Journal of Statistical Software, 45(3), 1–67.

Wood, A. M., White, I. R., & Thompson, S. G. (2004). Are missing outcome data adequately handled? A review of published randomized controlled trials in major medical journals. Clinical Trials, 1(4), 368–376.

Zhang, Z. (2016). Missing data imputation: Focusing on single imputation. Annals of Translational Medicine, 4(1), Article 19.