การปรับแก้วิธีเคเนียร์เรสเนเบอร์โดยใช้ค่าเฉลี่ยเดไซล์ในการประมาณค่าข้อมูลสูญหาย
คำสำคัญ:
การประมาณค่าข้อมูลสูญหาย, ข้อมูลสูญหาย, การปรับแก้วิธีเคเนียร์เรสเนเบอร์บทคัดย่อ
การวิจัยนี้มีวัตถุประสงค์เพื่อพัฒนาวิธีการประมาณค่าข้อมูลสูญหายแบบใหม่ Decile Mean K-Nearest Neighbor Bhattacharyya Imputation (DKNN-BH) ที่เกิดจากวิธีการประมาณค่าสูญหายด้วยวิธี K-Nearest Neighbor Imputation (KNN) ปรับแก้ด้วยการใช้ค่าเฉลี่ยเดไซล์และการหาระยะทางแบบ Bhattacharyya เพื่อเปรียบเทียบประสิทธิภาพของวิธีการประมาณค่าข้อมูลสูญหายแบบใหม่ DKNN-BH กับวิธีการประมาณค่าข้อมูลสูญหายค่าเฉลี่ยเลขคณิต วิธีการประมาณค่าข้อมูลสูญหาย K-Nearest Neighbor Imputation (KNN) และวิธีการประมาณค่าข้อมูลสูญหาย Decile Mean K-Nearest Neighbor Imputation (DKNN) ภายใต้การจำลองสถานการณ์ 300 สถานการณ์ จาก 4 เงื่อนไข คือ ขนาดตัวอย่าง ระดับการสูญหายของข้อมูล ขนาดของค่านอกเกณฑ์ และค่าคงที่ k สำหรับการประมาณค่าข้อมูลสูญหายแบบใหม่ DKNN-BH วิธีการประมาณค่าข้อมูลสูญหาย KNN และวิธีการประมาณค่าข้อมูลสูญหาย DKNN โดยใช้การจำลองสถานการณ์ วิธีมอนติคาร์โล ทำการทดลองซ้ำจำนวน 500 ครั้ง ผลการศึกษา ปรากฏว่า การพัฒนาวิธีการประมาณค่าข้อมูลสูญหายแบบใหม่ DKNN-BH เกิดจากการปรับแก้วิธีการประมาณค่าสูญหายวิธี KNN ด้วยการใช้ค่าเฉลี่ยเดไซล์และการหาระยะทางแบบ Bhattacharyya ซึ่งเป็นการปรับแก้ขั้นตอนในการประมาณค่าสูญหายของวิธี KNN ใน 2 ขั้นตอน คือ ขั้นตอนการคำนวณระยะทาง โดยใช้การหาระยะทางแบบ Bhattacharyya และขั้นตอน การประมาณค่าข้อมูลสูญหายด้วยวิธีการใช้ค่าเฉลี่ยเดไซล์ และเมื่อพิจารณาผลการเปรียบเทียบประสิทธิภาพของการประมาณค่าข้อมูลสูญหายแบบใหม่ DKNN-BH ในการจำลองสถานการณ์ วิธี DKNN-BH ให้ผลดีกว่าการประมาณค่าข้อมูลสูญหายแบบเดิมในทุกกรณี จากการพิจารณาค่าความคลาดเคลื่อนกำลังสองเฉลี่ยที่ให้ค่าต่ำที่สุด เมื่อข้อมูลมีร้อยละการสูญหาย เท่ากับ ร้อยละ 5 10 20 30 และ 40 มีร้อยละค่านอกเกณฑ์ เท่ากับ ร้อยละ 0 5 10 และ 20 และค่า k เท่ากับ 11 13 15 17 และ 19 โดยค่า MSE จะยิ่งมีค่าลดลงเมื่อร้อยละค่านอกเกณฑ์และค่า k ลดลง
เอกสารอ้างอิง
Bhattacharyya, A. 1943. On a measure of divergence between two statistical populations defined by their probability distributions. Bulletin of the Calcutta Mathematical Society 35: 99-109.
Bishop, C.M. 1995. Neural networks for pattern recognition. Oxford university press, UK.
Cartwright, M.H., Shepperd, M.J. and Song, Q. 2003. Dealing with missing software project data, pp. 154-165. In Proceedings of the 9th IEEE International Software Metrics Symposium (METRICS'03). IEEE Computer Society, Sydney.
Hengpraprohm, K. and Meesad, P. 2008. Feature selection of K-Nearest Neighbor for missing value imputation using K-Nearest Neighbor. Information Technology Journal 4(7): 55-61. (in Thai)
Kim, J.O. and Curry, J. 1977. The treatment of missing data in multivariate analysis. Sociological Methods & Research 6(2): 215-240.
Kim, K.Y., Kim, B.J. and Yi, G.S. 2004. Reuse of imputed data in microarray analysis increases imputation efficiency. BMC Bioinformatics 5(1): 160.
Ladha, L. and Deepa, T. 2011. Feature selection methods and algorithms. International journal on computer science and engineering 3(5): 1787-1797.
Liao, S.G., Lin, Y., Kang, D.D., Chandra, D., Bon, J., Kaminski, N. and Tseng, G.C. 2014. Missing value imputation in high-dimensional phenomic data: imputable or not, and how?. BMC Bioinformatics 15(1): 346.
Pasunon, P. and Nilakorn, P. 2007. Outliers detection in regression analysis by Bhattacharyya Statistics, pp. 11-18. In The Proceeding of 45th Kasetsart University Annual Conference. Kasetsart University, Bangkok. (in Thai)
Rana, S., Siraj-Ud-Doulah, M., Midi, H. and Imon, A.H.M.R. 2012. Decile mean: A new robust measure of central tendency. Chiang Mai journal of science 39(3): 478-485.
Robins, J.M. and Wang, N. 2000. Inference for imputation estimators. Biometrika 87: 113-124.
Schioler, H. and Hartmann, U. 1992. Mapping neural network derived from the Parzen window estimator. Neural Networks 5(6): 903-909.
Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., Tibshirani, R. and Altman, R.B. 2001. Missing value estimation methods for DNA microarrays. Bioinformatics 17(6): 520-525.
Vongprasert, J. 2019. Jacknife and Regression Approaches to Missing Data Imputation. Journal of Applied Statistics and Information Technology 3(1): 52-61.
ดาวน์โหลด
เผยแพร่แล้ว
รูปแบบการอ้างอิง
ฉบับ
ประเภทบทความ
สัญญาอนุญาต
เนื้อหาและข้อมูลในบทความที่ลงตีพิมพ์ในวารสารวิจัยมหาวิทยาลัยเทคโนโลยีราชมงคลศรีวิชัย ถือเป็นข้อคิดเห็นและความรับผิดชอบของผู้เขียนบทความโดยตรง ซึ่งกองบรรณาธิการวารสารไม่จำเป็น ต้องเห็นด้วย หรือร่วมรับผิดชอบใดๆ
บทความ ข้อมูล เนื้อหา รูปภาพฯลฯ ที่ได้รับการตีพิมพ์ในวารสารวิจัย มหาวิทยาลัยเทคโนโลยีราชมงคลศรีวิชัย ถือเป็นลิขสิทธ์ของวารสารวิจัย มหาวิทยาลัยเทคโนโลยีราชมงคลศรีวิชัย หากบุคคลหรือหน่วยงานใดต้องการนำทั้งหมดหรือส่วนหนึ่งส่วนใดไปเผยแพร่ต่อหรือเพื่อการกระทำการใดๆจะต้องได้รับอนุญาตเป็นลายลักษ์อักษรจากวารสาร มหาวิทยาลัยเทคโนโลยีราชมงคลศรีวิชัยก่อนเท่านั้น



