การปรับแก้วิธีเคเนียร์เรสเนเบอร์โดยใช้ค่าเฉลี่ยเดไซล์ในการประมาณค่าข้อมูลสูญหาย

ผู้แต่ง

  • พัชนา สุวรรณแสน วิทยาลัยวิทยาการวิจัยและวิทยาการปัญญา มหาวิทยาลัยบูรพา
  • ภัทราวดี มากมี วิทยาลัยวิทยาการวิจัยและวิทยาการปัญญา มหาวิทยาลัยบูรพา
  • อาฟีฟี ลาเต๊ะ คณะศึกษาศาสตร์ มหาวิทยาลัยสงขลานครินทร์

คำสำคัญ:

การประมาณค่าข้อมูลสูญหาย, ข้อมูลสูญหาย, การปรับแก้วิธีเคเนียร์เรสเนเบอร์

บทคัดย่อ

การวิจัยนี้มีวัตถุประสงค์เพื่อพัฒนาวิธีการประมาณค่าข้อมูลสูญหายแบบใหม่ Decile Mean K-Nearest Neighbor Bhattacharyya Imputation (DKNN-BH) ที่เกิดจากวิธีการประมาณค่าสูญหายด้วยวิธี K-Nearest Neighbor Imputation (KNN) ปรับแก้ด้วยการใช้ค่าเฉลี่ยเดไซล์และการหาระยะทางแบบ Bhattacharyya เพื่อเปรียบเทียบประสิทธิภาพของวิธีการประมาณค่าข้อมูลสูญหายแบบใหม่ DKNN-BH กับวิธีการประมาณค่าข้อมูลสูญหายค่าเฉลี่ยเลขคณิต วิธีการประมาณค่าข้อมูลสูญหาย K-Nearest Neighbor Imputation (KNN)  และวิธีการประมาณค่าข้อมูลสูญหาย Decile Mean K-Nearest Neighbor Imputation (DKNN) ภายใต้การจำลองสถานการณ์ 300 สถานการณ์ จาก 4 เงื่อนไข คือ ขนาดตัวอย่าง ระดับการสูญหายของข้อมูล ขนาดของค่านอกเกณฑ์ และค่าคงที่ k สำหรับการประมาณค่าข้อมูลสูญหายแบบใหม่ DKNN-BH วิธีการประมาณค่าข้อมูลสูญหาย KNN และวิธีการประมาณค่าข้อมูลสูญหาย DKNN โดยใช้การจำลองสถานการณ์ วิธีมอนติคาร์โล ทำการทดลองซ้ำจำนวน 500 ครั้ง ผลการศึกษา ปรากฏว่า การพัฒนาวิธีการประมาณค่าข้อมูลสูญหายแบบใหม่ DKNN-BH เกิดจากการปรับแก้วิธีการประมาณค่าสูญหายวิธี KNN ด้วยการใช้ค่าเฉลี่ยเดไซล์และการหาระยะทางแบบ Bhattacharyya ซึ่งเป็นการปรับแก้ขั้นตอนในการประมาณค่าสูญหายของวิธี KNN ใน 2 ขั้นตอน คือ ขั้นตอนการคำนวณระยะทาง โดยใช้การหาระยะทางแบบ Bhattacharyya และขั้นตอน การประมาณค่าข้อมูลสูญหายด้วยวิธีการใช้ค่าเฉลี่ยเดไซล์  และเมื่อพิจารณาผลการเปรียบเทียบประสิทธิภาพของการประมาณค่าข้อมูลสูญหายแบบใหม่ DKNN-BH ในการจำลองสถานการณ์ วิธี DKNN-BH ให้ผลดีกว่าการประมาณค่าข้อมูลสูญหายแบบเดิมในทุกกรณี จากการพิจารณาค่าความคลาดเคลื่อนกำลังสองเฉลี่ยที่ให้ค่าต่ำที่สุด เมื่อข้อมูลมีร้อยละการสูญหาย เท่ากับ ร้อยละ 5 10 20 30 และ 40 มีร้อยละค่านอกเกณฑ์ เท่ากับ ร้อยละ 0 5 10 และ 20 และค่า k เท่ากับ 11 13 15 17 และ 19 โดยค่า MSE จะยิ่งมีค่าลดลงเมื่อร้อยละค่านอกเกณฑ์และค่า k ลดลง

ประวัติผู้แต่ง

พัชนา สุวรรณแสน, วิทยาลัยวิทยาการวิจัยและวิทยาการปัญญา มหาวิทยาลัยบูรพา

วิทยาลัยวิทยาการวิจัยและวิทยาการปัญญา มหาวิทยาลัยบูรพา 169 ถนนลงหาดบางแสน  ตำบลแสนสุข  อำเภอเมืองชลบุรี  จังหวัดชลบุรี  20131

ภัทราวดี มากมี, วิทยาลัยวิทยาการวิจัยและวิทยาการปัญญา มหาวิทยาลัยบูรพา

วิทยาลัยวิทยาการวิจัยและวิทยาการปัญญา มหาวิทยาลัยบูรพา 169 ถนนลงหาดบางแสน  ตำบลแสนสุข  อำเภอเมืองชลบุรี  จังหวัดชลบุรี  20131

อาฟีฟี ลาเต๊ะ, คณะศึกษาศาสตร์ มหาวิทยาลัยสงขลานครินทร์

คณะศึกษาศาสตร์  มหาวิทยาลัยสงขลานครินทร์  วิทยาเขตปัตตานี 181 ถนนเจริญประดิษฐ์  ตำบลรูสะมิแล  อำเภอเมือง  จังหวัดปัตตานี  94000

เอกสารอ้างอิง

Bhattacharyya, A. 1943. On a measure of divergence between two statistical populations defined by their probability distributions. Bulletin of the Calcutta Mathematical Society 35: 99-109.

Bishop, C.M. 1995. Neural networks for pattern recognition. Oxford university press, UK.

Cartwright, M.H., Shepperd, M.J. and Song, Q. 2003. Dealing with missing software project data, pp. 154-165. In Proceedings of the 9th IEEE International Software Metrics Symposium (METRICS'03). IEEE Computer Society, Sydney.

Hengpraprohm, K. and Meesad, P. 2008. Feature selection of K-Nearest Neighbor for missing value imputation using K-Nearest Neighbor. Information Technology Journal 4(7): 55-61. (in Thai)

Kim, J.O. and Curry, J. 1977. The treatment of missing data in multivariate analysis. Sociological Methods & Research 6(2): 215-240.

Kim, K.Y., Kim, B.J. and Yi, G.S. 2004. Reuse of imputed data in microarray analysis increases imputation efficiency. BMC Bioinformatics 5(1): 160.

Ladha, L. and Deepa, T. 2011. Feature selection methods and algorithms. International journal on computer science and engineering 3(5): 1787-1797.

Liao, S.G., Lin, Y., Kang, D.D., Chandra, D., Bon, J., Kaminski, N. and Tseng, G.C. 2014. Missing value imputation in high-dimensional phenomic data: imputable or not, and how?. BMC Bioinformatics 15(1): 346.

Pasunon, P. and Nilakorn, P. 2007. Outliers detection in regression analysis by Bhattacharyya Statistics, pp. 11-18. In The Proceeding of 45th Kasetsart University Annual Conference. Kasetsart University, Bangkok. (in Thai)

Rana, S., Siraj-Ud-Doulah, M., Midi, H. and Imon, A.H.M.R. 2012. Decile mean: A new robust measure of central tendency. Chiang Mai journal of science 39(3): 478-485.

Robins, J.M. and Wang, N. 2000. Inference for imputation estimators. Biometrika 87: 113-124.

Schioler, H. and Hartmann, U. 1992. Mapping neural network derived from the Parzen window estimator. Neural Networks 5(6): 903-909.

Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., Tibshirani, R. and Altman, R.B. 2001. Missing value estimation methods for DNA microarrays. Bioinformatics 17(6): 520-525.

Vongprasert, J. 2019. Jacknife and Regression Approaches to Missing Data Imputation. Journal of Applied Statistics and Information Technology 3(1): 52-61.

ดาวน์โหลด

เผยแพร่แล้ว

2021-07-27

รูปแบบการอ้างอิง

สุวรรณแสน พ., มากมี ภ., & ลาเต๊ะ อ. (2021). การปรับแก้วิธีเคเนียร์เรสเนเบอร์โดยใช้ค่าเฉลี่ยเดไซล์ในการประมาณค่าข้อมูลสูญหาย. วารสารวิจัย มหาวิทยาลัยเทคโนโลยีราชมงคลศรีวิชัย, 13(2), 330–342. สืบค้น จาก https://li01.tci-thaijo.org/index.php/rmutsvrj/article/view/225931

ฉบับ

ประเภทบทความ

บทความวิจัย