การเปรียบเทียบวิธีการประมาณค่าสูญหายสำหรับการวิเคราะห์การถดถอยพหุเมื่อตัวแปรตามมีการสูญหายแบบสุ่ม
Main Article Content
Abstract
บทคัดย่อ
งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของวิธีการประมาณค่าสูญหายสำหรับการวิเคราะห์การถดถอยพหุเมื่อตัวแปรตามมีการสูญหายอย่างสุ่ม วิธีการประมาณค่าสูญหายที่ศึกษาในงานวิจัยนี้ประกอบด้วยวิธีการประมาณค่าสูญหายแบบเดี่ยว 4 วิธี ได้แก่ วิธี regression imputation (RI) วิธี stochastic regression imputation (SRI) วิธี K-nearest neighbor (KNN) วิธี EM algorithm (EM) และวิธีการประมาณค่าสูญหายแบบร่วม 2 วิธี ได้แก่ วิธี K-nearest regression imputation with equivalent weighted (KREW) และวิธี K-nearest stochastic regression imputation with equivalent weighted (KSEW) ซึ่งเป็นวิธีการประมาณค่าสูญหายที่ได้จากการรวมวิธีการประมาณค่าสูญหายแบบเดี่ยว 2 วิธี คือ วิธี KNN กับวิธี RI และวิธี KNN กับวิธี SRI ตามลำดับ โดยใช้กับฟังก์ชันการถ่วงน้ำหนักด้วยวิธีการให้น้ำหนักเท่ากัน (EW) จำลองข้อมูลด้วยวิธีมอนติคาร์โล โดยกำหนดขนาดตัวอย่างเท่ากับ 20, 30, 50 และ 100 ส่วนเบี่ยงเบนมาตรฐานของความคลาดเคลื่อนเท่ากับ 5, 10 และ 15 การสูญหาย 4 ระดับ คือ 10, 20, 30 และ 40 % เกณฑ์ที่ใช้ในการเปรียบเทียบประสิทธิภาพ คือ ค่าความคลาดเคลื่อนกำลังสองเฉลี่ย ผลการวิจัยพบว่าวิธี KSEW มีประสิทธิภาพดีที่สุด เมื่อขนาดตัวอย่าง 20 และ 30 วิธี SRI มีประสิทธิภาพดีที่สุด เมื่อขนาดตัวอย่าง 50 และ 100 และทุกวิธีการจะมีประสิทธิภาพลดลงเมื่อเปอร์เซ็นต์การสูญหายและค่าส่วนเบี่ยงเบนมาตรฐานของความคลาดเคลื่อนเพิ่มขึ้น
คำสำคัญ : ข้อมูลสูญหาย; การวิเคราะห์การถดถอยพหุ; วิธีการประมาณค่าสูญหาย; การประมาณค่าสูญหายแบบเดี่ยว; การประมาณค่าสูญหายแบบร่วม
Abstract
The objective of this research is to compare the efficiency of missing data estimation methods for the multiple regression analysis with missing at random dependent variable. The missing data estimation methods considered in research are four single imputation methods–พregression imputation (RI), stochastic regression imputation (SRI), K-nearest neighbor (KNN), EM algorithm–and two composite imputation methods (KREW and KSEW). The KREW method is derived from a combination of K-nearest neighbor and regression imputation. The KSEW method is derived from a combination of K-nearest neighbor and stochastic regression imputation. The composite imputation methods were weighted by equivalent weighted method. For this study, the Monte Carlo simulation was done under the condition of sample sizes 20, 30, 50 and 100; the standard deviations of errors 5, 10 and 15; the missing percentage 10, 20, 30 and 40 %. The criterion of comparison the efficiency is the mean square error (MSE). The results show that the KSEW method performs best when the sample sizes 20 and 30. The SRI method performs best when the sample sizes 50 and 100. All estimation methods are less effective when the missing percentage and the standard deviation of errors increase.
Keywords: missing data; multiple regression analysis; missing data estimation; single imputation; composite imputation