อัตราส่วนที่เหมาะสมของการเกิดเหตุการณ์ที่สนใจต่อตัวแปรสำหรับการวิเคราะห์การถดถอยลอจิสติกทวิภาคในกรณีที่มีความคลาดเคลื่อนในตัวแปรอธิบาย

Main Article Content

ศิวพร ภูกองทอง
แสงหล้า ชัยมงคล

Abstract

บทคัดย่อ

งานวิจัยนี้ผู้วิจัยศึกษาอัตราส่วนที่เหมาะสมของการเกิดเหตุการณ์ที่สนใจต่อตัวแปรอธิบาย (events per variable หรือ EPV) สำหรับการวิเคราะห์การถดถอยลอจิสติกทวิภาค เมื่อมีความผิดพลาดจากการวัดหรือการจำแนกผิดในตัวแปรอธิบาย โดยใช้วิธีการสุ่มตัวอย่างข้อมูลของการคุมกำเนิดของหญิงไทยที่สมรสอายุ 15-59 ปี จำนวน 25,812 คนที่ได้จากการสำรวจภาวะเจริญพันธุ์ พ.ศ. 2552 โดยสำนักงานสถิติแห่งชาติ ที่มีตัวแปรที่สนใจคือ การคุมกำเนิดของหญิงไทย (Y) ที่คุมกำเนิดคิดเป็นร้อยละ 72.8 โดยมีตัวแปรอธิบาย (X) 4 ตัว ได้แก่อายุของหญิงไทยที่สมรส จำนวนบุตรเกิดรอดที่มีชีวิต ศาสนา และความต้องการในการมีบุตรเพิ่ม ข้อมูลชุดนี้มี EPV เท่ากับ (18,795/4) เท่ากับ 4,698.75 ในการศึกษาครั้งนี้กำหนด EPV 4 ระดับ คือ 10, 15, 20 และ 25 ขนาดตัวอย่างเท่ากับ 1,000 อัตราจำแนกผิดในตัวแปรอธิบายเชิงกลุ่มแบบทวิภาค 3 ระดับ คือ 2, 5 และ 10 % ของขนาดตัวอย่างที่กำหนด และเทอมของความผิดพลาดที่เกิดจากการวัดในตัวแปรอธิบายแบบต่อเนื่องและไม่ต่อเนื่อง (e) ใช้การจำลองข้อมูลโดยกำหนดให้ e และกำหนด  เป็น 3 ระดับ คือ 1, 5 และ 10  การจำลองและการวิเคราะห์ใช้โปรแกรม R เวอร์ชัน 3.0.2 ทำซ้ำจำนวน 5,000 รอบ ในแต่ละสถานการณ์ และมีเกณฑ์ที่ใช้พิจารณาในการเลือก EPV ที่เหมาะสม ได้แก่ ค่าเอนเอียงสัมพัทธ์และอำนาจการทดสอบ โดยการเปรียบเทียบค่าที่ได้จากตัวแบบที่มีความผิดพลาดในตัวแปรอธิบายกับตัวแบบที่ไม่มีความผิดพลาดในตัวแปรอธิบาย ผลการศึกษาสรุปได้ดังนี้ ในกรณีที่มีความผิดพลาดจากการวัดหรือการจำแนกผิดในตัวแปรอธิบายเพียง 1 ตัวของตัวแบบการถดถอยลอจิสติกทวิภาค ค่า EPV ที่เหมาะสมไม่ควรต่ำกว่า 15 ซึ่งสูงกว่ากฎ rule of thumb ของค่า EPV ที่กำหนดให้ไม่ต่ำกว่า 10 นอกจากนี้ยังพบว่าประเภทและลักษณะของตัวแปรอธิบายที่มีความผิดพลาด และขนาดของความผิดพลาดที่เพิ่มขึ้นมีผลต่อค่า EPV ให้มีแนวโน้มมากขึ้น 

คำสำคัญ : ตัวแบบเชิงเส้นนัยทั่วไป; ความผิดพลาดจากการวัด; การจำแนกผิด

 

Abstract

The objective of this research is to evaluate the optimality of the number of events per variable (EPV) for binary logistic regression when covariate is misclassified or measured with error. The simulation based on data from the 2009 Reproductive Health Survey by National Statistical Office, Thailand. The variable of interest is the contraception in married Thai women aged between 15 and 59 and there are 4 covariates. The number of events per explanatory variable was (18,795/4) 4,698.75 for the full data. We considered values of EPV = 10, 15, 20 and 25; sample sizes of 1,000; misclassification rates of 2, 5 and 10 % of sample sizes; and measurement error term is ,  = 1, 5 and 10. The 5,000 data sets were simulated and then analyzed in R program, version 3.0.2. Results of the model with covariate misclassification or measurement error were compared for relative bias and power of the test against the results of model without covariate misclassification or measurement error. We found that the optimal of EPV values should no less than 15 when covariate is misclassified or measured with error. Moreover, type of covariate misclassification or measurement error and size of error influence on EPV. 

Keywords: generalized linear model; measurement error; misclassification error

Article Details

Section
Physical Sciences