A comparison of independent variable selection in a logistic regression model using Bayesian variable selection and stepwise regression

Main Article Content

Kannat Na Bangchang
Phattharaphon Srisod
Methapohn Sarasri
Phuripat Suksee

Abstract

Selecting appropriate independent variables yields a highly efficient model, particularly in regression analysis. This
study aims to examine the selection of independent variables in a logistic regression model using Bayesian variable selection via Gibbs sampling and stepwise regression. It compares these two selection methods under conditions of very low and very high multicollinearity among independent variables. The study is conducted through data simulation and applied to online writing behavior data for diagnosing Alzheimer’s disease. The sample sizes for the simulation were set to 25 and 100, with 100 replications for each case. The performances of Gibbs sampling and stepwise regression were compared based on evaluation criteria, including the Akaike Information Criterion (AIC), Bayesian Information Criterion (BIC), number of correctly selected independent variables, average estimated coefficients of correctly selected variables, and accuracy percentage. The results indicate that for both small (n = 25) and large (n = 100) sample sizes, when the multicollinearity among independent variables is very low, Gibbs sampling and stepwise regression show no significant difference in their efficiency in selecting independent variables. However, in cases where
multicollinearity is very high, Gibbs sampling demonstrates superior performance in selecting independent variables
compared to stepwise regression. The findings of this research can be applied to select independent variables in realworld data exhibiting multicollinearity.

Article Details

Section
Original Articles

References

ธนธัญ เกิดผล. (2559). ตัวแบบการถดถอยลอจิสติกแลสโซ่ที่อธิบายความสัมพันธ์ของการเป็นหนี้สินและตัวชี้วัดระดับความเข้มแข็งของครัวเรือน [สารนิพนธ์ปริญญามหาบัณฑิต, มหาวิทยาลัยธรรมศาสตร์].

บุญชม ศรีสะอาด. (2556). วิธีการทางสถิติสำหรับการทำวิจัย เล่ม 1 (พิมพ์ครั้งที่ 5). สุวีริยาสาส์น.

ประพันธ์ กล่อมพร. (2560). ขั้นตอนวิธีกำหนดเมทริกซ์สหสัมพันธ์เริ่มต้นโดยการจำลองสำหรับการแปลงนอร์ทา [วิทยานิพนธ์ปริญญามหาบัณฑิต, มหาวิทยาลัยธรรมศาสตร์].

พจนา แววสวัสดิ์. (2547). เกณฑ์การคัดเลือกตัวแบบสำหรับความถดถอยเชิงเส้นตรง. วารสารศรีปทุมปริทัศน์, 4(1), 5–20.

ภัคสุภางค์ มาปรีดา. (2560). ตัวแบบการถดถอยลอจิสติกในการพยากรณ์ความน่าจะเป็นของการชำระหนี้ได้ของครัวเรือน: กรณีศึกษา จังหวัดปทุมธานี [สารนิพนธ์ปริญญามหาบัณฑิต, มหาวิทยาลัยธรรมศาสตร์].

Akaike, H. (1978). A Bayesian analysis of the minimum AIC procedure. Annals of the Institute of Statistical Mathematics, 30(1), 9–14.

Arkes, J. (2023). Regression analysis: A practical introduction (2nd ed.). Routledge.

Cilia, M., De Stefano, C., Fontanella, F., & Di Freca, A. S. (2022). Diagnosing Alzheimer’s disease from on-line handwriting: A novel dataset and performance benchmarking. Engineering Applications of Artificial Intelligence, 111, Article 104822. https://doi.org/10.1016/j.engappai.2022.104822

Müller, S., Scealy, J. L., & Welsh, A. H. (2013). Model selection in linear mixed models. Statistical Science, 28(2), 135–167.

Polson, N. G., Scott, J. G., & Windle, J. (2013). Bayesian inference for logistic models using Pólya–Gamma latent variables. Journal of the American Statistical Association, 108(504), 1339–1349.

Sawa, T. (1978). Information criteria for discriminating among alternative regression models. Econometrica, 46(6), 1273–1291.

Tian, Y., Bondell, H. D., & Wilson, A. (2019). Bayesian variable selection for logistic regression. Statistical Analysis and Data Mining: The ASA Data Science Journal, 12(5), 378–393.