การเปรียบเทียบประสิทธิภาพของวิธีการวิเคราะห์การถดถอยแบบพีนอลไลซ์ในตัวแบบการถดถอยลอจิสติกภายใต้ข้อมูลที่มีมิติสูงแบบบางเบาและตัวแปรทำนายมีความสัมพันธ์กันสูง
Main Article Content
Abstract
Nowadays, technology is widely developed. The growth in high technology affects data science processes. One effect is that more data can be collected in a shorter time than before. This can be used in analyses. Analysts need to find an appropriate method to analyze the extensive data. The analyst should use the proper methodology for data of considerable size and high dimensions. One approach is penalized regression. That is a method for estimated coefficient parameters, variable selection, and the multicollinearity problem when the predictor variables are correlated. This study considers estimations for a logistic regression model with high-dimensional sparse data (n < p) and high correlation. We apply estimators from the penalized regression method: ridge regression, LASSO, and adaptive LASSO. These can be used to estimate coefficient parameters in high-dimensional data and could solve the multicollinearity problem. We compared the performance of these estimators. The performance in terms of the mean of prediction mean square error (mPMSE) using Monte Carlo simulation. The result showed that the adaptive LASSO estimator has the lowest mPMSE. Overall, adaptive LASSO performed better than ridge regression or LASSO.
Article Details
บทความที่ได้รับการตีพิมพ์เป็นลิขสิทธิ์ของคณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ข้อความที่ปรากฏในแต่ละเรื่องของวารสารเล่มนี้เป็นเพียงความเห็นส่วนตัวของผู้เขียน ไม่มีความเกี่ยวข้องกับคณะวิทยาศาสตร์และเทคโนโลยี หรือคณาจารย์ท่านอื่นในมหาวิทยาลัยธรรมศาสตร์ ผู้เขียนต้องยืนยันว่าความรับผิดชอบต่อทุกข้อความที่นำเสนอไว้ในบทความของตน หากมีข้อผิดพลาดหรือความไม่ถูกต้องใด ๆ
References
Hoerl, A.E. and Kennard, R.W., 1970, Ridge regression: Biased estimation for non-orthogonal problems, Technometrics 12: 55-67.
Hossain, S. and Ahmed, S.E., 2012, Shrinkage and penalty estimators of a Poisson regression model, Aust. N. Z. J. Stat. 54: 359-373.
Hossain, S. and Ahmed, S., 2014, Shrinkage estimation and selection for a logistic regression model, CRM Proc. Contemp. Math. 622: 159-176.
Honboonherm, O. and Pungpapong, V., 2013, Empirical bayes variable selection and estimation for the COX's proportional hazard model with high dimensional data, The 4th Hatyai National Conference, Hatyai University, Songkhla. (in Thai)
Pungpapong, V., 2015, A brief review on high-dimensional linear regression, Thai Sci. Technol. J. 23(2): 212-223. (in Thai)
Sarakor, T. and Kulvanich, N., 2014, Comparing the prediction accuracy and subset selection performances of stepwise, Lasso, elastic net and adaptive Lasso for small and sparse signals, Rajamangala University of Technology Tawan-ok Research Conference, Rajamangala University, Nakhon Nayok. (in Thai)
Singruang, S. and Pungpapong, V., 2017, A method comparison of gene set enrichment analysis and binary logistic regression for investigating the relationship between gene sets and a binary phenotype, Thai Sci. Technol J. 25(5): 778-790. (in Thai)
Tibshirani, R., 1996, Regression shrinkage and selection via the LASSO, J. Royal Stat. Soc. Ser. B 58: 267-288.
Zou, H., 2006, The adaptive LASSO and its oracle properties, J. Am. Stat. Assoc. 101: 1418-1429.