การเปรียบเทียบประสิทธิภาพของวิธีการวิเคราะห์การถดถอยแบบพีนอลไลซ์ในตัวแบบการถดถอยลอจิสติกภายใต้ข้อมูลที่มีมิติสูงแบบบางเบาและตัวแปรทำนายมีความสัมพันธ์กันสูง

Main Article Content

สุปราณี ลิสวัสดิ์
วรางคณา วัชรเสถียร
เบญจมาศ ตุลยนิติกุล

Abstract

Nowadays, technology is widely developed. The growth in high technology affects data science processes. One effect is that more data can be collected in a shorter time than before. This can be used in analyses. Analysts need to find an appropriate method to analyze the extensive data. The analyst should use the proper methodology for data of considerable size and high dimensions. One approach is penalized regression. That is a method for estimated coefficient parameters, variable selection, and the multicollinearity problem when the predictor variables are correlated. This study considers estimations for a logistic regression model with high-dimensional sparse data (n < p) and high correlation. We apply estimators from the penalized regression method: ridge regression, LASSO, and adaptive LASSO. These can be used to estimate coefficient parameters in high-dimensional data and could solve the multicollinearity problem. We compared the performance of these estimators. The performance in terms of the mean of prediction mean square error (mPMSE) using Monte Carlo simulation. The result showed that the adaptive LASSO estimator has the lowest mPMSE. Overall, adaptive LASSO performed better than ridge regression or LASSO.

Article Details

How to Cite
ลิสวัสดิ์ ส., วัชรเสถียร ว., & ตุลยนิติกุล เ. (2021). การเปรียบเทียบประสิทธิภาพของวิธีการวิเคราะห์การถดถอยแบบพีนอลไลซ์ในตัวแบบการถดถอยลอจิสติกภายใต้ข้อมูลที่มีมิติสูงแบบบางเบาและตัวแปรทำนายมีความสัมพันธ์กันสูง. Thai Journal of Science and Technology, 9(6), 761–772. https://doi.org/10.14456/tjst.2020.79
Section
วิทยาศาสตร์กายภาพ
Author Biographies

สุปราณี ลิสวัสดิ์

สาขาวิชาคณิตศาสตร์และสถิติ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ศูนย์รังสิต ตำบลคลองหนึ่ง อำเภอคลองหลวง จังหวัดปทุมธานี 12120

วรางคณา วัชรเสถียร

สาขาวิชาคณิตศาสตร์และสถิติ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ศูนย์รังสิต ตำบลคลองหนึ่ง อำเภอคลองหลวง จังหวัดปทุมธานี 12120

เบญจมาศ ตุลยนิติกุล

สาขาวิชาคณิตศาสตร์และสถิติ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ศูนย์รังสิต ตำบลคลองหนึ่ง อำเภอคลองหลวง จังหวัดปทุมธานี 12120

References

Hardin, J., Garcia, S.R. and Golan, D., 2013, A method for generating realistic correlation matrices, Ann. Appl. Stat. 7: 1733-1762.
Hoerl, A.E. and Kennard, R.W., 1970, Ridge regression: Biased estimation for non-orthogonal problems, Technometrics 12: 55-67.
Hossain, S. and Ahmed, S.E., 2012, Shrinkage and penalty estimators of a Poisson regression model, Aust. N. Z. J. Stat. 54: 359-373.
Hossain, S. and Ahmed, S., 2014, Shrinkage estimation and selection for a logistic regression model, CRM Proc. Contemp. Math. 622: 159-176.
Honboonherm, O. and Pungpapong, V., 2013, Empirical bayes variable selection and estimation for the COX's proportional hazard model with high dimensional data, The 4th Hatyai National Conference, Hatyai University, Songkhla. (in Thai)
Pungpapong, V., 2015, A brief review on high-dimensional linear regression, Thai Sci. Technol. J. 23(2): 212-223. (in Thai)
Sarakor, T. and Kulvanich, N., 2014, Comparing the prediction accuracy and subset selection performances of stepwise, Lasso, elastic net and adaptive Lasso for small and sparse signals, Rajamangala University of Technology Tawan-ok Research Conference, Rajamangala University, Nakhon Nayok. (in Thai)
Singruang, S. and Pungpapong, V., 2017, A method comparison of gene set enrichment analysis and binary logistic regression for investigating the relationship between gene sets and a binary phenotype, Thai Sci. Technol J. 25(5): 778-790. (in Thai)
Tibshirani, R., 1996, Regression shrinkage and selection via the LASSO, J. Royal Stat. Soc. Ser. B 58: 267-288.
Zou, H., 2006, The adaptive LASSO and its oracle properties, J. Am. Stat. Assoc. 101: 1418-1429.