การเปรียบเทียบประสิทธิภาพของวิธีการวิเคราะห์การถดถอยแบบพีนอลไลซ์ในตัวแบบการถดถอยลอจิสติกภายใต้ข้อมูลที่มีมิติสูงแบบบางเบาและตัวแปรทำนายมีความสัมพันธ์กันสูง
Main Article Content
บทคัดย่อ
ปัจจุบันเทคโนโลยีได้รับการพัฒนาเป็นอย่างมาก ความเจริญก้าวหน้าทางด้านเทคโนโลยีส่งผลต่อกระบวนการทางข้อมูล ทำให้การเก็บรวบรวมข้อมูลมีประสิทธิภาพมากขึ้น ดังนั้นในการวิเคราะห์ข้อมูล นักวิเคราะห์ข้อมูลจึงได้มีการค้นหาวิธีการที่เหมาะสมเพื่อวิเคราะห์ข้อมูลขนาดใหญ่ นักวิเคราะห์นิยมใช้วิธีการวิเคราะห์การถดถอยแบบพีนอลไลซ์ในการวิเคราะห์ข้อมูลที่มีขนาดใหญ่และมีจำนวนตัวแปรเป็นจำนวนมาก ซึ่งวิธีการวิเคราะห์การถดถอยแบบพีนอลไลซ์เป็นวิธีการหนึ่งที่ใช้ประมาณค่าพารามิเตอร์สัมประสิทธิ์การถดถอย การคัดเลือกตัวแปรเข้าสู่ตัวแบบ และการแก้ไขปัญหาตัวแปรมีความสัมพันธ์เชิงเส้นกัน ในการศึกษาครั้งนี้ได้พิจารณาการประมาณค่าสำหรับตัวแบบการถดถอยลอจิสติกที่ข้อมูลมีมิติสูง (n < p) แบบบางเบาและตัวแปรทำนายมีความสัมพันธ์กันสูง โดยพิจารณาตัวประมาณจากวิธีการถดถอยแบบพีนอลไลซ์ ได้แก่ วิธีการวิเคราะห์การถดถอยแบบริดจ์ วิธีการวิเคราะห์การถดถอยแบบแลซโซ และวิธีการวิเคราะห์การถดถอยแบบแลซโซแบบปรับปรุง ซึ่งตัวประมาณทั้งสามสามารถใช้ในการประมาณค่าพารามิเตอร์สัมประสิทธิ์การถดถอยในข้อมูลที่มีมิติสูงและสามารถแก้ปัญหาตัวแปรทำนายมีความสัมพันธ์กันสูง โดยพิจารณาเปรียบเทียบด้วยค่าเฉลี่ยของค่าคลาดเคลื่อนกำลังสองเฉลี่ยของการพยากรณ์ (mPMSE) จากการจำลองข้อมูลด้วยวิธีมอนติคาร์โล ซึ่งการศึกษาข้อมูลดังกล่าวสามารถสรุปว่าตัวประมาณแลซโซแบบปรับปรุงมีประสิทธิภาพที่ดีที่สุดเมื่อเปรียบเทียบจากทั้งสามตัวประมาณ
Article Details
บทความที่ได้รับการตีพิมพ์เป็นลิขสิทธิ์ของคณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ข้อความที่ปรากฏในแต่ละเรื่องของวารสารเล่มนี้เป็นเพียงความเห็นส่วนตัวของผู้เขียน ไม่มีความเกี่ยวข้องกับคณะวิทยาศาสตร์และเทคโนโลยี หรือคณาจารย์ท่านอื่นในมหาวิทยาลัยธรรมศาสตร์ ผู้เขียนต้องยืนยันว่าความรับผิดชอบต่อทุกข้อความที่นำเสนอไว้ในบทความของตน หากมีข้อผิดพลาดหรือความไม่ถูกต้องใด ๆ
เอกสารอ้างอิง
Hoerl, A.E. and Kennard, R.W., 1970, Ridge regression: Biased estimation for non-orthogonal problems, Technometrics 12: 55-67.
Hossain, S. and Ahmed, S.E., 2012, Shrinkage and penalty estimators of a Poisson regression model, Aust. N. Z. J. Stat. 54: 359-373.
Hossain, S. and Ahmed, S., 2014, Shrinkage estimation and selection for a logistic regression model, CRM Proc. Contemp. Math. 622: 159-176.
Honboonherm, O. and Pungpapong, V., 2013, Empirical bayes variable selection and estimation for the COX's proportional hazard model with high dimensional data, The 4th Hatyai National Conference, Hatyai University, Songkhla. (in Thai)
Pungpapong, V., 2015, A brief review on high-dimensional linear regression, Thai Sci. Technol. J. 23(2): 212-223. (in Thai)
Sarakor, T. and Kulvanich, N., 2014, Comparing the prediction accuracy and subset selection performances of stepwise, Lasso, elastic net and adaptive Lasso for small and sparse signals, Rajamangala University of Technology Tawan-ok Research Conference, Rajamangala University, Nakhon Nayok. (in Thai)
Singruang, S. and Pungpapong, V., 2017, A method comparison of gene set enrichment analysis and binary logistic regression for investigating the relationship between gene sets and a binary phenotype, Thai Sci. Technol J. 25(5): 778-790. (in Thai)
Tibshirani, R., 1996, Regression shrinkage and selection via the LASSO, J. Royal Stat. Soc. Ser. B 58: 267-288.
Zou, H., 2006, The adaptive LASSO and its oracle properties, J. Am. Stat. Assoc. 101: 1418-1429.