การเปรียบเทียบวิธีการประมาณค่าพารามิเตอร์ของการวิเคราะห์การถดถอยที่ปรับด้วยฟังก์ชันการลงโทษภายใต้ข้อมูลที่มีมิติสูง
Main Article Content
บทคัดย่อ
งานวิจัยครั้งนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพวิธีการประมาณค่าพารามิเตอร์ของสัมประสิทธิ์การถดถอยที่ปรับด้วยฟังก์ชันลงโทษ 5 วิธี ได้แก่ การถดถอยริดจ์ การถดถอยลาสโซ่ การถดถอยอิลาสติคเน็ต การถดถอยลาสโซ่แบบปรับปรุง และการถดถอยอิลาสติคเน็ตแบบปรับปรุงของตัวแบบการถดถอยเชิงเส้นพหุคูณ ซึ่งตัวแบบนี้ประกอบไปด้วยตัวแปรตามและตัวแปรอิสระ กรณีที่จำนวนตัวแปรอิสระมีจำนวนมากกว่าขนาดตัวอย่างหรือที่เรียกว่าข้อมูลที่มีมิติสูง การเปรียบเทียบประสิทธิภาพทั้ง 5 วิธี ใช้เกณฑ์ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองเฉลี่ย ข้อมูลที่ใช้ในการศึกษาครั้งนี้เป็นการจำลองข้อมูล โดยกำหนดขนาดตัวอย่างเล็ก ( = 5, 10 และ 15) จำนวนตัวแปรอิสระ 16 ตัวแปร ขนาดตัวอย่างปานกลาง ( = 20, 30 และ 40) จำนวนตัวแปรอิสระ 50 ตัวแปร และขนาดตัวอย่างใหญ่ ( = 60, 70 และ 80) จำนวนตัวแปรอิสระ 100 ตัวแปร โดยตัวแปรอิสระสร้างมาจากการแจกแจกปรกติ และค่าความคลาดเคลื่อนของตัวแบบการถดถอยเชิงเส้นพหุคูณสร้างมาจากการแจกแจงปรกติ การแจกแจงปรกติปลอมปน และการแจกแจงไวบูล โดยข้อมูลจากการจำลองใช้เทคนิคมอนติคาร์โล ซึ่งแต่ละกรณีจะทำซ้ำ 1,000 ครั้ง ผลการวิจัยพบว่าวิธีการถดถอยอิลาสติคเน็ตแบบปรับปรุงให้ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองเฉลี่ยที่ต่ำที่สุดในทุกกรณี นอกจากนี้ผู้วิจัยยังนำทั้ง 5 วิธี มาประยุกต์ใช้กับข้อมูลจริงที่ขนาดตัวอย่างเล็ก จำนวนตัวแปรอิสระ 16 ตัวแปร ซึ่งวิธีการถดถอยอิลาสติคเน็ตแบบปรับปรุงเป็นวิธีการที่ดีกว่าวิธีอื่น ๆ เช่นเดียวกับข้อมูลจำลอง
Article Details
References
Hoerl, A.E. and Kennard, R.W., 1970, Ridge regression: Biased estimation for nonorthogonal problems, J. Am. Stat. Assoc. 12: 55-67.
Tibshirani, R., 1996, Regression shrinkage and selection via the lasso, J. Royal Stat. Soc. B. 58: 267-288.
Zou, H. and Hastie, T., 2005, Regularization and variable selection via the elastic net, J. Royal Stat. Soc. B 67: 301-320.
Zou, H., 2006, The adaptive lasso and its oracle properties, J. Am. Stat. Assoc. 101: 1418-1429.
Zou, H. and Zhang, T., 2009, On the adaptive elastic net with a diverging number of parameters, Ann. Stat. 37: 1733-1751.
Phakdee, N., 2009, Comparisons of Estimation of Multiple Regression Coefficients with Existent Multicollinearity among Independent Variables by Ridge Regression Method, Master Thesis, King Mongkut’s Institute of Technology Ladkrabang, Bangkok, 88 p. (in Thai)
Choosawat, C. and Lisawadi, S., 2018, Performance comparison of ridge regression, LASSO and adaptive LASSO in poisson regression under high-dimensional sparse data with multicollinearity, pp. 305-314, 19th National Graduate Research Conference, Khon Kaen University, Khon Kaen. (in Thai)
Algamal, Z.Y. and Lee, M.H., 2015, Regu larized logistic regression with adjusted adaptive elastic net for gene selection in high dimensional cancer classification, Comput. Biol. Med. 67: 136-145.
Sinsomboonthong, S., 2017, Regression Analysis, Jamjuree Product, Bangkok, 494 p. (in Thai)
Boonstra, P.S., Mukherjee, B. and Taylar, J.M., 2015, A small-sample choice of the tuning parameter in ridge regression, Stat. Sin. 25: 1185-1206.
Efron, B., Hastie, T., Johnstone, I. and Tibshirani, R., 2004, Least angle regression, Ann. Stat. 32: 407-499.
Hastie, T., Tibshirani, R. and Friedman, J., 2009, The Elements of Statistical Learning: Data Mining Inference and Prediction, 2nd Ed., Springer, California, 527 p.
Zou, H., Hastie, T. and Tibshirani, R., 2007, On the degrees of freedom of lasso, Ann. Stat. 35: 2173-2192.
Phuenaree, B., 2007, An Estimation of Variance Components for Randomized Complete Block design by Bootstrap Method, Master Thesis, Chulalongkorn University, Bangkok, 249 p. (in Thai)
Rafiei, M.H. and Adeli, H., Residential Building Data Set, Available Source: https://archive.ics.uci.edu/ml/datasets/Residential+Building+Data+Set#, February 19, 2018.
Thongteeraparp, W., 1994, Development of a Statistical Package for Ridge Regression Analysis, Master Thesis, Kasetsart University, Bangkok, 171 p. (in Thai)