การเปรียบเทียบวิธีบูตแสตรปในการประมาณช่วงความเชื่อมั่นของค่าสัมประสิทธิ์การถดถอยเชิงเส้นที่มีมิติสูงด้วยวิธีลาสโซ่แบบปรับปรุงและพาร์เชียลริดจ์
Main Article Content
บทคัดย่อ
งานวิจัยนี้มีวัตถุประสงค์เพื่อเสนอวิธีบูตสแทร็ปลาสโซ่แบบปรับปรุง + พาร์เชียลริดจ์ในการสร้างช่วงความเชื่อมั่นของสัมประสิทธิ์การถดถอยสำหรับข้อมูลที่มีมิติสูงและเปรียบเทียบประสิทธิภาพกับวิธีบูตสแทร็ปลาสโซ่ + พาร์เชียลริดจ์ วิธีบูตสแทร็ปลาสโซ่แบบปรับปรุง + พาร์เชียลริดจ์เป็นตัวประมาณแบบ 2 ขั้นตอน คือ ใช้วิธีลาสโซ่แบบปรับปรุงในการคัดเลือกตัวแปรอิสระจากนั้นใช้วิธีพาร์เชียลริดจ์ในการประมาณค่าสัมประสิทธิ์การถดถอยอีกครั้ง การศึกษานี้ได้ทดลองบูตสแทร็ป 2 วิธีได้แก่ วิธีสุ่มส่วนเหลือและวิธีสุ่มตัวแปรตามพร้อมกับตัวแปรอิสระ อีกทั้งยังศึกษาสัมประสิทธิ์การถดถอยใน 2 ลักษณะได้แก่บางเบาอย่างอ่อนและบางเบาอย่างรุนแรง โดยลักษณะบางเบาอย่างอ่อนและบางเบาอย่างรุนแรง หมายถึง กรณีที่สัมประสิทธิ์การถดถอยส่วนใหญ่มีค่าใกล้เคียงศูนย์และเท่ากับศูนย์ ตามลำดับ การวิจัยครั้งนี้ใช้ข้อมูลจำลองที่มีมิติสูง ซึ่งตัวแปรอิสระสร้างจากการแจกแจงแบบปกติหลายตัวแปรโดยใช้เมทริกซ์ความแปรปรวนร่วมที่แตกต่างกัน ทั้งหมด 8 กรณี เกณฑ์ที่ใช้วัดประสิทธิภาพที่ใช้ คือ ค่าเฉลี่ยความกว้างของช่วงความเชื่อมั่นและความน่าจะเป็นคุ้มรวม ผลการศึกษาจากข้อมูลจำลอง พบว่าวิธีบูตสแทร็ปแบบสุ่มส่วนเหลือลาสโซ่แบบปรับปรุง + พาร์เชียลริดจ์ให้ค่าเฉลี่ยความกว้างของช่วงความเชื่อมั่นต่ำที่สุดในเกือบทุกกรณี อย่างไรก็ตาม เมื่อพิจารณาความน่าจะเป็นคุ้มรวม พบว่าไม่ปรากฏวิธีการบูตสแทร็ปแบบใดแบบหนึ่งที่มีประสิทธิภาพสูงสุดสำหรับทุกกรณี อนึ่ง เมื่อนำวิธีบูตสแทร็ปแบบต่างๆไปปรับใช้กับข้อมูลจริง กล่าวคือ ข้อมูลไมโครอาร์เรย์ในโรคมะเร็งลำไส้ใหญ่ พบว่าวิธีบูตสแทร็ปแบบสุ่มส่วนเหลือลาสโซ่แบบปรับปรุง + พาร์เชียลริดจ์ยังคงให้ค่าเฉลี่ยความกว้างของช่วงความเชื่อมั่นต่ำที่สุด และวิธีบูตสแทร็ปแบบสุ่มตัวแปรตามพร้อมกับตัวแปรอิสระลาสโซ่แบบปรับปรุง + พาร์เชียลริดจ์ให้ความน่าจะเป็นคุ้มรวมสูงสุด
Article Details

อนุญาตภายใต้เงื่อนไข Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
บทความที่ได้รับการตีพิมพ์เป็นลิขสิทธิ์ของคณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ข้อความที่ปรากฏในแต่ละเรื่องของวารสารเล่มนี้เป็นเพียงความเห็นส่วนตัวของผู้เขียน ไม่มีความเกี่ยวข้องกับคณะวิทยาศาสตร์และเทคโนโลยี หรือคณาจารย์ท่านอื่นในมหาวิทยาลัยธรรมศาสตร์ ผู้เขียนต้องยืนยันว่าความรับผิดชอบต่อทุกข้อความที่นำเสนอไว้ในบทความของตน หากมีข้อผิดพลาดหรือความไม่ถูกต้องใด ๆ
เอกสารอ้างอิง
Alon, U., Barkai, N., Notterman, D. A., Gish, K., Ybarra, S., Mack, D., & Levine, A. J. (1999). Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays. Proceedings of the National Academy of Sciences of the United States of America, 96(12), 6745–6750.
Chatterjee, A., & Lahiri, S. N. (2011). Bootstrapping lasso estimators. Journal of the American Statistical Association, 106, 608–625.
Hoerl, A. E., & Kennard, R. W. (1970). Ridge regression: Biased estimation for nonorthogonal problems. Journal of the American Statistical Association, 65, 55–67.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning: With applications in R (2nd ed.). Springer.
Knight, K., & Fu, W. J. (2000). Asymptotics for lasso-type estimators. The Annals of Statistics, 28, 1356–1378.
Liu, H., & Yu, B. (2013). Asymptotic properties of lasso + mLS and lasso + Ridge in sparse high-dimensional linear regression. Electronic Journal of Statistics, 7, 3124–3169.
Liu, H., Xu, X., & Li, J. J. (2020). A bootstrap lasso + partial ridge method to construct confidence intervals for parameters in high-dimensional sparse linear models. Statistica Sinica, 30(3), 1333–1355.
Pungpapong, V. (2015). A brief review on high-dimensional linear regression. Thai Science and Technology Journal, 23(2), 212-223. (in Thai)
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58, 267–288.
Tibshirani, R. J. (2013). The lasso problem and uniqueness. Electronic Journal of Statistics, 7, 1456–1490.
Wasserman, L., & Roeder, K. (2009). Weak signal identification and inference in penalized model selection. The Annals of Statistics, 45, 1214–1253.
Zou, H. (2006). The adaptive lasso and its oracle properties. Journal of the American Statistical Association, 101, 1418–1429.