บทวิเคราะห์วิธีวิเคราะห์การถดถอยเชิงเส้นสำหรับข้อมูลที่มีมิติสูง
Main Article Content
Abstract
บทคัดย่อ
การวิเคราะห์การถดถอยเชิงเส้นเป็นเครื่องมือที่ไม่สลับซับซ้อน แต่มีประโยชน์อย่างมากในการวิเคราะห์ข้อมูล ดังเห็นได้จากการประยุกต์ใช้งานที่แพร่หลายในปัจจุบัน ความก้าวหน้าที่รวดเร็วทางเทคโนโลยีช่วยให้เราสามารถจัดเก็บข้อมูลขนาดใหญ่ซึ่งมีจำนวนตัวแปรมหาศาลได้อย่างมีประสิทธิภาพมากขึ้น การวิเคราะห์การถดถอยแบบดั้งเดิมมีข้อจำกัดหนึ่งที่สำคัญคือสามารถประยุกต์ใช้งานได้เฉพาะกับข้อมูลที่มีขนาดตัวอย่างมากกว่าจำนวนตัวแปรอิสระ ในกรณีที่จำนวนตัวแปรอิสระมากกว่าจำนวนตัวอย่าง เราจะเรียกข้อมูลประเภทนี้ว่าข้อมูลที่มีมิติสูง บทความนี้มีวัตถุประสงค์ที่จะนำเสนอเครื่องมือเพื่อเป็นทางเลือกในการจัดการกับข้อมูลที่มีมิติสูงซึ่งรวมถึงวิธี penalized regression และวิธีเบส์ ตลอดจนข้อควรคำนึงถึงในการเลือกใช้เครื่องมือสำหรับการวิเคราะห์การถดถอยสำหรับข้อมูลที่มีมิติสูง
คำสำคัญ : ข้อมูลที่มีมิติสูง; การวิเคราะห์การถดถอยเชิงเส้น; วิธี penalized regression; วิธีเบส์
Abstract
Linear regression is a simple yet powerful tool in data analysis as seen in many modern applications. Rapid technological advancements enable us to collect big data with massive number of variables more effectively. The traditional regression model has a major limitation in which it can only deal with datasets whose sample size is larger than number of independent variables. When number of independent variables is beyond the number of observations, such data is referred as high-dimensional data. The aim of this article is to introduce the alternative tools that can handle high-dimensional data including penalized regression and Bayesian approach. The concerns in choosing high-dimensional regression tools are also discussed here.
Keywords: high-dimensional data; linear regression analysis; penalized regression; Bayesian approach