การเปรียบเทียบวิธีการของการวิเคราะห์ความสำคัญของกลุ่มยีนและการถดถอยลอจิสติกทวิภาคสำหรับการตรวจสอบความสัมพันธ์ระหว่างกลุ่มยีนและฟีโนไทป์ทวิภาค

Main Article Content

สุธิภาส สิงห์เรือง
วิฐรา พึ่งพาพงศ์

Abstract

บทคัดย่อ

งานวิจัยฉบับนี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบวิธีการวิเคราะห์ความสำคัญของกลุ่มยีนและการถดถอยลอจิสติกทวิภาค ในการหาค่าพี (p-value) ของแต่ละกลุ่มยีน โดยคำนึงถึงความสัมพันธ์และการทำงานร่วมกันเป็นกลุ่มของยีน โดยการศึกษานี้จะเปรียบเทียบประสิทธิภาพ จากการวิเคราะห์ข้อมูลจำลองทั้งในกรณีที่ข้อมูลมีขนาดตัวอย่างมากกว่าจำนวนของยีนหรือตัวแปรอิสระ และกรณีที่ข้อมูลมีขนาดตัวอย่างน้อยกว่าจำนวนของตัวแปรอิสระ หรือที่เรียกว่าข้อมูลที่มีมิติสูง ในขอบเขตการศึกษาต่าง ๆ กัน ในงานวิจัยนี้จะเปรียบเทียบค่าอัตราความผิดพลาดรวม และกำลังการทดสอบเพื่อวัดประสิทธิภาพจากวิธีทั้งสอง จากการศึกษาภายใต้ขอบเขตดังกล่าวผลปรากฏว่าวิธีการถดถอยลอจิสติกทวิภาค มีกำลังการทดสอบ (เฉลี่ย) สูงในกรณีขนาดตัวอย่างมากกว่าจำนวนของตัวแปรอิสระ ในขณะที่วิธีการวิเคราะห์ความสำคัญของกลุ่มยีนมีกำลังการทดสอบ (เฉลี่ย) สูงในกรณีขนาดตัวอย่างน้อยกว่าจำนวนของตัวแปรอิสระ แต่เมื่อพิจารณาถึงการวัดประสิทธิภาพจากค่าอัตราความผิดพลาดรวม พบว่าวิธีการวิเคราะห์ความสำคัญของกลุ่มยีนมีค่าต่ำสำหรับกรณีขนาดตัวอย่างมากกว่าจำนวนของตัวแปรอิสระ ในขณะที่วิธีการถดถอยลอจิสติกทวิภาคมีค่าต่ำสำหรับกรณีขนาดตัวอย่างน้อยกว่าจำนวนของตัวแปรอิสระ 

คำสำคัญ : การวิเคราะห์ความสำคัญของกลุ่มยีน; การถดถอยลอจิสติกทวิภาค; วิธีแลสโซ่; อัตราความผิดพลาดรวม; กำลังการทดสอบ

 

Abstract

This research is aimed to study and compare gene set enrichment analysis method and binary logistic regression in finding p-values of each gene set. Here we consider the relationship and collaboration among genes in each gene set. In this study, the performance of two methods  are compared using simulated data in two cases: (i) sample size is larger than the number of genes or independent variables (ii) sample size is smaller than the number of independent variables which is called high-dimensional data. The performance of two methods are compared in terms of the family wise error rate and the power of a test. Results from simulation suggest that the binary logistic regression has larger average power of a test than the gene set enrichment analysis when sample size is larger than the number of independent variables while the gene set enrichment analysis has larger average power of a test when the data is high-dimensional. However, in terms of family-wise error rate, the gene set enrichment analysis is better than the binary logistic regression in case of low-dimensional data while the binary logistic regression is superior in case of high-dimensional data. 

Keywords: GSEA; binary logistic regression; LASSO; FWER; power of a test

Article Details

Section
Physical Sciences