การเปรียบเทียบความแกร่งของสัมประสิทธิ์สหสัมพันธ์ลำดับที่เมื่อข้อมูลมีค่าผิดปกติ

Main Article Content

ประชาชาติ อารีชาติ
ชนิกานต์ ตั้งตระกูล
จุฑาภรณ์ สินสมบูรณ์ทอง

Abstract

บทคัดย่อ

งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบความแกร่งของสัมประสิทธิ์สหสัมพันธ์ลำดับที่เมื่อข้อมูลมีค่าผิดปกติ 4 วิธี คือ สัมประสิทธิ์สหสัมพันธ์สเปียร์แมน สัมประสิทธิ์สหสัมพันธ์เคนดอลล์เทา และสัมประสิทธิ์สหสัมพันธ์โฮฟดิ้ง สัมประสิทธิ์สหสัมพันธ์เบรสท์ ซึ่งเกณฑ์ในการเปรียบเทียบความแกร่ง คือ ค่าความเอนเอียงสัมบูรณ์ และค่าความคลาดเคลื่อนกำลังสองเฉลี่ย โดยจำลองข้อมูลที่มีการแจกแจงปรกติมาตรฐานสองตัวแปร กำหนดระดับความสัมพันธ์ระหว่างสองตัวแปร 6 ระดับ คือ 0, 0.2, 0.4, 0.6, 0.8 และ 1.0 ขนาดตัวอย่าง (n) เท่ากับ 10, 20, 50, 100 และ 200 ร้อยละของค่าผิดปกติจากกลุ่มในตัวแปรเพียงตัวเดียวเท่ากับ 0, 10, 20 และ 30 ของขนาดตัวอย่าง รวมสถานการณ์ที่ศึกษาทั้งหมด 120 สถานการณ์ และมีการทำซ้ำ 1,000 ครั้ง ในแต่ละสถานการณ์ ผลการวิจัยพบว่าเมื่อมีค่าผิดปกติในข้อมูลและตัวแปรทั้งสองไม่มีความสัมพันธ์กัน ส่วนใหญ่สัมประสิทธิ์สหสัมพันธ์โฮฟดิ้งมีความแกร่งสูงสุดเกือบทุกขนาดตัวอย่าง แต่เมื่อตัวแปรทั้งสองมีความสัมพันธ์กันในระดับสูง สัมประสิทธิ์สหสัมพันธ์เคนดอลล์เทามีแนวโน้มให้ค่า MSE ต่ำที่สุดในทุกขนาดตัวอย่าง และค่า ABS ของสัมประสิทธิ์สหสัมพันธ์สเปียร์แมนและสัมประสิทธิ์สหสัมพันธ์เบรสท์ส่วนใหญ่จะให้ค่าต่ำที่สุดในกรณีที่ตัวแปรทั้งสองมีความสัมพันธ์กันในระดับสูงเช่นกัน นอกจากนี้หากตัวแปรทั้งสองมีความสัมพันธ์กันในระดับ 0.6 ถึง 0.8 สัมประสิทธิ์สหสัมพันธ์สเปียร์แมนจะให้ค่า MSE ต่ำที่สุดในทุกขนาดตัวอย่าง 

คำสำคัญ : สัมประสิทธิ์สหสัมพันธ์; ค่าผิดปกติ; ความแกร่ง; ค่าความเอนเอียงสัมบูรณ์; ค่าความคลาดเคลื่อนกำลังสองเฉลี่ย

 

Abstract

The objective of this research is to compare the robustness of four rank correlation coefficients–Spearman, Kendall Tau, Blest and Hoeffding correlation coefficients–for data containing outliers. The criteria for this comparison are the absolute bias and mean square error.  The simulations data in the form of standard bivariate normal distribution are generated with six levels of the correlation between two variables are set at 0, 0.2, 0.4, 0.6, 0.8 and 1.0. In addition, the sample sizes (n) used in this study are determined at 10, 20, 50, 100 and 200, and the percentages of mild outliers for one variable are set at 0, 10, 20 and 30 of the sample size. The totals of 120 situations are studied. The experiment is repeated 1,000 times for each situation. The conclusions of this research are as follows: when the data are contaminated with outliers and two variables are not correlated, the most robust correlation coefficient for almost all sample sizes is Hoeffding correlation coefficient. However, when two variables are highly correlated, the MSE of Kendall tau correlation coefficient and the ABSs of Spearman and Blest correlation coefficients tend to have a smallest value for all sample sizes. Furthermore, the MSE of Spearman correlation coefficient tends to have a smallest value when the correlation of two variables is between 0.6 and 0.8 for all sample sizes. 

Keywords: correlation coefficient; outliers; robustness; absolute bias; mean square error

Article Details

Section
Physical Sciences