การเปรียบเทียบประสิทธิภาพการแทนค่าข้อมูลสูญหายกับการจำแนกกลุ่ม 4 วิธี

Main Article Content

สายชล สินสมบูรณ์ทอง

Abstract

We compared the missing value replacement efficiency of five methods, i.e. series mean, mean of nearby points, median of nearby points, linear interpolation, and linear trend at point using four classification methods, including decision tree, artificial neural network, naive Bayes and binary logistic regression. Metrics were accuracy, mean square error and mean absolute error. The data sets were heart disease, students’ performance in exams and black Friday. Each of these data sets was divided into three proportions in the ratio of 70 : 20 : 10. By using the data part 1, training data are used to create a model 70 percentages. For the data part 2, validation data are used to evaluate an error as a model 20 percentages, and the data part 3, testing data are used to test a model 10 percentages using the random seeds of 10, 20, 30, 40 and 50 by WEKA program. When we compared the heart disease data set, the best classification method was the decision tree in missing value replacement with mean of nearby points. For the students’ performance in exams data sets, the best classification method was the binary logistic regression in missing value replacement with linear interpolation. For the black Friday data sets, the best method was the naive Bayes in missing value replacement with median of nearby points.

Downloads

Download data is not yet available.

Article Details

Section
วิทยาศาสตร์กายภาพ
Author Biography

สายชล สินสมบูรณ์ทอง

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

References

กัลยา วานิชย์บัญชา, 2552, การวิเคราะห์ข้อมูลหลายตัวแปร, บริษัท ธรรมสาร จำกัด, กรุงเทพฯ.
จิตกานต์ จันทราช, มนทิราลัย ชัยมงคล, รัตนชัย แซ่โง้ว, สายทิพย์ พลอยสัมฤทธิ์ และสายชล สินสมบูรณ์ทอง, 2563, การเปรียบเทียบประสิทธิภาพการทำนายผลการจำแนกกรณีข้อมูลสูญหายด้วยเทคนิคการทำเหมืองข้อมูล, Thai J. Sci. Technol. 9(1): 1-15.
ฐณัฐ วงศ์สายเชื้อ, 2559, Replace Missing Value – การแทนค่าสูญหายในโปรแกรม SPSS, แหล่งที่มา : https://www.youtube.com/watch?v=WzaeJ_HAqtk, 15 ธันวาคม 2561.
ธนาวุฒิ ประกอบผล, 2552, โครงข่ายประสาทเทียม, ว.มฉก.วิชาการ 12(24): 73-87.
พนิดา สมบัติมาก, ภัสสร จันทร์หอม, ศุภกร รัศมี และโอฬาร รุ่งมณีธรรมคุณ, 2560, การเปรียบเทียบประสิทธิภาพในการจำแนกกลุ่มเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล, ปัญหาพิเศษปริญญาตรี, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง, กรุงเทพฯ.
วราฤทธิ์ พานิชกิจโกศลกุล, 2552, การจำลองแบบมอนติคาร์โลสำหรับประมาณค่าความแปรปรวนของการแจกแจงอินเวอร์เกาส์เซีอนเมื่อข้อมูลมีค่าสูญหาย, ว.การวิจัยกาสะลองคำ 3(1): 14-23.
วุฒิ สุขเจริญ, 2558, การดำเนินการกับข้อมูลขาดหาย, ว.ร่มพฤกษ์ มหาวิทยาลัยเกริก 33(2): 11-32.
สายชล สินสมบูรณ์ทอง, 2560, การทำเหมืองข้อมูล เล่ม 1 : การค้นหาความรู้จากข้อมูล, พิมพ์ครั้งที่ 2, จามจุรีโปรดักส์ จำกัด, กรุงเทพฯ.
สายชล สินสมบูรณ์ทอง, 2560, สถิติเบื้องต้น, พิมพ์ครั้งที่ 11, จามจุรีโปรดักส์ จำกัด, กรุงเทพฯ.
สุรวัชร ศรีเปารยะ และสายชล สินสมบูรณ์ทอง, 2560, การเปรียบเทียบประสิทธิภาพวิธีการจำแนกกลุ่มการเป็นโรคไตเรื้อรัง : กรณีศึกษาโรงพยาบาลแห่งหนึ่งในประเทศอินเดีย, ว.วิทยาศาสตร์และเทคโนโลยี 25(5): 839-853.
Berson, A. and Smith, S.J., 1997, Data Warehousing: Data Mining and OLAP, McGraw-Hll, Inc., New York.
Hagan, M., Demuth, H. and Beale, M., 1996, Neural Network Design, Martin T. Hagan, Oklahoma.
Kaiser, J., 2014, Dealing with missing values in data, J. Syst. Integrat. 5: 42-51.
Kijsirikul, B., 2004, Data Mining Algorithms, The Final Report on the Joint Government and Private Sectors, Chulalongkorn University, Bangkok.
Mahmoud, M.M., 2010, Evaluation of Accuracy of the Estimation Methods for Replacing Missing Values for Time Series Variables Using the Statistical Packages Software SPSS and MINITAB, Department of Statistics and Mathematics, Faculty of Commerce., Tanta University, Al Gharbiyah.
Mitchell, T.M., 1997, Machine Learning, McGraw-Hill, Inc., New York.
Portuguese Banking Institution, 2012, Black Friday, Available Source: https://www.kaggle.com/mehdidag/black-friday?fbclid=lwAR0GIK0EJwAyDzb0iD06X7U7Ev-65nfgM_v04ZL7li5sXBEEUiR_CtgVg, February 10, 2019.
Rahman, M.M. and Davis, D.N., 2013, Addressing the class imbalance problem in medical datasets, Int. J. Mach. Learn. Comput. 3: 224-228.
Ramana, B.V., 2012, Liver Disease of Andhra Pradesh India Data Set, Available Source: https://archive.ics.uci.edu/ml/datasets/ILPD+(Indian+Liver+Patient+Dataset), February 10, 2019.
Shams, R., 2014, Creating Training, Validation and Test Sets (Data Preprocessing), Available Source: https://www.youtube.com/watch?v=uiDFa7iY9yo, January 22, 2019.
The Philippine Statistics Authority (PSA), 2013, Students Performance in Exams, Available Source: https://www.kaggle.com/spscientist/students-performance-in-exams?fbclid=lwAR1Cr-8mrbJzAswNqUn2yRd_nM_30XCkGD9zKZl74xMxL_vesBryqfbwQ_U, February 10, 2019.