การเปรียบเทียบประสิทธิภาพในการแทนค่าข้อมูลสูญหายโดยวิธีการประมาณค่าการถดถอย วิธีการประมาณค่าทดแทนพหุ และวิธีค่าคาดหมายสูงสุด สำหรับการจำแนกในการทำเหมืองข้อมูล

Main Article Content

ดวงแก้ว หุ่นทอง
ธีริศรา เงินวิลัย
สายชล สินสมบูรณ์ทอง

Abstract

The objective of this research was to compare the efficiencies of three missing value replacement methods, i.e. regression imputation, multiple imputation, and expectation maximization using four classification methods including K-nearest neighbor, decision tree, artificial neural network and support vector machine, on six datasets with some missing values. The tested datasets were the followings: a dataset of liver disease in Andhra Pradesh, India, and a dataset of biopsy data on breast cancer patients, which had the least amount of missing value; a dataset of monoclonal gammopathy data, and a dataset of issued and non-issued credit cards by a bank, which had a moderate amount of missing value; and a dataset of single family loan-level and a dataset of cardiovascular disease in Framingham, Massachusetts, which had the highest amount of missing value. By offered in SPSS software program, the metrics that indicated the efficiency of a classification method were its accuracy, mean squared error and mean absolute error. Each of these data sets was divided into three proportions in the ratio of 70 : 20 : 10. By using the data part 1, training data are used to create a model 70 percentages. For the data part 2, validation data are used to evaluate an error a model 20 percentages and the data part 3, testing data are used to test a model 10 percentages using the random seeds of 10, 20, 30, 40, and 50 by WEKA program. For the classification of the dataset of liver disease in Andhra Pradesh, India, the best method was the support vector machine method by the regression imputation method, multiple imputation method and expectation maximization method. For the classification of the dataset of biopsy data on breast cancer patients, the best method was the support vector machine method by the regression imputation method and expectation maximization method. For the classification of the dataset of monoclonal gammopathy data, the best method was the artificial neural network method by the multiple imputation method. For the classification of the dataset of issued and non-issued credit cards by a bank, the best method was the support vector machine method by the expectation maximization method. For the classification of the dataset of single-family loan-level, the best method was the decision tree method by the multiple imputation method. For the classification of the dataset of cardiovascular disease in Framingham, Massachusetts, the best method was the support vector machine method by the regression imputation method, multiple imputation method and expectation maximization method.

Article Details

How to Cite
หุ่นทอง ด., เงินวิลัย ธ., & สินสมบูรณ์ทอง ส. (2020). การเปรียบเทียบประสิทธิภาพในการแทนค่าข้อมูลสูญหายโดยวิธีการประมาณค่าการถดถอย วิธีการประมาณค่าทดแทนพหุ และวิธีค่าคาดหมายสูงสุด สำหรับการจำแนกในการทำเหมืองข้อมูล. Thai Journal of Science and Technology, 9(5), 575–588. https://doi.org/10.14456/tjst.2020.62
Section
วิทยาศาสตร์กายภาพ
Author Biographies

ดวงแก้ว หุ่นทอง

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

ธีริศรา เงินวิลัย

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

สายชล สินสมบูรณ์ทอง

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

References

ฐณัฐ วงศ์สายเชื้อ, Replace Missing Value: การแทนค่าสูญหายในโปรแกรม SPSS, แหล่งที่ มา : https://www.youtube.com/watch?v=WzaeJ_HAqtk, 13 เมษายน 2559.

ทัตดา หิรัญพต, 2554, การเปรียบเทียบประสิทธิภาพระหว่างวิธีการประมาณข้อมูลสูญหายด้วยค่าถดถอยและวิธีการประมาณข้อมูลสูญหายด้วยค่าถดถอยแบบสโทแคสติก, ปัญหาพิเศษปริญญาตรี, มหาวิทยาลัยบูรพา, ชลบุรี.

นที ไทยธรรม และภาสกร สุวรรณโท, K-Nearest Neighbors (KNN), แหล่งที่มา : https://www.youtube.com/watch?v=WzaeJ_HAqtk, 17 พฤศจิกายน 2562.

ปิยะภรณ์ ประสิทธิ์วัฒนเสรี และสุคนธ์ ประสิทธิ์วัฒนเสรี, Missing Data and Management, แหล่งที่มา : http://dmbj.ejnal.com/e-journal/showdetail/?show_detail=T&art_id=1234, 5 พฤศจิกายน 2562.

ปูเป้ สุดศิลา, อำไพ ทองธีรภาพ และบุญอ้อม โฉมที, 2561, การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรอิสระในการวิเคราะห์การถดถอยโลจิสติกแบบ 2 กลุ่ม, น. 1717-1718, การประชุมวิชาการและนำเสนอผลงานวิชาการระดับชาติ UTCC Academic Day ครั้งที่ 2, คณะวิทยาศาสตร์ มหาวิทยาลัยเกษตรศาสตร์, กรุงเทพฯ.

พนิดา สมบัติมาก, ภัสสร จันทร์หอม, ศุภกร รัศมี และโอฬาร รุ่งมณีธรรมคุณ, 2560, การเปรียบ เทียบประสิทธิภาพในการจำแนกกลุ่มเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล, ปัญหาพิเศษปริญญาตรี, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง, กรุงเทพฯ.

วิทยา พรพัชรพงศ์, โครงข่ายประสาทเทียม (Artificial Neural Networks - ANN), แหล่งที่มา : https://www.gotoknow.org/posts/163433, 4 กรกฎาคม 2555.

ศศิธร สมพงศ์นวกิจ, 2555, การเปรียบเทียบวิธีการประมาณค่าสูญหายแบบร่วม, วิทยานิพนธ์ปริญญาโท, มหาวิทยาลัยเกษตรศาสตร์, กรุงเทพฯ.

สายชล สินสมบูรณ์ทอง, 2560, การทำเหมืองข้อมูล, บริษัทจามจุรีโปรดักท์, กรุงเทพฯ.

สุรวัชร ศรีเปารยะ และสายชล สินสมบูรณ์ทอง, 2560, การเปรียบเทียบประสิทธิภาพวิธีการจำแนกกลุ่มการเป็นโรคไตเรื้อรัง : กรณีศึกษาโรงพยาบาลแห่งหนึ่งในประเทศอินเดีย, ว.วิทยาศาสตร์และเทคโนโลยี 25(5): 844-846.

อโณทัย ศิลเทพาเวทย์, 2554, แบบจำลองเพื่อพัฒนาคุณภาพของผลิตภัณฑ์เอชจีเอในโรงงานอุตสาหกรรมฮาร์ดดิสก์ด้วยเทคนิคต้นไม้ตัดสินใจ, วิทยานิพนธ์ปริญญาโท, จุฬาลงกรณ์มหาวิทยาลัย, กรุงเทพฯ.

Ajmera, A., 2017, Cardiovascular Disease of Framingham Massachusetts, Available Source: https://www.kaggle.com/amanajmera1/framingham-heart-study-dataset, January 22, 2020.

Dong, Y. and Peng, C.Y.J., 2013, Principled missing data methods for researchers, SpringerPlus 2: 222.

Kyle, R., Therneau, T., Rajkumar, V., Offord, J., Larson, D., Plevak, M. and Melton, L.J., 2002, Monoclonal Gammopathy Data, Available Source: https://vincentarelbundock.github.io/Rdatasets/doc/survival/mgus2.html, February 14, 2020.

Peng, C.Y.J. and Zhu, J., 2008, Comparison of two approaches for handling missing covariates in logistic regression, Edu. Psychol. Measure. 68: 58-77.

Portuguese Banking Institution, 2012, Bank Marketing Data Set, Available Source: https://archive.ics.uci.edu/ml/datasets/Bank+Marketing, January 21, 2020.

Ramana, B.V., 2012, Data Set of Liver Disease in Andhra Pradesh, India, Available Source: https://archive.ics.uci.edu/ml/datasets/ILPD+(Indian+Liver+Patient+Dataset), December 12, 2019.

Saravananselvamohan, 1992, Single Family Loan-Level Data, Available Source: https: //www.kaggle.com/saravananselvamohan/freddie-mac-singlefamily-loanlevel-dataset/metada, January 25, 2020.

Wolberg, W.H., 1992, Biopsy Data on Breast Cancer Patients, Available Source: https://vincentarelbundock.github.io/Rdatasets/doc/MASS/ biopsy.html., January 3, 2020.