การเปรียบเทียบประสิทธิภาพในการแทนค่าข้อมูลสูญหายโดยวิธีการประมาณค่าการถดถอย วิธีการประมาณค่าทดแทนพหุ และวิธีค่าคาดหมายสูงสุด สำหรับการจำแนกในการทำเหมืองข้อมูล
Main Article Content
บทคัดย่อ
งานวิจัยนี้มีวัตถุประสงค์เพื่อต้องการเปรียบเทียบประสิทธิภาพวิธีการแทนค่าข้อมูลสูญหาย 3 วิธี คือ วิธีการประมาณค่าการถดถอย วิธีการประมาณค่าทดแทนพหุ และวิธีค่าคาดหมายสูงสุด ด้วยการจำแนก 4 วิธี คือ วิธีเพื่อนบ้านใกล้สุด k ตัว วิธีต้นไม้ตัดสินใจ วิธีโครงข่ายประสาทเทียม และวิธีซัพพอร์ตเวกเตอร์แมชชีน โดยค้นคว้าและศึกษาการแทนค่าข้อมูลสูญหายจากข้อมูล 6 ชุด ชุดข้อมูลทดสอบมีดังนี้ ข้อมูลโรคตับในรัฐอานธรประเทศ ประเทศอินเดีย และข้อมูลการตรวจชิ้นเนื้อในผู้ป่วยมะเร็งเต้านม เป็นข้อมูลที่มีค่าสูญหายต่ำ ข้อมูลการศึกษาระยะยาวของสารภูมิต้านทานโมโนโคลน และข้อมูลการตลาดของธนาคาร เป็นข้อมูลที่มีค่าสูญหายปานกลาง ข้อมูลระดับสินเชื่อครอบครัวเดี่ยว และข้อมูลโรคหลอดเลือดหัวใจของผู้อยู่อาศัยในเมือง Framingham รัฐ Massachusetts เป็นข้อมูลที่มีค่าสูญหายสูง โดยใช้โปรแกรม SPSS ในการแทนค่าข้อมูลสูญหายว่าวิธีใดมีประสิทธิภาพในการจำแนกดีที่สุด โดยพิจารณาจากค่าความถูกต้อง ค่าคลาดเคลื่อนกำลังสองเฉลี่ย และค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ย โดยแบ่งข้อมูลในอัตราส่วน 70, 20 และ 10 ตามลำดับ ในข้อมูลส่วนที่ 1 ข้อมูลเรียนรู้ นำไปสร้างตัวแบบ ร้อยละ 70 ข้อมูลส่วนที่ 2 ข้อมูลตรวจสอบความถูกต้อง นำข้อมูลไปประเมินความผิดพลาดของตัวแบบ ร้อยละ 20 และข้อมูลส่วนที่ 3 ข้อมูลทดสอบ นำไปทดสอบตัวแบบ ร้อยละ 10 โดยการกำหนดตัวสร้างเลขสุ่มเทียม เป็น 10, 20, 30, 40 และ 50 โดยใช้โปรแกรม WEKA พบว่าจำแนกข้อมูลโรคตับในรัฐอานธรประเทศ ประเทศอินเดีย วิธีที่มีประสิทธิภาพสูงสุด คือ การจำแนกด้วยวิธีซัพพอร์ตเวกเตอร์แมชชีนโดยวิธีการประมาณค่าการถดถอย วิธีการประมาณค่าทดแทนพหุ และวิธีค่าคาดหมายสูงสุด ชุดข้อมูลการตรวจชิ้นเนื้อในผู้ป่วยมะเร็งเต้านม วิธีที่มีประสิทธิภาพสูงสุด คือ การจำแนกด้วยวิธีซัพพอร์ตเวกเตอร์แมชชีนโดยวิธีการแทนค่าสูญหายด้วยวิธีการประมาณค่าการถดถอย และวิธีค่าคาดหมายสูงสุด ข้อมูลการศึกษาระยะยาวของสารภูมิต้านทานโมโนโคลน วิธีที่มีประสิทธิภาพสูงสุด คือ การจำแนกด้วยวิธีโครงข่ายประสาทเทียม โดยวิธีการประมาณค่าทดแทนพหุ ข้อมูลการตลาดของธนาคาร วิธีที่มีประสิทธิภาพสูงสุด คือ การจำแนกด้วยวิธีซัพพอร์ตเวกเตอร์แมชชีนโดยวิธีการแทนค่าสูญหายด้วยวิธีค่าคาดหมายสูงสุด ข้อมูลระดับสินเชื่อครอบครัวเดี่ยว วิธีที่มีประสิทธิภาพสูงสุด คือ การจำแนกด้วยวิธีต้นไม้ตัดสินใจโดยวิธีการแทนค่าสูญหายด้วยวิธีการประมาณค่าทดแทนพหุ และข้อมูลโรคหลอดเลือดหัวใจของผู้อยู่อาศัยในเมือง Framingham รัฐ Massachusetts วิธีที่มีประสิทธิภาพสูงสุด คือ การจำแนกด้วยวิธีซัพพอร์ตเวกเตอร์แมชชีนโดยวิธีการประมาณค่าการถดถอย วิธีการประมาณค่าทดแทนพหุ และวิธีค่าคาดหมายสูงสุด
Article Details
บทความที่ได้รับการตีพิมพ์เป็นลิขสิทธิ์ของคณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ข้อความที่ปรากฏในแต่ละเรื่องของวารสารเล่มนี้เป็นเพียงความเห็นส่วนตัวของผู้เขียน ไม่มีความเกี่ยวข้องกับคณะวิทยาศาสตร์และเทคโนโลยี หรือคณาจารย์ท่านอื่นในมหาวิทยาลัยธรรมศาสตร์ ผู้เขียนต้องยืนยันว่าความรับผิดชอบต่อทุกข้อความที่นำเสนอไว้ในบทความของตน หากมีข้อผิดพลาดหรือความไม่ถูกต้องใด ๆ
เอกสารอ้างอิง
ฐณัฐ วงศ์สายเชื้อ, Replace Missing Value: การแทนค่าสูญหายในโปรแกรม SPSS, แหล่งที่ มา : https://www.youtube.com/watch?v=WzaeJ_HAqtk, 13 เมษายน 2559.
ทัตดา หิรัญพต, 2554, การเปรียบเทียบประสิทธิภาพระหว่างวิธีการประมาณข้อมูลสูญหายด้วยค่าถดถอยและวิธีการประมาณข้อมูลสูญหายด้วยค่าถดถอยแบบสโทแคสติก, ปัญหาพิเศษปริญญาตรี, มหาวิทยาลัยบูรพา, ชลบุรี.
นที ไทยธรรม และภาสกร สุวรรณโท, K-Nearest Neighbors (KNN), แหล่งที่มา : https://www.youtube.com/watch?v=WzaeJ_HAqtk, 17 พฤศจิกายน 2562.
ปิยะภรณ์ ประสิทธิ์วัฒนเสรี และสุคนธ์ ประสิทธิ์วัฒนเสรี, Missing Data and Management, แหล่งที่มา : http://dmbj.ejnal.com/e-journal/showdetail/?show_detail=T&art_id=1234, 5 พฤศจิกายน 2562.
ปูเป้ สุดศิลา, อำไพ ทองธีรภาพ และบุญอ้อม โฉมที, 2561, การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรอิสระในการวิเคราะห์การถดถอยโลจิสติกแบบ 2 กลุ่ม, น. 1717-1718, การประชุมวิชาการและนำเสนอผลงานวิชาการระดับชาติ UTCC Academic Day ครั้งที่ 2, คณะวิทยาศาสตร์ มหาวิทยาลัยเกษตรศาสตร์, กรุงเทพฯ.
พนิดา สมบัติมาก, ภัสสร จันทร์หอม, ศุภกร รัศมี และโอฬาร รุ่งมณีธรรมคุณ, 2560, การเปรียบ เทียบประสิทธิภาพในการจำแนกกลุ่มเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล, ปัญหาพิเศษปริญญาตรี, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง, กรุงเทพฯ.
วิทยา พรพัชรพงศ์, โครงข่ายประสาทเทียม (Artificial Neural Networks - ANN), แหล่งที่มา : https://www.gotoknow.org/posts/163433, 4 กรกฎาคม 2555.
ศศิธร สมพงศ์นวกิจ, 2555, การเปรียบเทียบวิธีการประมาณค่าสูญหายแบบร่วม, วิทยานิพนธ์ปริญญาโท, มหาวิทยาลัยเกษตรศาสตร์, กรุงเทพฯ.
สายชล สินสมบูรณ์ทอง, 2560, การทำเหมืองข้อมูล, บริษัทจามจุรีโปรดักท์, กรุงเทพฯ.
สุรวัชร ศรีเปารยะ และสายชล สินสมบูรณ์ทอง, 2560, การเปรียบเทียบประสิทธิภาพวิธีการจำแนกกลุ่มการเป็นโรคไตเรื้อรัง : กรณีศึกษาโรงพยาบาลแห่งหนึ่งในประเทศอินเดีย, ว.วิทยาศาสตร์และเทคโนโลยี 25(5): 844-846.
อโณทัย ศิลเทพาเวทย์, 2554, แบบจำลองเพื่อพัฒนาคุณภาพของผลิตภัณฑ์เอชจีเอในโรงงานอุตสาหกรรมฮาร์ดดิสก์ด้วยเทคนิคต้นไม้ตัดสินใจ, วิทยานิพนธ์ปริญญาโท, จุฬาลงกรณ์มหาวิทยาลัย, กรุงเทพฯ.
Ajmera, A., 2017, Cardiovascular Disease of Framingham Massachusetts, Available Source: https://www.kaggle.com/amanajmera1/framingham-heart-study-dataset, January 22, 2020.
Dong, Y. and Peng, C.Y.J., 2013, Principled missing data methods for researchers, SpringerPlus 2: 222.
Kyle, R., Therneau, T., Rajkumar, V., Offord, J., Larson, D., Plevak, M. and Melton, L.J., 2002, Monoclonal Gammopathy Data, Available Source: https://vincentarelbundock.github.io/Rdatasets/doc/survival/mgus2.html, February 14, 2020.
Peng, C.Y.J. and Zhu, J., 2008, Comparison of two approaches for handling missing covariates in logistic regression, Edu. Psychol. Measure. 68: 58-77.
Portuguese Banking Institution, 2012, Bank Marketing Data Set, Available Source: https://archive.ics.uci.edu/ml/datasets/Bank+Marketing, January 21, 2020.
Ramana, B.V., 2012, Data Set of Liver Disease in Andhra Pradesh, India, Available Source: https://archive.ics.uci.edu/ml/datasets/ILPD+(Indian+Liver+Patient+Dataset), December 12, 2019.
Saravananselvamohan, 1992, Single Family Loan-Level Data, Available Source: https: //www.kaggle.com/saravananselvamohan/freddie-mac-singlefamily-loanlevel-dataset/metada, January 25, 2020.
Wolberg, W.H., 1992, Biopsy Data on Breast Cancer Patients, Available Source: https://vincentarelbundock.github.io/Rdatasets/doc/MASS/ biopsy.html., January 3, 2020.