การเปรียบเทียบประสิทธิภาพในการแทนค่าข้อมูลสูญหายโดยวิธีการประมาณค่าการถดถอย วิธีการประมาณค่าทดแทนพหุ และวิธีค่าคาดหมายสูงสุด สำหรับการจำแนกในการทำเหมืองข้อมูล

Main Article Content

ดวงแก้ว หุ่นทอง
ธีริศรา เงินวิลัย
สายชล สินสมบูรณ์ทอง

บทคัดย่อ

งานวิจัยนี้มีวัตถุประสงค์เพื่อต้องการเปรียบเทียบประสิทธิภาพวิธีการแทนค่าข้อมูลสูญหาย 3 วิธี คือ วิธีการประมาณค่าการถดถอย วิธีการประมาณค่าทดแทนพหุ และวิธีค่าคาดหมายสูงสุด ด้วยการจำแนก 4 วิธี คือ วิธีเพื่อนบ้านใกล้สุด k ตัว วิธีต้นไม้ตัดสินใจ วิธีโครงข่ายประสาทเทียม และวิธีซัพพอร์ตเวกเตอร์แมชชีน โดยค้นคว้าและศึกษาการแทนค่าข้อมูลสูญหายจากข้อมูล 6 ชุด ชุดข้อมูลทดสอบมีดังนี้ ข้อมูลโรคตับในรัฐอานธรประเทศ ประเทศอินเดีย และข้อมูลการตรวจชิ้นเนื้อในผู้ป่วยมะเร็งเต้านม เป็นข้อมูลที่มีค่าสูญหายต่ำ ข้อมูลการศึกษาระยะยาวของสารภูมิต้านทานโมโนโคลน และข้อมูลการตลาดของธนาคาร เป็นข้อมูลที่มีค่าสูญหายปานกลาง ข้อมูลระดับสินเชื่อครอบครัวเดี่ยว และข้อมูลโรคหลอดเลือดหัวใจของผู้อยู่อาศัยในเมือง Framingham รัฐ Massachusetts เป็นข้อมูลที่มีค่าสูญหายสูง โดยใช้โปรแกรม SPSS ในการแทนค่าข้อมูลสูญหายว่าวิธีใดมีประสิทธิภาพในการจำแนกดีที่สุด โดยพิจารณาจากค่าความถูกต้อง ค่าคลาดเคลื่อนกำลังสองเฉลี่ย และค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ย โดยแบ่งข้อมูลในอัตราส่วน 70, 20 และ 10 ตามลำดับ ในข้อมูลส่วนที่ 1 ข้อมูลเรียนรู้ นำไปสร้างตัวแบบ ร้อยละ 70 ข้อมูลส่วนที่ 2 ข้อมูลตรวจสอบความถูกต้อง นำข้อมูลไปประเมินความผิดพลาดของตัวแบบ ร้อยละ 20 และข้อมูลส่วนที่ 3 ข้อมูลทดสอบ นำไปทดสอบตัวแบบ ร้อยละ 10 โดยการกำหนดตัวสร้างเลขสุ่มเทียม เป็น 10, 20, 30, 40 และ 50 โดยใช้โปรแกรม WEKA พบว่าจำแนกข้อมูลโรคตับในรัฐอานธรประเทศ ประเทศอินเดีย วิธีที่มีประสิทธิภาพสูงสุด คือ การจำแนกด้วยวิธีซัพพอร์ตเวกเตอร์แมชชีนโดยวิธีการประมาณค่าการถดถอย วิธีการประมาณค่าทดแทนพหุ และวิธีค่าคาดหมายสูงสุด ชุดข้อมูลการตรวจชิ้นเนื้อในผู้ป่วยมะเร็งเต้านม วิธีที่มีประสิทธิภาพสูงสุด คือ การจำแนกด้วยวิธีซัพพอร์ตเวกเตอร์แมชชีนโดยวิธีการแทนค่าสูญหายด้วยวิธีการประมาณค่าการถดถอย และวิธีค่าคาดหมายสูงสุด ข้อมูลการศึกษาระยะยาวของสารภูมิต้านทานโมโนโคลน วิธีที่มีประสิทธิภาพสูงสุด คือ การจำแนกด้วยวิธีโครงข่ายประสาทเทียม โดยวิธีการประมาณค่าทดแทนพหุ ข้อมูลการตลาดของธนาคาร วิธีที่มีประสิทธิภาพสูงสุด คือ การจำแนกด้วยวิธีซัพพอร์ตเวกเตอร์แมชชีนโดยวิธีการแทนค่าสูญหายด้วยวิธีค่าคาดหมายสูงสุด ข้อมูลระดับสินเชื่อครอบครัวเดี่ยว วิธีที่มีประสิทธิภาพสูงสุด คือ การจำแนกด้วยวิธีต้นไม้ตัดสินใจโดยวิธีการแทนค่าสูญหายด้วยวิธีการประมาณค่าทดแทนพหุ และข้อมูลโรคหลอดเลือดหัวใจของผู้อยู่อาศัยในเมือง Framingham รัฐ Massachusetts วิธีที่มีประสิทธิภาพสูงสุด คือ การจำแนกด้วยวิธีซัพพอร์ตเวกเตอร์แมชชีนโดยวิธีการประมาณค่าการถดถอย วิธีการประมาณค่าทดแทนพหุ และวิธีค่าคาดหมายสูงสุด

Article Details

รูปแบบการอ้างอิง
หุ่นทอง ด., เงินวิลัย ธ., & สินสมบูรณ์ทอง ส. (2020). การเปรียบเทียบประสิทธิภาพในการแทนค่าข้อมูลสูญหายโดยวิธีการประมาณค่าการถดถอย วิธีการประมาณค่าทดแทนพหุ และวิธีค่าคาดหมายสูงสุด สำหรับการจำแนกในการทำเหมืองข้อมูล. Thai Journal of Science and Technology, 9(5), 575–588. https://doi.org/10.14456/tjst.2020.62
ประเภทบทความ
วิทยาศาสตร์กายภาพ
ประวัติผู้แต่ง

ดวงแก้ว หุ่นทอง

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

ธีริศรา เงินวิลัย

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

สายชล สินสมบูรณ์ทอง

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

เอกสารอ้างอิง

ฐณัฐ วงศ์สายเชื้อ, Replace Missing Value: การแทนค่าสูญหายในโปรแกรม SPSS, แหล่งที่ มา : https://www.youtube.com/watch?v=WzaeJ_HAqtk, 13 เมษายน 2559.

ทัตดา หิรัญพต, 2554, การเปรียบเทียบประสิทธิภาพระหว่างวิธีการประมาณข้อมูลสูญหายด้วยค่าถดถอยและวิธีการประมาณข้อมูลสูญหายด้วยค่าถดถอยแบบสโทแคสติก, ปัญหาพิเศษปริญญาตรี, มหาวิทยาลัยบูรพา, ชลบุรี.

นที ไทยธรรม และภาสกร สุวรรณโท, K-Nearest Neighbors (KNN), แหล่งที่มา : https://www.youtube.com/watch?v=WzaeJ_HAqtk, 17 พฤศจิกายน 2562.

ปิยะภรณ์ ประสิทธิ์วัฒนเสรี และสุคนธ์ ประสิทธิ์วัฒนเสรี, Missing Data and Management, แหล่งที่มา : http://dmbj.ejnal.com/e-journal/showdetail/?show_detail=T&art_id=1234, 5 พฤศจิกายน 2562.

ปูเป้ สุดศิลา, อำไพ ทองธีรภาพ และบุญอ้อม โฉมที, 2561, การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรอิสระในการวิเคราะห์การถดถอยโลจิสติกแบบ 2 กลุ่ม, น. 1717-1718, การประชุมวิชาการและนำเสนอผลงานวิชาการระดับชาติ UTCC Academic Day ครั้งที่ 2, คณะวิทยาศาสตร์ มหาวิทยาลัยเกษตรศาสตร์, กรุงเทพฯ.

พนิดา สมบัติมาก, ภัสสร จันทร์หอม, ศุภกร รัศมี และโอฬาร รุ่งมณีธรรมคุณ, 2560, การเปรียบ เทียบประสิทธิภาพในการจำแนกกลุ่มเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล, ปัญหาพิเศษปริญญาตรี, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง, กรุงเทพฯ.

วิทยา พรพัชรพงศ์, โครงข่ายประสาทเทียม (Artificial Neural Networks - ANN), แหล่งที่มา : https://www.gotoknow.org/posts/163433, 4 กรกฎาคม 2555.

ศศิธร สมพงศ์นวกิจ, 2555, การเปรียบเทียบวิธีการประมาณค่าสูญหายแบบร่วม, วิทยานิพนธ์ปริญญาโท, มหาวิทยาลัยเกษตรศาสตร์, กรุงเทพฯ.

สายชล สินสมบูรณ์ทอง, 2560, การทำเหมืองข้อมูล, บริษัทจามจุรีโปรดักท์, กรุงเทพฯ.

สุรวัชร ศรีเปารยะ และสายชล สินสมบูรณ์ทอง, 2560, การเปรียบเทียบประสิทธิภาพวิธีการจำแนกกลุ่มการเป็นโรคไตเรื้อรัง : กรณีศึกษาโรงพยาบาลแห่งหนึ่งในประเทศอินเดีย, ว.วิทยาศาสตร์และเทคโนโลยี 25(5): 844-846.

อโณทัย ศิลเทพาเวทย์, 2554, แบบจำลองเพื่อพัฒนาคุณภาพของผลิตภัณฑ์เอชจีเอในโรงงานอุตสาหกรรมฮาร์ดดิสก์ด้วยเทคนิคต้นไม้ตัดสินใจ, วิทยานิพนธ์ปริญญาโท, จุฬาลงกรณ์มหาวิทยาลัย, กรุงเทพฯ.

Ajmera, A., 2017, Cardiovascular Disease of Framingham Massachusetts, Available Source: https://www.kaggle.com/amanajmera1/framingham-heart-study-dataset, January 22, 2020.

Dong, Y. and Peng, C.Y.J., 2013, Principled missing data methods for researchers, SpringerPlus 2: 222.

Kyle, R., Therneau, T., Rajkumar, V., Offord, J., Larson, D., Plevak, M. and Melton, L.J., 2002, Monoclonal Gammopathy Data, Available Source: https://vincentarelbundock.github.io/Rdatasets/doc/survival/mgus2.html, February 14, 2020.

Peng, C.Y.J. and Zhu, J., 2008, Comparison of two approaches for handling missing covariates in logistic regression, Edu. Psychol. Measure. 68: 58-77.

Portuguese Banking Institution, 2012, Bank Marketing Data Set, Available Source: https://archive.ics.uci.edu/ml/datasets/Bank+Marketing, January 21, 2020.

Ramana, B.V., 2012, Data Set of Liver Disease in Andhra Pradesh, India, Available Source: https://archive.ics.uci.edu/ml/datasets/ILPD+(Indian+Liver+Patient+Dataset), December 12, 2019.

Saravananselvamohan, 1992, Single Family Loan-Level Data, Available Source: https: //www.kaggle.com/saravananselvamohan/freddie-mac-singlefamily-loanlevel-dataset/metada, January 25, 2020.

Wolberg, W.H., 1992, Biopsy Data on Breast Cancer Patients, Available Source: https://vincentarelbundock.github.io/Rdatasets/doc/MASS/ biopsy.html., January 3, 2020.