การเปรียบเทียบประสิทธิภาพการแทนค่าข้อมูลสูญหายกับการจำแนกกลุ่ม 4 วิธี
Main Article Content
บทคัดย่อ
งานวิจัยนี้มีนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพวิธีการแทนค่าข้อมูลสูญหาย 5 วิธี คือ ค่าเฉลี่ยอนุกรม ค่าเฉลี่ยของค่าใกล้เคียง ค่ามัธยฐานของค่าใกล้เคียง การประมาณค่าในช่วงเชิงเส้น และแนวโน้มเชิงเส้น แล้วนำข้อมูลที่แทนค่าสูญหายทั้ง 5 วิธี ข้างต้นมาจำแนกกลุ่ม 4 วิธี คือ วิธีต้นไม้ตัดสินใจ วิธีโครงข่ายประสาทเทียม วิธีนาอีฟเบส์ และวิธีการถดถอยลอจิสติกทวิภาคว่าวิธีใดมีประสิทธิภาพในการจำแนกกลุ่มดีที่สุด พิจารณาจากค่าความแม่น ค่าคลาดเคลื่อนกำลังสองเฉลี่ย และค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ย โดยแบ่งข้อมูลในอัตราส่วน 70, 20 และ 10 ตามลำดับ ข้อมูลส่วนที่ 1 ข้อมูลเรียนรู้ นำไปสร้างตัวแบบ ร้อยละ 70 ข้อมูลส่วนที่ 2 ข้อมูลตรวจสอบความถูกต้อง นำข้อมูลไปประเมินความผิดพลาดของตัวแบบ ร้อยละ 20 และข้อมูลส่วนที่ 3 ข้อมูลทดสอบ นำไปทดสอบตัวแบบ ร้อยละ 10 โดยการกำหนดตัวสร้างเลขสุ่มเทียมเป็น 10, 20, 30, 40 และ 50 มีข้อมูลสูญหายในการศึกษา 3 ชุด คือ ชุดข้อมูลโรคหัวใจ ชุดข้อมูลประสิทธิภาพในการสอบของนักเรียน และชุดข้อมูลการซื้อของในวันศุกร์สัปดาห์สุดท้ายของเดือนพฤศจิกายน โดยใช้โปรแกรม WEKA การเปรียบเทียบชุดข้อมูลที่มีค่าสูญหายต่ำ โรคหัวใจ วิธีการจำแนกที่มีประสิทธิภาพสูงสุด คือ วิธีต้นไม้ตัดสินใจ แทนค่าข้อมูลสูญหายด้วยวิธีค่าเฉลี่ยของค่าใกล้เคียง ชุดข้อมูลที่มีค่าสูญหายปานกลาง ประสิทธิภาพในการสอบของนักเรียน วิธีการจำแนกที่มีประสิทธิภาพสูงสุด คือ วิธีการถดถอยลอจิสติกทวิวิภาค แทนค่าข้อมูลสูญหายด้วยวิธีการประมาณค่าในช่วงเชิงเส้น และชุดข้อมูลที่มีค่าสูญหายสูง การซื้อของในวันศุกร์สัปดาห์สุดท้ายของเดือนพฤศจิกายน วิธีที่มีประสิทธิภาพสูงสุด คือ วิธีนาอีฟเบส์ แทนค่าข้อมูลสูญหายด้วยวิธีค่ามัธยฐานของค่าใกล้เคียง
Article Details
บทความที่ได้รับการตีพิมพ์เป็นลิขสิทธิ์ของคณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ข้อความที่ปรากฏในแต่ละเรื่องของวารสารเล่มนี้เป็นเพียงความเห็นส่วนตัวของผู้เขียน ไม่มีความเกี่ยวข้องกับคณะวิทยาศาสตร์และเทคโนโลยี หรือคณาจารย์ท่านอื่นในมหาวิทยาลัยธรรมศาสตร์ ผู้เขียนต้องยืนยันว่าความรับผิดชอบต่อทุกข้อความที่นำเสนอไว้ในบทความของตน หากมีข้อผิดพลาดหรือความไม่ถูกต้องใด ๆ
เอกสารอ้างอิง
กัลยา วานิชย์บัญชา, 2552, การวิเคราะห์ข้อมูลหลายตัวแปร, บริษัท ธรรมสาร จำกัด, กรุงเทพฯ.
จิตกานต์ จันทราช, มนทิราลัย ชัยมงคล, รัตนชัย แซ่โง้ว, สายทิพย์ พลอยสัมฤทธิ์ และสายชล สินสมบูรณ์ทอง, 2563, การเปรียบเทียบประสิทธิภาพการทำนายผลการจำแนกกรณีข้อมูลสูญหายด้วยเทคนิคการทำเหมืองข้อมูล, Thai J. Sci. Technol. 9(1): 1-15.
ฐณัฐ วงศ์สายเชื้อ, 2559, Replace Missing Value – การแทนค่าสูญหายในโปรแกรม SPSS, แหล่งที่มา : https://www.youtube.com/watch?v=WzaeJ_HAqtk, 15 ธันวาคม 2561.
ธนาวุฒิ ประกอบผล, 2552, โครงข่ายประสาทเทียม, ว.มฉก.วิชาการ 12(24): 73-87.
พนิดา สมบัติมาก, ภัสสร จันทร์หอม, ศุภกร รัศมี และโอฬาร รุ่งมณีธรรมคุณ, 2560, การเปรียบเทียบประสิทธิภาพในการจำแนกกลุ่มเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล, ปัญหาพิเศษปริญญาตรี, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง, กรุงเทพฯ.
วราฤทธิ์ พานิชกิจโกศลกุล, 2552, การจำลองแบบมอนติคาร์โลสำหรับประมาณค่าความแปรปรวนของการแจกแจงอินเวอร์เกาส์เซีอนเมื่อข้อมูลมีค่าสูญหาย, ว.การวิจัยกาสะลองคำ 3(1): 14-23.
วุฒิ สุขเจริญ, 2558, การดำเนินการกับข้อมูลขาดหาย, ว.ร่มพฤกษ์ มหาวิทยาลัยเกริก 33(2): 11-32.
สายชล สินสมบูรณ์ทอง, 2560, การทำเหมืองข้อมูล เล่ม 1 : การค้นหาความรู้จากข้อมูล, พิมพ์ครั้งที่ 2, จามจุรีโปรดักส์ จำกัด, กรุงเทพฯ.
สายชล สินสมบูรณ์ทอง, 2560, สถิติเบื้องต้น, พิมพ์ครั้งที่ 11, จามจุรีโปรดักส์ จำกัด, กรุงเทพฯ.
สุรวัชร ศรีเปารยะ และสายชล สินสมบูรณ์ทอง, 2560, การเปรียบเทียบประสิทธิภาพวิธีการจำแนกกลุ่มการเป็นโรคไตเรื้อรัง : กรณีศึกษาโรงพยาบาลแห่งหนึ่งในประเทศอินเดีย, ว.วิทยาศาสตร์และเทคโนโลยี 25(5): 839-853.
Berson, A. and Smith, S.J., 1997, Data Warehousing: Data Mining and OLAP, McGraw-Hll, Inc., New York.
Hagan, M., Demuth, H. and Beale, M., 1996, Neural Network Design, Martin T. Hagan, Oklahoma.
Kaiser, J., 2014, Dealing with missing values in data, J. Syst. Integrat. 5: 42-51.
Kijsirikul, B., 2004, Data Mining Algorithms, The Final Report on the Joint Government and Private Sectors, Chulalongkorn University, Bangkok.
Mahmoud, M.M., 2010, Evaluation of Accuracy of the Estimation Methods for Replacing Missing Values for Time Series Variables Using the Statistical Packages Software SPSS and MINITAB, Department of Statistics and Mathematics, Faculty of Commerce., Tanta University, Al Gharbiyah.
Mitchell, T.M., 1997, Machine Learning, McGraw-Hill, Inc., New York.
Portuguese Banking Institution, 2012, Black Friday, Available Source: https://www.kaggle.com/mehdidag/black-friday?fbclid=lwAR0GIK0EJwAyDzb0iD06X7U7Ev-65nfgM_v04ZL7li5sXBEEUiR_CtgVg, February 10, 2019.
Rahman, M.M. and Davis, D.N., 2013, Addressing the class imbalance problem in medical datasets, Int. J. Mach. Learn. Comput. 3: 224-228.
Ramana, B.V., 2012, Liver Disease of Andhra Pradesh India Data Set, Available Source: https://archive.ics.uci.edu/ml/datasets/ILPD+(Indian+Liver+Patient+Dataset), February 10, 2019.
Shams, R., 2014, Creating Training, Validation and Test Sets (Data Preprocessing), Available Source: https://www.youtube.com/watch?v=uiDFa7iY9yo, January 22, 2019.
The Philippine Statistics Authority (PSA), 2013, Students Performance in Exams, Available Source: https://www.kaggle.com/spscientist/students-performance-in-exams?fbclid=lwAR1Cr-8mrbJzAswNqUn2yRd_nM_30XCkGD9zKZl74xMxL_vesBryqfbwQ_U, February 10, 2019.