การเปรียบเทียบประสิทธิภาพในการทำนายผลความไม่สมดุลของข้อมูลในการจำแนกด้วยเทคนิคการทำเหมืองข้อมูล
Main Article Content
บทคัดย่อ
การศึกษานี้เป็นการเปรียบเทียบประสิทธิภาพในการทำนายผลความไม่สมดุลของข้อมูลในการจำแนกด้วยเทคนิคการทำเหมืองข้อมูล วิธีการจำแนกที่นำมาเปรียบเทียบมี 7 วิธี ได้แก่ วิธีเพื่อนบ้านใกล้สุด k ตัว โดยใช้อัลกอริทึมชนิด IBk วิธีต้นไม้ตัดสินใจโดยใช้อัลกอริทึมชนิด J48 วิธีโครงข่ายประสาทเทียมโดยใช้อัลกอริทึมชนิดเพอร์เซปตรอนแบบหลายชั้น วิธีซัพพอร์ตเวกเตอร์แมชชีนโดยใช้อัลกอริทึม SMO ชนิดโพลิโนเมียลเคอร์เนล วิธีฐานกฎโดยใช้อัลกอริทึม decision table วิธีการถดถอยลอจิสติกทวิภาค และวิธีนาอีฟเบส์ การเปรียบเทียบประสิทธิภาพของวิธีการจำแนกจะพิจารณาจากค่าความถูกต้อง ค่าความไว ค่าความจำเพาะ ระยะเวลาในการประมวลผล และค่าคลาดเคลื่อนกำลังสองเฉลี่ย โดยใช้ชุดข้อมูล fertility, vertibral column และ diabetes ผลการศึกษาพบว่าชุดข้อมูล fertility วิธีการถดถอยลอจิสติกทวิภาคที่ random seed = 10, 20 และ 30 มีค่าความถูกต้อง ค่าความไว ค่าความจำเพาะ และค่าคลาดเคลื่อนกำลังสองเฉลี่ยดีที่สุด คือ ร้อยละ 100, 1.0000, 1.0000 และ 0.00000 ตามลำดับ ส่วนชุดข้อมูล vertibral volumn วิธีเพื่อนบ้านใกล้สุด k ตัว ที่ random seed = 10, 20 และ 30 มีค่าความถูกต้อง ค่าความไว ค่าความจำเพาะ และค่าคลาดเคลื่อนกำลังสองเฉลี่ยดีที่สุด คือ ร้อยละ 100, 1.0000, 1.0000 และ 0.00024 ตามลำดับ และชุดข้อมูล diabetes วิธีเพื่อนบ้านใกล้สุด k ตัว ที่ random seed = 10, 20 และ 30 มีค่าความถูกต้อง ค่าความไว ค่าความจำเพาะ และค่าคลาดเคลื่อนกำลังสองเฉลี่ยดีที่สุด คือ ร้อยละ 100, 1.0000, 1.0000 และ 0.00004 ตามลำดับ และเมื่อพิจารณาข้อมูลทั้ง 3 ชุด ร่วมกัน พบว่าวิธีที่ดีที่สุดในการทำนายผล คือ วิธีเพื่อนบ้านใกล้สุด k ตัว
Article Details
เอกสารอ้างอิง
[2] Boonchuay, K., Sinapiromsaran, K. and Lursinsap, C., 2011, Minority split and gain ratio for a class imbalance, Int. Conf. Fuz. Sys. Knowl. Disc. 8: 2060-2064.
[3] Akbani, R., Kwek, S. and Japkowicz, N., 2004, Applying support vector machines to imbalanced datasets. Eur. Conf. Mach. Learn. 32: 39-50.
[4] Chen, Y., 2009, Learning Classifiers from Imbalanced, Only Positive and Unlabelled Data Sets, Project Report for UC San Diego Data Mining Contest, Department of Computer Science, Iowa State University, Iowa, 78 p.
[5] Sobran, N.M.M., Ahmad, A. and Ibrahim, Z., 2013, Classification of imbalanced dataset using conventional Naïve Bayes classifier, Int. Conf. Artif. Intell. Comput. Sci. 10: 35-42.
[6] Zhang, S., Sadaoui, S. and Mouhoub, M., 2015, An empirical analysis of imbalanced data classification, J. Comp. Inform. Sci. 8: 151-162.
[7] Panichkul, P., 2005, Development Data Mining System by Decision Tree, Work System Development Project, Master Thesis, King Montkut’s Institute of Technology Ladkrabang, Bangkok, 62 p. (in Thai)
[8] Wu, X. and Kumar, V., 2009, The Top Ten Algorithms in Data Mining, Department of Computer Science and Engineering, University of Minnesota, CRC Press, Minneapolis, 215 p.
[9] Thammasombut, R., 2012, Decision Support System for Selection the Mobile Internet Package Using Decision Tree, Major of Business Computer, Faculty of Business Administration, Rajapruek College, Sakon Nakhon, 77 p. (in Thai)
[10] Berson, A. and Smith, S.J., 1997, Data Warehousing, Data Mining, and OLAP, McGraw-Hill, New York, 612 p.
[11] Nuipian, V., 2010, Comparison of Efficiency and Analysis of Data Classification using Artificial Neural Network, Support Vector Machine, Naïve Bayes and k-Nearest Neighbor, Department of Information Technology, Faculty of Information Technology, King Montkut’s University of Technology North Bangkok, Bangkok, 85 p. (in Thai)
[12] Murti, S. and Mahantappa, M., 2012, Using rule based classifiers for the predictive analysis of breast cancer recurrence, J. Inform. Eng. Appl. 2(2): 12-19.
[14] Vanichbuncha, K., 2009, Multivariate Analysis, Thammasan Co., Ltd., Bangkok, 589 p. (in Thai)
[15] Sinsomboonthong, S., 2017, Data Mining 1: Discovering Knowledge in Data, 2nd Ed., Chamchuree Products Co., Ltd., Bangkok, 512 p. (in Thai)