การเปรียบเทียบประสิทธิภาพในการทำนายผลการปรับความไม่สมดุลของข้อมูลในการจำแนกด้วยเทคนิคการทำเหมืองข้อมูล
Main Article Content
Abstract
Abstract
We compared the imbalanced data of four methods: over sampling, synthetic minority over sampling technique, under sampling and hybrid method using four classification methods: k-nearest neighbor, decision tree, artificial neural network and support vector machine. Metrics were accuracy, sensitivity, specificity and mean squared error. The data sets were auditory perception in children with otitis media with effusion (OME), credit card balance and red wine quality. Each of these data sets was divided into three proportions in the ratio of 70:20:10 using the data part 1, training data are used to create a model 70 percentages; the data part 2, validaion data are used to evaluate an error a model 20 percentages and the data part 3, testing data are used to testing a model 10 percentages using the random seed 10, 20, 30, 40 and 50 by WEKA program. When we compared the OME data set, the best classification method was the support vector machine in imbalanced data, adapting the synthetic minority over sampling technique. For the credit card data sets, the best classification method was the k-nearest neighbor in imbalanced data, adapting the synthetic minority over sampling technique. For the wine data sets, the best method was the artificial neural network in imbalanced data adapting over sampling.
Keywords: imbalanced data; k-nearest neighbor; decision tree; artificial neural network; support vector machine
Article Details
บทความที่ได้รับการตีพิมพ์เป็นลิขสิทธิ์ของคณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ข้อความที่ปรากฏในแต่ละเรื่องของวารสารเล่มนี้เป็นเพียงความเห็นส่วนตัวของผู้เขียน ไม่มีความเกี่ยวข้องกับคณะวิทยาศาสตร์และเทคโนโลยี หรือคณาจารย์ท่านอื่นในมหาวิทยาลัยธรรมศาสตร์ ผู้เขียนต้องยืนยันว่าความรับผิดชอบต่อทุกข้อความที่นำเสนอไว้ในบทความของตน หากมีข้อผิดพลาดหรือความไม่ถูกต้องใด ๆ
References
เชาวนันท์ โสโท, พุธษดี ศิริแสงตระกูล และวรชัย ตั้งวรพงศ์ชัย, 2556, แบบจำลองการทำนายผลการรักษาผู้ป่วยมะเร็งปากมดลูกด้วยโครงข่ายประสาทเทียม, ว.วิจัยมหาวิทยาลัย ขอนแก่น 13(1): 39-50.
เบญจภรณ์ จันทรกองกุล, สุวรรณา รัศมีขวัญ, สุนิสา ริมเจริญ, ภูสิต กุลเกษม, กฤษณะ ชินสาร, อัณณ์นุพันธ์ รอดทุกข์, ปิยนุช วรบุตร และจรรยา อ้นปันส์, วิธีการที่เหมาะสมสำหรับการแบ่งกลุ่มข้อมูลที่ไม่สมดุลสูง, แหล่งที่มา : http://digital_collect.lib.buu.ac.th/dcms/files/2559_047.pdf, 24 มิถุนายน 2561.
พนิดา สมบัติมาก, ภัสสร จันทร์หอม, ศุภกร รัศมี และโอฬาร รุ่งมณีธรรมคุณ, 2560, การเปรียบ เทียบประสิทธิภาพในการจำแนกกลุ่มเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล, ปัญหาพิเศษปริญญาตรี, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง, กรุงเทพฯ.
ภรันยา ปาลวิสุทธิ์, 2559, การเพิ่มประสิทธิภาพเทคนิคต้นไม้ตัดสินใจบนชุดข้อมูลที่ไม่สมดุลโดยวิธีการการสุ่มเพิ่มตัวอย่างกลุ่มน้อยสำหรับสำหรับข้อมูลการเป็นโรคอินเตอร์เน็ต, ว.เทคโนโลยีสารสนเทศ 12(1): 54-63.
วีระยุทธ มายุศิริ, จารี ทองคำ และวาทินี สุขมาก, 2557, การพัฒนาแบบจำลองเพื่อการพยากรณ์การรักษาซ้ำของผู้ป่วยโรคจิตเภทโดยเทคนิคเหมืองข้อมูล, ว.วิทยาศาสตร์และเทคโนโลยี 10(1): 144-153.
สุรวัชร ศรีเปารยะ และสายชล สินสมบูรณ์ทอง, 2560, การเปรียบเทียบประสิทธิภาพวิธีการจำแนกกลุ่มการเป็นโรคไตเรื้อรัง : กรณีศึกษาโรงพยาบาลแห่งหนึ่งในประเทศอินเดีย, ว.วิทยาศาสตร์และเทคโนโลยี 25(5): 839-853.
สายชล สินสมบูรณ์ทอง, 2560, การทำเหมืองข้อมูล เล่ม 1 : การค้นหาความรู้จากข้อมูล, จามจุรี โปรดักส์, กรุงเทพฯ.
Cortez, P., 2009, Wine Quality Data Set, Available Source: http://archive.ics.uci.edu/m0l/datasets/Wine+Quality, June 24, 2018.
He, H. and Ghodsi, A. 2010, Rare class classification by support vector machine, pp. 548-551, In 20th International Conference on Pattern Recognition.
Hogan, S., 2013, Tests of Auditory Perception in Children with OME, Available Source: https://vincentarebundock.gitub.io/Rdatasets/doc/MASS/OME.html, June 24, 2018.
James, G., Witten, D., Hastie, T. and Tibshirani, R., 2013, Credit Card Balance Data, Available Source: https://vincentarelbundoc k.github.io/Rdataset/doc/ISLR/Credit.html, June 24, 2018.
McCarthy, K., Zabar, B. and Weiss, G., 2005, Cost-sensitive learning vs. sampling: Which is best for handling unbalanced classes with unequal error costs, Proceedings of the 2007 International Conference on Data 7(1): 35-41.