การปรับความไม่สมดุลของข้อมูลด้วยการจำแนก 5 วิธี

Main Article Content

อัจฉรา แผ้วบาง
สายชล สินสมบูรณ์ทอง

Abstract

We compared the imbalanced data of four methods; i.e. over sampling, synthetic minority over sampling technique, under sampling, and hybrid methods, using five classification methods; i.e. k-nearest neighbor, artificial neural network, support vector machine, rule-based, and stochastic gradient descent. Metrics were accuracy, sensitivity, specificity, mean square error and mean absolute error. The data sets were chemotherapy for stage B/C colon cancer, monoclonal gammopathy and treatment of migraine headaches. Each of these data sets was divided into three proportions in the ratio of 70:20:10 using the data part 1. Training data are used to create a model 70 percentages; the data part 2. Validation data are used to evaluate an error a model 20 percentages, and the data part 3, testing data are used to test a model 10 percentages using the random seed 10, 20, 30, 40, and 50 by WEKA program. When we compared the chemotherapy for stage B/C colon cancer data set, the monoclonal gammopathy data sets, and the treatment of migraine headaches data sets, the best method was the ruled-based in imbalanced data adapting the synthetic minority over sampling technique.

Article Details

How to Cite
แผ้วบาง อ., & สินสมบูรณ์ทอง ส. (2020). การปรับความไม่สมดุลของข้อมูลด้วยการจำแนก 5 วิธี. Thai Journal of Science and Technology, 9(4), 418–435. https://doi.org/10.14456/tjst.2020.46
Section
วิทยาศาสตร์กายภาพ
Author Biographies

อัจฉรา แผ้วบาง

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

สายชล สินสมบูรณ์ทอง

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

References

กีระชาติ สุขสุทธิ์, 2559, การจำแนกข้อมูลไม่สมดุลโดยใช้การปรับปรุงข้อมูลร่วมกับการหาค่าพารามิเตอร์ที่เหมาะสมด้วยขั้นตอนวิธีทางพันธุกรรมที่มีการเริ่มต้นใหม่, วิทยานิพนธ์ปริญญาเอก, มหาวิทยาลัยเทคโนโลยีสุรนารี, นครราชสีมา.

ธนาวุฒิ ประกอบผล, 2552, โครงข่ายประสาทเทียม, ว.มฉก.วิชาการ 12(24): 73-87.

วีระยุทธ มายุศิริ, จารี ทองคำ และวาทินี สุขมาก, 2557, การพัฒนาแบบจำลองเพื่อการพยากรณ์การรักษาซ้ำของผู้ป่วยโรคจิตเภทโดยเทคนิคเหมืองข้อมูล, ว.วิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยมหาสารคาม 10(พิเศษ): 144-153.

พัชรียา ทองพูล, พิมพ์ชนก จำเรือง และรมย์นลิน บุญฤทธิ์, 2561, การเปรียบเทียบประสิทธิภาพในการทำนายผลการปรับความไม่สมดุลของข้อมูลในการจำแนกด้วยเทคนิคการทำเหมืองข้อมูล, ปัญหาพิเศษปริญญาตรี, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง, กรุงเทพฯ.

พนิดา สมบัติมาก, ภัสสร จันทร์หอม, ศุภกร รัศมี และโอฬาร รุ่งมณีธรรมคุณ, 2560, การเปรียบเทียบประสิทธิภาพในการจำแนกกลุ่มเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล, ปัญหาพิเศษปริญญาตรี, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง, กรุงเทพฯ.

ภรันยา ปาลวิสุทธิ์, 2559, การเพิ่มประสิทธิภาพเทคนิคต้นไม้ตัดสินใจบนชุดข้อมูลที่ไม่สมดุลโดยวิธีการการสุ่มเพิ่มตัวอย่างกลุ่มน้อยสำหรับสำหรับข้อมูลการเป็นโรคอินเตอร์เน็ต, ว.เทคโนโลยีสารสนเทศ 12(1): 54-63.

สายชล สินสมบูรณ์ทอง, 2560, การทำเหมืองข้อมูล เล่ม 1 : การค้นหาความรู้จากข้อมูล, พิมพ์ครั้งที่ 2, จามจุรีโปรดักส์ จำกัด, กรุงเทพฯ.

สุรวัชร ศรีเปารยะ และสายชล สินสมบูรณ์ทอง, 2560, การเปรียบเทียบประสิทธิภาพวิธีการจำแนกกลุ่มการเป็นโรคไตเรื้อรัง : กรณีศึกษาโรงพยาบาลแห่งหนึ่งในประเทศอินเดีย, ว.วิทยาศาสตร์และเทคโนโลยี 25(5): 839-853.

สุรเดช บุญลือ, ชฎาพร สุขแจ่ม และศศิธร สนิทผล, 2554, การประยุกต์ใช้ซัพพอร์ทเว็กเตอร์แมชชีนในการทำนายการอยู่รอดของผู้ป่วยมะเร็งเต้านม, ศรีนครินทรวิโรฒวิชาการ ครั้งที่ 5, มหาวิทยาลัยศรีนครินทรวิโรฒ, กรุงเทพฯ.

เชาวนันท์ โสโท, พุธษดี ศิริแสงตระกูล และวรชัย ตั้งวรพงศ์ชัย, 2556, แบบจำลองการทำนายผลการรักษาผู้ป่วยมะเร็งปากมดลูกด้วยโครงข่ายประสาทเทียม, ว.วิจัย มข. 13(1): 39-50.

เบญจภรณ์ จันทรกองกุล, สุวรรณา รัศมีขวัญ, สุนิสา ริมเจริญ, ภูสิต กุลเกษม, กฤษณะ ชินสาร, อัณณ์นุพันธ์ รอดทุกข์, ปิยนุช วรบุตร และจรรยา อ้นปันส์, 2557, วิธีการที่เหมาะสมสำหรับการแบ่งกลุ่มข้อมูลที่ไม่สมดุลสูง, แหล่งที่มา : http://digital_collect.lib.buu.ac.th/dcms/files/2559_047.pdf, 10 พฤศจิกายน 2561.

Berson, A. and Smith, S.J., 1997, Data Warehousing, Data Mining and OLAP, McGraw-Hll, Inc., New York.

Hagan, M., Demuth, H. and Beale, M., 1996, Neural Network Design, Martin T. Hagan, Oklahoma.

Kostecki, T., Monette, G. and Wong, P., 1999, Treatment of Migraine Headaches, Available Source: https://vincentarelbundoc k.github.io/Rdataset/doc/carData/KosteckiDillon.html, February 7, 2019.

Kyle, R., Therneau, T., Rajkumar, V., Larson, D., Plevak, M. and Melton, L., 1994, Monoclonal Gammopathy, Available Source: https://vincentarelbundock.github.io/Rdataset/doc/survival/mgus.2.html, January 15, 2019.

Laurie, J., Moertel, C. and Lin, D., 1994, Chemotherapy for Stage B/C Colon Cancer, Available Source: https://vincentarelbundock.github.io/Rdataset/doc/survival/colon.html, January 15, 2019.

Murti, S. and Mahantappa, M., 2012, Using Rule Based Classifiers for the Predictive Analysis of Breast Cancer Recurrence, Available Source: https://archive.ics.uci.edu/ml/datasets/pima+indians+diabetes, February 15, 2019.

Nektarios, T.G., 2013, Weka Classify Summary, Athens University of Economics and Business, Available Source: https://www. academia.edu/5167325/Weka_Classifiers_Summary, January 10, 2019.

Rahman, M.M. and Davis, D.N., 2013, Addressing the class imbalance problem in medical datasets, Int. J. Mach. Learn. Comput. 3: 224-228.

Troyanskaya, O., 2001, Missing Value Estimation methods for DNA microarrays, Bionformatics 17: 520-525.