การปรับความไม่สมดุลของข้อมูลด้วยการจำแนก 5 วิธี

อัจฉรา แผ้วบาง; สายชล สินสมบูรณ์ทอง

doi:10.14456/tjst.2020.46

PDF

เผยแพร่แล้ว: ต.ค. 24, 2020

DOI: https://doi.org/10.14456/tjst.2020.46

คำสำคัญ:

ความไม่สมดุลของข้อมูล วิธีเพื่อนบ้านใกล้สุด k ตัว วิธีโครงข่ายประสาทเทียม วิธีซัพพอร์ตเวกเตอร์แมชชีน วิธีฐานกฎ วิธีลาดลงสโตแคสติก

อัจฉรา แผ้วบาง

สายชล สินสมบูรณ์ทอง

บทคัดย่อ

งานวิจัยนี้มีนี้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีการปรับข้อมูลที่ไม่สมดุล 4 วิธี คือ วิธีการสุ่มเกิน วิธีการสุ่มเกินโดยเทคนิค SMOTE วิธีการสุ่มลด และวิธีการสุ่มผสมผสาน โดยวิธีการจำแนก 5 วิธี คือ วิธีเพื่อนบ้านใกล้สุด k ตัว วิธีโครงข่ายประสาทเทียม วิธีซัพพอร์ตเวกเตอร์แมชชีน วิธีฐานกฎ และวิธีลาดลงสโตแคสติก ว่าวิธีใดมีประสิทธิภาพในการจำแนกดีที่สุด โดยพิจารณาจากค่าความถูกต้อง ค่าความไว ค่าความจำเพาะ ค่าคลาดเคลื่อนกำลังสองเฉลี่ย และค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ย โดยแบ่งข้อมูลในอัตราส่วน 70, 20 และ 10 ตามลำดับ ในข้อมูลส่วนที่ 1 ข้อมูลเรียนรู้ นำไปสร้างตัวแบบ ร้อยละ 70 ข้อมูลส่วนที่ 2 ข้อมูลตรวจสอบความถูกต้อง นำข้อมูลไปประเมินความผิดพลาดของตัวแบบ ร้อยละ 20 และข้อมูลส่วนที่ 3 ข้อมูลทดสอบ นำไปทดสอบตัวแบบ ร้อยละ 10 โดยการกำหนดตัวสร้างเลขสุ่มเทียม เป็น 10, 20, 30, 40 และ 50 มีข้อมูลที่ไม่สมดุลในการศึกษา 3 ชุด คือ ชุดข้อมูลเคมีบำบัดมะเร็งลำไส้ใหญ่ระยะ B/C ชุดข้อมูลโรคที่มีความผิดปกติของโปรตีน และชุดข้อมูลการรักษาอาการปวดศีรษะขั้นรุนแรง โดยใช้โปรแกรม WEKA การเปรียบเทียบข้อมูลทั้ง 3 ชุด คือ ข้อมูลเคมีบำบัดมะเร็งลำไส้ใหญ่ระยะ B/C ชุดข้อมูลโรคที่มีความผิดปกติของโปรตีน และชุดข้อมูลการรักษาอาการปวดศีรษะขั้นรุนแรง วิธีที่มีประสิทธิภาพสูงสุดคือวิธีฐานกฎโดยการปรับความไม่สมดุลด้วยวิธีการสุ่มเกินเทคนิค SMOTE

รูปแบบการอ้างอิง

แผ้วบาง อ., & สินสมบูรณ์ทอง ส. (2020). การปรับความไม่สมดุลของข้อมูลด้วยการจำแนก 5 วิธี. Thai Journal of Science and Technology, 9(4), 418–435. https://doi.org/10.14456/tjst.2020.46

ฉบับ

ปีที่ 9 ฉบับที่ 4 (2020): July-August

ประเภทบทความ

วิทยาศาสตร์กายภาพ

บทความที่ได้รับการตีพิมพ์เป็นลิขสิทธิ์ของคณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ข้อความที่ปรากฏในแต่ละเรื่องของวารสารเล่มนี้เป็นเพียงความเห็นส่วนตัวของผู้เขียน ไม่มีความเกี่ยวข้องกับคณะวิทยาศาสตร์และเทคโนโลยี หรือคณาจารย์ท่านอื่นในมหาวิทยาลัยธรรมศาสตร์ ผู้เขียนต้องยืนยันว่าความรับผิดชอบต่อทุกข้อความที่นำเสนอไว้ในบทความของตน หากมีข้อผิดพลาดหรือความไม่ถูกต้องใด ๆ

ประวัติผู้แต่ง

อัจฉรา แผ้วบาง

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

สายชล สินสมบูรณ์ทอง

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

เอกสารอ้างอิง

กีระชาติ สุขสุทธิ์, 2559, การจำแนกข้อมูลไม่สมดุลโดยใช้การปรับปรุงข้อมูลร่วมกับการหาค่าพารามิเตอร์ที่เหมาะสมด้วยขั้นตอนวิธีทางพันธุกรรมที่มีการเริ่มต้นใหม่, วิทยานิพนธ์ปริญญาเอก, มหาวิทยาลัยเทคโนโลยีสุรนารี, นครราชสีมา.

ธนาวุฒิ ประกอบผล, 2552, โครงข่ายประสาทเทียม, ว.มฉก.วิชาการ 12(24): 73-87.

วีระยุทธ มายุศิริ, จารี ทองคำ และวาทินี สุขมาก, 2557, การพัฒนาแบบจำลองเพื่อการพยากรณ์การรักษาซ้ำของผู้ป่วยโรคจิตเภทโดยเทคนิคเหมืองข้อมูล, ว.วิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยมหาสารคาม 10(พิเศษ): 144-153.

พัชรียา ทองพูล, พิมพ์ชนก จำเรือง และรมย์นลิน บุญฤทธิ์, 2561, การเปรียบเทียบประสิทธิภาพในการทำนายผลการปรับความไม่สมดุลของข้อมูลในการจำแนกด้วยเทคนิคการทำเหมืองข้อมูล, ปัญหาพิเศษปริญญาตรี, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง, กรุงเทพฯ.

พนิดา สมบัติมาก, ภัสสร จันทร์หอม, ศุภกร รัศมี และโอฬาร รุ่งมณีธรรมคุณ, 2560, การเปรียบเทียบประสิทธิภาพในการจำแนกกลุ่มเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล, ปัญหาพิเศษปริญญาตรี, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง, กรุงเทพฯ.

ภรันยา ปาลวิสุทธิ์, 2559, การเพิ่มประสิทธิภาพเทคนิคต้นไม้ตัดสินใจบนชุดข้อมูลที่ไม่สมดุลโดยวิธีการการสุ่มเพิ่มตัวอย่างกลุ่มน้อยสำหรับสำหรับข้อมูลการเป็นโรคอินเตอร์เน็ต, ว.เทคโนโลยีสารสนเทศ 12(1): 54-63.

สายชล สินสมบูรณ์ทอง, 2560, การทำเหมืองข้อมูล เล่ม 1 : การค้นหาความรู้จากข้อมูล, พิมพ์ครั้งที่ 2, จามจุรีโปรดักส์ จำกัด, กรุงเทพฯ.

สุรวัชร ศรีเปารยะ และสายชล สินสมบูรณ์ทอง, 2560, การเปรียบเทียบประสิทธิภาพวิธีการจำแนกกลุ่มการเป็นโรคไตเรื้อรัง : กรณีศึกษาโรงพยาบาลแห่งหนึ่งในประเทศอินเดีย, ว.วิทยาศาสตร์และเทคโนโลยี 25(5): 839-853.

สุรเดช บุญลือ, ชฎาพร สุขแจ่ม และศศิธร สนิทผล, 2554, การประยุกต์ใช้ซัพพอร์ทเว็กเตอร์แมชชีนในการทำนายการอยู่รอดของผู้ป่วยมะเร็งเต้านม, ศรีนครินทรวิโรฒวิชาการ ครั้งที่ 5, มหาวิทยาลัยศรีนครินทรวิโรฒ, กรุงเทพฯ.

เชาวนันท์ โสโท, พุธษดี ศิริแสงตระกูล และวรชัย ตั้งวรพงศ์ชัย, 2556, แบบจำลองการทำนายผลการรักษาผู้ป่วยมะเร็งปากมดลูกด้วยโครงข่ายประสาทเทียม, ว.วิจัย มข. 13(1): 39-50.

เบญจภรณ์ จันทรกองกุล, สุวรรณา รัศมีขวัญ, สุนิสา ริมเจริญ, ภูสิต กุลเกษม, กฤษณะ ชินสาร, อัณณ์นุพันธ์ รอดทุกข์, ปิยนุช วรบุตร และจรรยา อ้นปันส์, 2557, วิธีการที่เหมาะสมสำหรับการแบ่งกลุ่มข้อมูลที่ไม่สมดุลสูง, แหล่งที่มา : http://digital_collect.lib.buu.ac.th/dcms/files/2559_047.pdf, 10 พฤศจิกายน 2561.

Berson, A. and Smith, S.J., 1997, Data Warehousing, Data Mining and OLAP, McGraw-Hll, Inc., New York.

Hagan, M., Demuth, H. and Beale, M., 1996, Neural Network Design, Martin T. Hagan, Oklahoma.

Kostecki, T., Monette, G. and Wong, P., 1999, Treatment of Migraine Headaches, Available Source: https://vincentarelbundoc k.github.io/Rdataset/doc/carData/KosteckiDillon.html, February 7, 2019.

Kyle, R., Therneau, T., Rajkumar, V., Larson, D., Plevak, M. and Melton, L., 1994, Monoclonal Gammopathy, Available Source: https://vincentarelbundock.github.io/Rdataset/doc/survival/mgus.2.html, January 15, 2019.

Laurie, J., Moertel, C. and Lin, D., 1994, Chemotherapy for Stage B/C Colon Cancer, Available Source: https://vincentarelbundock.github.io/Rdataset/doc/survival/colon.html, January 15, 2019.

Murti, S. and Mahantappa, M., 2012, Using Rule Based Classifiers for the Predictive Analysis of Breast Cancer Recurrence, Available Source: https://archive.ics.uci.edu/ml/datasets/pima+indians+diabetes, February 15, 2019.

Nektarios, T.G., 2013, Weka Classify Summary, Athens University of Economics and Business, Available Source: https://www. academia.edu/5167325/Weka_Classifiers_Summary, January 10, 2019.

Rahman, M.M. and Davis, D.N., 2013, Addressing the class imbalance problem in medical datasets, Int. J. Mach. Learn. Comput. 3: 224-228.

Troyanskaya, O., 2001, Missing Value Estimation methods for DNA microarrays, Bionformatics 17: 520-525.

Article Sidebar

Main Article Content

บทคัดย่อ

Article Details

อัจฉรา แผ้วบาง

สายชล สินสมบูรณ์ทอง

เอกสารอ้างอิง