การเปรียบเทียบประสิทธิภาพในการทำนายผลการปรับความไม่สมดุลของข้อมูลในการจำแนกด้วยเทคนิคการทำเหมืองข้อมูล
Main Article Content
บทคัดย่อ
งานวิจัยนี้มีนี้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีการปรับข้อมูลที่ไม่สมดุล 4 วิธี คือ วิธีการสุ่มเกิน วิธีการสุ่มเกินโดยเทคนิค SMOTE วิธีการสุ่มลด และวิธีการสุ่มผสมผสาน โดยวิธีการจำแนก 4 วิธี คือ วิธีเพื่อนบ้านใกล้สุด k ตัว วิธีต้นไม้ตัดสินใจ วิธีโครงข่ายประสาทเทียม และวิธีซัพพอร์ตเวกเตอร์แมชชีน ว่าวิธีใดมีประสิทธิภาพในการจำแนกดีที่สุด โดยพิจารณาจากค่าความถูกต้อง ค่าความไว ค่าความจำเพาะ และค่าคลาดเคลื่อนกำสองเฉลี่ย โดยแบ่งข้อมูลในอัตราส่วน 70, 20 และ 10 ตามลำดับ ข้อมูลส่วนที่ 1 ข้อมูลเรียนรู้ นำไปสร้างตัวแบบร้อยละ 70 ข้อมูลส่วนที่ 2 ข้อมูลตรวจสอบความถูกต้อง นำข้อมูลไปประเมินความผิดพลาดของตัวแบบร้อยละ 20 และข้อมูลส่วนที่ 3 ข้อมูลทดสอบ นำไปทดสอบตัวแบบร้อยละ 10 โดยการกำหนดตัวสร้างเลขสุ่มเทียมเป็น 10, 20, 30, 40 และ 50 มีข้อมูลที่ไม่สมดุลในการศึกษา 3 ชุด คือ ชุดข้อมูลการรับรู้ทางหูของเด็กที่มีภาวะน้ำคั่งในหูชั้นกลางหรือหูน้ำหนวก ชุดข้อมูลยอดคงเหลือในบัตรเครดิตของลูกค้า และชุดข้อมูลคุณภาพไวน์แดง โดยใช้โปรแกรม WEKA เมื่อเปรียบเทียบข้อมูลการรับรู้ทางหูของเด็กที่มีภาวะน้ำคั่งในหูชั้นกลางหรือหูน้ำหนวก วิธีที่มีประสิทธิภาพสูงสุดคือวิธีซัพพอร์ตเวกเตอร์แมชชีนโดยการปรับความไม่สมดุลด้วยวิธีการสุ่มเกินเทคนิค SMOTE ชุดข้อมูลยอดคงเหลือในบัตรเครดิตของลูกค้า วิธีที่มีประสิทธิภาพสูงสุด คือ วิธีเพื่อนบ้านใกล้สุด k ตัว โดยการปรับความไม่สมดุลด้วยวิธีการสุ่มเกินเทคนิค SMOTE ส่วนชุดข้อมูลคุณภาพไวน์แดง วิธีที่มีประสิทธิภาพสูงสุดคือวิธีโครงข่ายประสาทเทียมโดยการปรับความไม่สมดุลด้วยวิธีการสุ่มเกิน
คำสำคัญ : ความไม่สมดุลของข้อมูล; วิธีเพื่อนบ้านใกล้สุด k ตัว; วิธีต้นไม้ตัดสินใจ; วิธีโครงข่ายประสาทเทียม; วิธีซัพพอร์ตเวกเตอร์แมชชีน
Article Details
บทความที่ได้รับการตีพิมพ์เป็นลิขสิทธิ์ของคณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ข้อความที่ปรากฏในแต่ละเรื่องของวารสารเล่มนี้เป็นเพียงความเห็นส่วนตัวของผู้เขียน ไม่มีความเกี่ยวข้องกับคณะวิทยาศาสตร์และเทคโนโลยี หรือคณาจารย์ท่านอื่นในมหาวิทยาลัยธรรมศาสตร์ ผู้เขียนต้องยืนยันว่าความรับผิดชอบต่อทุกข้อความที่นำเสนอไว้ในบทความของตน หากมีข้อผิดพลาดหรือความไม่ถูกต้องใด ๆ
เอกสารอ้างอิง
เชาวนันท์ โสโท, พุธษดี ศิริแสงตระกูล และวรชัย ตั้งวรพงศ์ชัย, 2556, แบบจำลองการทำนายผลการรักษาผู้ป่วยมะเร็งปากมดลูกด้วยโครงข่ายประสาทเทียม, ว.วิจัยมหาวิทยาลัย ขอนแก่น 13(1): 39-50.
เบญจภรณ์ จันทรกองกุล, สุวรรณา รัศมีขวัญ, สุนิสา ริมเจริญ, ภูสิต กุลเกษม, กฤษณะ ชินสาร, อัณณ์นุพันธ์ รอดทุกข์, ปิยนุช วรบุตร และจรรยา อ้นปันส์, วิธีการที่เหมาะสมสำหรับการแบ่งกลุ่มข้อมูลที่ไม่สมดุลสูง, แหล่งที่มา : http://digital_collect.lib.buu.ac.th/dcms/files/2559_047.pdf, 24 มิถุนายน 2561.
พนิดา สมบัติมาก, ภัสสร จันทร์หอม, ศุภกร รัศมี และโอฬาร รุ่งมณีธรรมคุณ, 2560, การเปรียบ เทียบประสิทธิภาพในการจำแนกกลุ่มเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล, ปัญหาพิเศษปริญญาตรี, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง, กรุงเทพฯ.
ภรันยา ปาลวิสุทธิ์, 2559, การเพิ่มประสิทธิภาพเทคนิคต้นไม้ตัดสินใจบนชุดข้อมูลที่ไม่สมดุลโดยวิธีการการสุ่มเพิ่มตัวอย่างกลุ่มน้อยสำหรับสำหรับข้อมูลการเป็นโรคอินเตอร์เน็ต, ว.เทคโนโลยีสารสนเทศ 12(1): 54-63.
วีระยุทธ มายุศิริ, จารี ทองคำ และวาทินี สุขมาก, 2557, การพัฒนาแบบจำลองเพื่อการพยากรณ์การรักษาซ้ำของผู้ป่วยโรคจิตเภทโดยเทคนิคเหมืองข้อมูล, ว.วิทยาศาสตร์และเทคโนโลยี 10(1): 144-153.
สุรวัชร ศรีเปารยะ และสายชล สินสมบูรณ์ทอง, 2560, การเปรียบเทียบประสิทธิภาพวิธีการจำแนกกลุ่มการเป็นโรคไตเรื้อรัง : กรณีศึกษาโรงพยาบาลแห่งหนึ่งในประเทศอินเดีย, ว.วิทยาศาสตร์และเทคโนโลยี 25(5): 839-853.
สายชล สินสมบูรณ์ทอง, 2560, การทำเหมืองข้อมูล เล่ม 1 : การค้นหาความรู้จากข้อมูล, จามจุรี โปรดักส์, กรุงเทพฯ.
Cortez, P., 2009, Wine Quality Data Set, Available Source: http://archive.ics.uci.edu/m0l/datasets/Wine+Quality, June 24, 2018.
He, H. and Ghodsi, A. 2010, Rare class classification by support vector machine, pp. 548-551, In 20th International Conference on Pattern Recognition.
Hogan, S., 2013, Tests of Auditory Perception in Children with OME, Available Source: https://vincentarebundock.gitub.io/Rdatasets/doc/MASS/OME.html, June 24, 2018.
James, G., Witten, D., Hastie, T. and Tibshirani, R., 2013, Credit Card Balance Data, Available Source: https://vincentarelbundoc k.github.io/Rdataset/doc/ISLR/Credit.html, June 24, 2018.
McCarthy, K., Zabar, B. and Weiss, G., 2005, Cost-sensitive learning vs. sampling: Which is best for handling unbalanced classes with unequal error costs, Proceedings of the 2007 International Conference on Data 7(1): 35-41.