การเปรียบเทียบประสิทธิภาพในการจำแนกเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล
Main Article Content
บทคัดย่อ
บทคัดย่อ
งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพในการจำแนก 5 วิธี คือ วิธีนาอีฟเบส์ วิธีเพื่อนบ้านใกล้สุด k ตัว วิธีต้นไม้ตัดสินใจ วิธีโครงข่ายประสาทเทียม และวิธีซัพพอร์ตเวกเตอร์แมชชีน โดยพิจารณาจากค่าความถูกต้อง ค่าคลาดเคลื่อนกำลังสองเฉลี่ยและค่าส่วนเบี่ยงเบนสัมบูรณ์เฉลี่ย และเพื่อเปรียบเทียบวิธีการสุ่มตัวอย่างระหว่างโปรแกรม SPSS และ WEKA โดยแบ่งข้อมูลเป็นชุดข้อมูลเรียนรู้ ชุดข้อมูลตรวจสอบความถูกต้อง และชุดข้อมูลทดสอบ ในอัตราส่วน 70, 20 และ 10 ตามลำดับ สำหรับการค้นคว้าและศึกษาค่านอกเกณฑ์ได้ใช้ข้อมูลมีข้อมูล 3 ชุด คือ โรคมะเร็งเต้านมของรัฐวิสคอนซิน เป็นชุดข้อมูลที่มีค่านอกเกณฑ์อยู่ในระดับต่ำ โรคเบาหวานของชาวพิม่า ประเทศอินเดีย เป็นชุดข้อมูลที่มีค่านอกเกณฑ์อยู่ในระดับปานกลาง และการชำระเงินด้วยบัตรเครดิตของลูกค้า เป็นชุดข้อมูลที่มีค่านอกเกณฑ์อยู่ในระดับสูง โดยใช้เครื่องมือ Highlight Exceptions ในการตรวจจับค่านอกเกณฑ์ จากการเปรียบเทียบข้อมูลโรคมะเร็งเต้านมของรัฐวิสคอนซิน วิธีที่มีประสิทธิภาพสูงสุด คือ วิธีโครงข่ายประสาทเทียม โดยการสุ่มของโปรแกรม SPSS โรคเบาหวานของชาวพิม่า ประเทศอินเดีย วิธีที่มีประสิทธิภาพสูงสุด คือ วิธีเพื่อนบ้านใกล้สุด k ตัว โดยการสุ่มของโปรแกรม SPSS และ WEKA และการชำระเงินด้วยบัตรเครดิตของลูกค้า วิธีที่มีประสิทธิภาพสูงสุด คือ วิธีเพื่อนบ้านใกล้สุด k ตัว โดยการสุ่มของโปรแกรม SPSS และ WEKA ชุดข้อมูลที่มีค่านอกเกณฑ์อยู่ในระดับปานกลางและสูงให้ผลการจำแนกที่เหมือนกัน ซึ่งแตกต่างจากชุดข้อมูลที่มีค่านอกเกณฑ์ในระดับที่ต่ำ
คำสำคัญ : ค่านอกเกณฑ์; วิธีนาอีฟเบส์; วิธีเพื่อนบ้านใกล้สุด k ตัว; วิธีต้นไม้ตัดสินใจ; วิธีโครงข่ายประสาทเทียม; วิธีซัพพอร์ตเวกเตอร์แมชชีน
Article Details
เอกสารอ้างอิง
[2] นิเวศ จิระวิชิตชัย, 2553, การค้นหาเทคนิคเหมืองข้อมูลเพื่อสร้างโมเดลการวิเคราะห์โรคอัตโนมัติ, มหาวิทยาลัยราชภัฏสวนสุนันทา, กรุงเทพฯ.
[3] Sriwiboon, N., 2016, A comparative efficiency of data mining algorithms for analysis of factors affecting the cancer, SNRU J. Sci. Technol. 8: 344-352.
[4] Priya, R. and Aruna, P., 2012, SVM and neural network based diagnosis of diabetic retinopathy, Int. J. Comp. Appl. 41: 6-12.
[5] กิตติพล วิแสง, สิรภัทร เชี่ยวชาญวัฒนา และคำรณ สุนัติ, 2552, การวิเคราะห์ปัจจัยเสี่ยงของโรคเบาหวาน, การประชุมวิชาการแห่งชาติทาง ด้านคอมพิวเตอร์และเทคโนโลยีสารสนเทศ ครั้งที่ 5, มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ, กรุงเทพฯ.
[6] เดช ธรรมศิริ, วาทินี นุ้ยเพียร, ภัทราวุฒิ แสงศิริ, ภรัณยา อำมฤครัตน์, ณรงค์ โพธิ และพยุง มีสัจ, 2552, การให้คะแนนสินเชื่อโดยวิธีการทำเหมืองข้อมูลด้วยเทคนิคซับพอร์ตเวกเตอร์แมชชีนรวมทั้งการเลือกใช้ลักษณะที่เหมาะสมร่วมกับการหาค่าพารามิเตอร์ที่เหมาะสมด้วยวิธีค้นหาแบบกริช, การประชุมวิชาการระดับชาติด้านคอมพิวเตอร์และเทคโนโลยีสารสนเทศ ครั้งที่ 5, มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ, กรุงเทพฯ.
[7] ทิพย์ธิดา วงศ์พิพันธ์, 2555, การใช้เหมืองข้อมูลช่วยในการตัดสินใจการให้สินเชื่อ, วิทยานิพนธ์ปริญญาโท, มหาวิทยาลัยธุรกิจบัณฑิตย์, กรุงเทพฯ.
[8] วรรณสิริ ธุระชน, วรพจน์ สุเมธาวัฒนพงศ์ และณัฐวิภา ส่งสุข, 2557, ระบบการจำแนกพันธุ์ยางพาราโดยใช้ตัวจำแนกนาอีฟเบย์, สาขาวิชาวิทยาการคอมพิวเตอร์และเทคโนโลยีสารสนเทศ คณะวิทยาศาสตร์ มหาวิทยาลัยราชภัฏอุดรธานี, อุดรธานี.
[9] Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., Tibshirani, R., Botstein, D. and Altman, R.B., 2001, Missing values estimation methods for DNA microarrays, Bioinformatics 17: 520-525.
[10] รุจิรา ธรรมสมบัติ, 2554, ระบบสนับสนุนการตัดสินใจในการเลือกใช้แพคเกจอินเทอร์เน็ตมือถือโดยใช้ต้นไม้ตัดสินใจ, สาขาคอมพิวเตอร์ธุรกิจ คณะบริหารธุรกิจ วิทยาลัยราชพฤกษ์, กรุงเทพฯ.
[11] วาทินี นุ้ยเพียร, พยุง มีสัจ และเดช ธรรมศิริ, 2553, การเปรียบเทียบประสิทธิภาพและวิเคราะห์การจำแนกข้อมูลด้วยโครงข่ายประสาทเทียม ซัพพอร์ตเวกเตอร์แมชชีน นาอีฟเบย์ และแครเนียรเรสต์เนเบอร์, การประชุมวิชาการระดับชาติด้านคอมพิวเตอร์และเทคโนโลยีสารสนเทศ ครั้งที่ 5, มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ, กรุงเทพฯ.
[12] จิรา แก้วสุวรรณ์, 2549, การตรวจจับและการแก้ไขการวางตัวของภาพโดยใช้ซัพพอร์ตเวกเตอร์แมชชีน, วิทยานิพนธ์ปริญญาโท, มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ, กรุงเทพฯ.
[13] สายชล สินสมบูรณ์ทอง, 2558, การทำเหมืองข้อมูล Data Mining, จามจุรี โปรดัก (จำกัด), กรุงเทพฯ.