การเปรียบเทียบประสิทธิภาพในการทำนายผลค่านอกเกณฑ์ด้วยการจำแนก 6 วิธี

Main Article Content

สายชล สินสมบูรณ์ทอง

Abstract

In this study, an efficiency comparison in prediction of outliers 6 classifications were determined. The classification methods were compared the followings: (1) k-nearest neighbor method, (2) artificial neural network method, (3) rule-based method, (4) binary logistic regression method, (5) voted perceptron method, and (6) stochastic gradient descent method. The purposes were to compare the efficiency of 6 classifications, and to compare SPSS, MINITAB and WEKA programs. The following efficiency comparison values were employed, i.e. accuracy, mean square error (MSE), and mean absolute error (MAE). For the low outliers data set (0-3 percentage), banknote authentication, the best classification method was the stochastic gradient descent method in combination with the WEKA sampling method. The middle outliers data set (3-6 percentage), Facebook metrics, the best classification method was the k nearest neighbor method in combination with the WEKA sampling method. For the high outliers data set (6-10 percentage), contraceptive method choice, the best classification method was the artificial neural network method in combination with the WEKA sampling method.

Downloads

Download data is not yet available.

Article Details

Section
วิทยาศาสตร์กายภาพ
Author Biography

สายชล สินสมบูรณ์ทอง

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

References

กิตติพล วิแสง, สิรภัทร เชี่ยวชาญวัฒนา และคำรณ สุนัติ, 2552, การวิเคราะห์ปัจจัยเสี่ยงของโรคเบาหวาน, 8 น., ใน รายงานการประชุมวิชาการระดับชาติด้านคอมพิวเตอร์และเทคโนโลยีสารสนเทศ (NCCIT) ครั้งที่ 5, มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ, กรุงเทพฯ.
กัลยา วานิชย์บัญชา, 2552, การวิเคราะห์ข้อมูลหลายตัวแปร, บริษัทธรรมสาร จำกัด, กรุงเทพฯ.
ณัฐวุฒิ ศรีวิบูลย์, การเปรียบเทียบประสิทธิภาพอัลกอริทึมเหมืองข้อมูลเพื่อวิเคราะห์ปัจจัยที่ส่งผลต่อการเกิดโรคมะเร็ง, แหล่งที่มา : http://snrujst.snru.ac.th/th/articles-in-press, 25 ตุลาคม 2560.
ทิพย์ธิดา วงศ์พิพันธ์, 2555, การใช้เหมืองข้อมูลช่วยในการตัดสินใจการให้สินเชื่อ, วิทยานิพนธ์ปริญญาโท, มหาวิทยาลัยธุรกิจบัณฑิตย์, กรุงเทพฯ.
ธนาวุฒิ ประกอบผล, 2552, โครงข่ายประสาทเทียม, ว.มฉก.วิชาการ 12(24): 73-87.
นิเวศ จิระวิชิตชัย, การค้นหาเทคนิคเหมืองข้อมูลเพื่อสร้างโมเดลการวิเคราะห์โรคอัตโนมัติ, แหล่งที่มา : http://www.ssruir.ssru.ac.th/bit stream/ssruir/377/1/080-53.pdf, 25 ตุลาคม 2560.
พนิดา สมบัติมาก, ภัสสร จันทร์หอม, ศุภกร รัศมี และโอฬาร รุ่งมณีธรรมคุณ, 2560, การเปรียบเทียบประสิทธิภาพในการจำแนกกลุ่มเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล, ปัญหาพิเศษปริญญาตรี, สถาบันเทคโนโลยีพระจอมเกล้าคุณทหารลาดกระบัง, กรุงเทพฯ.
พยูน พาณิชย์กุล, 2548, การพัฒนาระบบดาต้าไมน์นิ่งโดยใช้ Decision Tree, วิทยานิพนธ์ปริญญาโท, สถาบันเทคโนโลยีพระจอมเกล้าคุณทหารลาดกระบัง, กรุงเทพฯ.
วรพรรณ เจริญขำ, 2556, การตรวจสอบค่านอกเกณฑ์ในตัวอย่างสุ่มจากประชากรปรกติ, วิทยานิพนธ์ปริญญาโท, สถาบันบัณฑิตพัฒน บริหารศาสตร์, กรุงเทพฯ.
สายชล สินสมบูรณ์ทอง, 2560, การทำเหมืองข้อมูล เล่ม 1 : การค้นหาความรู้จากข้อมูล, พิมพ์ครั้งที่ 2, จามจุรีโปรดักส์ จำกัด, กรุงเทพฯ.
สุรวัชร ศรีเปารยะ และสายชล สินสมบูรณ์ทอง, 2560, การเปรียบเทียบประสิทธิภาพวิธีการจำแนกกลุ่มการเป็นโรคไตเรื้อรัง : กรณีศึกษาโรงพยาบาลแห่งหนึ่งในประเทศอินเดีย, ว.วิทยาศาสตร์และเทคโนโลยี 25(5): 839-853.
เดช ธรรมศิริ และพยุง มีสัจ, 2553, การจำแนกข้อมูลด้วยเทคนิคซัพพอร์ตเวกเตอร์แมชชีนโดยการปรับพารามิเตอร์และเลือกคุณลักษณะที่เหมาะสมด้วยขั้นตอนวิธีเชิงพันธุกรรม, 12 น., ใน รายงานการประชุมทางวิชาการเสนอผลงานวิจัย ระดับบัณฑิตศึกษา ครั้งที่ 11, มหาวิทยาลัยขอนแก่น, ขอนแก่น.
เดช ธรรมศิริ, วาทินี นุ้ยเพียร, ภัทราวุฒิ แสงศิริ, ภรัณยา อำมฤครัตน์, ณรงค์ โพธิ และพยุง มีสัจ, 2552, การให้คะแนนสินเชื่อโดยวิธีการทำเหมืองข้อมูลด้วยเทคนิคซับพอร์ตเวกเตอร์แมชชีนรวมทั้งการเลือกใช้ลักษณะที่เหมาะสมร่วมกับการหาค่าพารามิเตอร์ที่เหมาะสมด้วยวิธีค้นหาแบบกริช, น.11, ใน การประชุมวิชา การระดับชาติด้านคอมพิวเตอร์และเทคโนโลยีสารสนเทศ (NCCIT) ครั้งที่ 5, มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ, กรุงเทพฯ.
Berson, A. and Smith, S.J., 1997, Data Warehousing, Data Mining and OLAP, McGraw-Hll, New York.
Freund, Y. and Schapire, R.E., 1998, Large Margin Classification Using the Perceptron Algorithms, NCCLT, New York, 13 p.
Hagan, M., Demuth, H., and Beale, M., 1996, Neural Network Design, Martin T. Hagan,
Oklahoma.
LeCun, Y., Bottou, L., Orr, G. and Muller, K., Efficiency BackProp, In Neural Networks, Available Source: https://scholar.google.co.th/scholar?q=LeCun,+Y.+and+Bottou,+L.&hl=th&as_sdt=o&as_vis=1&oi=scholart#d=gs_qabs&u=%23p%3DQzVcWsIB3yQJ, January 20, 2018.
Murti, S. and Mahantappa, M., Using Rule Based Classifiers for the Predictive Analysis of Breast Cancer Recurrence, Available Source: https://archive.ics.uci.edu/ml/datasets/pima+indians+diabetes, February 1, 2018.
Nektarios, T.G., Weka Classify Summary, Athens University of Economics and Business, Available Source: https://www.academia.edu/5167325/Weka_Classifiers_Summary, January 20, 2018.
Priya, R. and Aruna, P., 2012, Support vector machine and neural network based diagnosis of diabetic retinopathy, Int. J. Comput. Appl. 41: 15-27.
Sa-ngasoongsong, A. and Chongwatpol, J., 2012, An Analysis of Diabetes Risk Factors using Data Mining Approach, Oklahoma State University, Stillwater, 11 p.
Singh, S. and Bansal, M., 2013, Improvement of intrusion detection system in data mining using neural network, Int. J. Adv. Res. Comput. Sci. Software Eng. 3: 1124-1130.
Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., Tibshirani, R., Botstein, D. and Altman, R.B., 2001, Missing value estimation methods for DNA microarrays, Bionformatics 17: 520-525.