การเปรียบเทียบประสิทธิภาพวิธีการจัดกลุ่มเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล
Main Article Content
บทคัดย่อ
งานวิจัยนี้มีนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพวิธีการจัดกลุ่มแบบเป็นขั้นตอนและวิธีการจัดกลุ่มแบบไม่เป็นขั้นตอนของข้อมูลที่มีทั้งข้อมูลเชิงปริมาณและเชิงคุณภาพที่มีค่านอกเกณฑ์ 5 ชุด โดยวิธีการจัดกลุ่มแบบเป็นขั้นตอนใช้การจัดกลุ่มเชื่อมโยงแบบเดี่ยว การจัดกลุ่มเชื่อมโยงแบบสมบูรณ์ และการจัดกลุ่มเชื่อมโยงแบบเฉลี่ย และใช้วิธีวัดระยะห่าง 3 แบบ คือ ระยะห่างยูคลิเดียน ระยะห่างแมนฮัทตัน และระยะห่างเชบีเชฟ วิธีการจัดกลุ่มแบบไม่เป็นขั้นตอนใช้วิธีการจัดกลุ่มแบบเฉลี่ย k กลุ่ม และใช้วิธีวัดระยะห่าง 2 แบบ คือ ระยะห่างยูคลิเดียนและระยะห่างแมนฮัทตัน พิจารณาจากค่าความแม่นโดยใช้โปรแกรม WEKA สำหรับการค้นคว้าและศึกษาค่านอกเกณฑ์ได้ใช้ข้อมูลมีข้อมูล 5 ชุด คือ โรคหัวใจเป็นชุดข้อมูลที่มีค่านอกเกณฑ์ร้อยละ 1.39 มะเร็งเต้านมเป็นชุดข้อมูลที่มีค่านอกเกณฑ์ร้อยละ 2.28 โรคหัวใจและหลอดเลือดเป็นชุดข้อมูลที่มีค่านอกเกณฑ์ร้อยละ 3.43 โรคเบาหวานเป็นชุดข้อมูลที่มีค่านอกเกณฑ์ร้อยละ 4.02 และการทำประกันสุขภาพเป็นชุดข้อมูลที่มีค่านอกเกณฑ์ร้อยละ 5.53 โดยใช้โปรแกรม SPSS ในการตรวจหาค่านอกเกณฑ์ ผลการเปรียบเทียบวิธีการจัดกลุ่มแบบเป็นขั้นตอนชุดข้อมูลหัวใจและหลอดเลือด โรคเบาหวาน และการประกันสุขภาพ พบว่าวิธีการจัดกลุ่มเชื่อมโยงแบบเดี่ยวให้ค่าเฉลี่ยของค่าความแม่นสูงสุด ส่วนชุดข้อมูลโรคหัวใจและมะเร็งเต้านมพบว่าวิธีการจัดกลุ่มเชื่อมโยงแบบเฉลี่ยให้ค่าเฉลี่ยของค่าความแม่นสูงสุด และการศึกษาวิธีวัดระยะห่างชุดข้อมูลโรคหัวใจ โรคหัวใจและหลอดเลือด และโรคเบาหวาน พบว่าวิธีวัดระยะห่างแมนฮัทตันให้ค่าเฉลี่ยของค่าความแม่นสูงสุด ส่วนข้อมูลมะเร็งเต้านม วิธีวัดระยะห่างยูคลิเดียนให้ค่าเฉลี่ยของค่าความแม่นสูงสุด และข้อมูลการทำประกันสุขภาพ วิธีวัดระยะห่างเชบีเชฟให้ค่าเฉลี่ยของค่าความแม่นสูงสุด การเปรียบเทียบวิธีการจัดกลุ่มแบบไม่เป็นขั้นตอนโดยใช้วิธีการจัดกลุ่มแบบเฉลี่ย k กลุ่ม ชุดข้อมูลมะเร็งเต้านม โรคหัวใจและหลอดเลือด และการทำประกันสุขภาพ พบว่าวิธีวัดระยะห่างยูคลิเดียนให้ค่าความแม่นสูงสุด ส่วนข้อมูลโรคหัวใจและโรคเบาหวานวิธีวัดระยะห่างแมนฮัทตันให้ค่าเฉลี่ยของค่าความแม่นสูงสุด
Article Details
บทความที่ได้รับการตีพิมพ์เป็นลิขสิทธิ์ของคณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ข้อความที่ปรากฏในแต่ละเรื่องของวารสารเล่มนี้เป็นเพียงความเห็นส่วนตัวของผู้เขียน ไม่มีความเกี่ยวข้องกับคณะวิทยาศาสตร์และเทคโนโลยี หรือคณาจารย์ท่านอื่นในมหาวิทยาลัยธรรมศาสตร์ ผู้เขียนต้องยืนยันว่าความรับผิดชอบต่อทุกข้อความที่นำเสนอไว้ในบทความของตน หากมีข้อผิดพลาดหรือความไม่ถูกต้องใด ๆ
เอกสารอ้างอิง
กัลยา วานิชย์บัญชา, 2544, การวิเคราะห์สถิติ : สถิติเพื่อการตัดสินใจ, บริษัทธรรมสาร, กรุงเทพฯ.
จันทร์จิรา พิลาแดง, 2558, การจัดกลุ่มแบบสองด้านโดยขั้นตอนวิธีเชิงพันธุกรรมเพื่อแบ่งกลุ่มระดับความเข้มแข็งของครอบครัวไทย, วิทยานิพนธ์ปริญญาโท, มหาวิทยาลัยธรรมศาสตร์, ปทุมธานี
จิรวรรณ ไพบูลย์วรชาติ และนัท กุลวานิช, 2557, การเปรียบเทียบวิธีการจัดกลุ่มสําหรับข้อมูลที่มีการแจกแจงปกติแบบผสม, น. 311-326, การประชุมสัมมนาทางวิชาการ มทร.ตะวันออก มรภ.กลุ่มศรีอยุธยา และราชนครินทร์วิชาการและวิจัย, สถาบันวิจัยและพัฒนา มหาวิทยาลัยเทคโนโลยีราชมงคลตะวันออก, ชลบุรี.
ธรา อั่งสกุล และจิติมนต์ อั่งสกุล, 2557, การพัฒนาระบบส่วนบุคคลสำหรับแนะนำสถานที่ท่องเที่ยวในประเทศไทยเพื่อสร้างแรงจูงใจให้กับนักท่องเที่ยวต่างชาติ, สาขาวิชาเทคโนโลยีสารสนเทศ ภาควิชาเทคโนโลยีสังคม มหาวิทยาลัยเทคโนโลยีสุรนารี, นครราชสีมา.
พนิดา สมบัติมาก, ภัสสร จันทร์หอม, ศุภกร รัศมี และโอฬาร รุ่งมณีธรรมคุณ, 2560, การเปรียบเทียบประสิทธิภาพในการจำแนกกลุ่มเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล, ปัญหาพิเศษปริญญาตรี, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง, กรุงเทพฯ.
วีระยุทธ พิมพาภรณ์ และพยุง มีสัจ, 2557, การเปรียบเทียบประสิทธิภาพการจัดกลุ่มข้อมูล โดยวิธีการเลือกลักษณะสำคัญแบบพลวัตเพื่อเพิ่มประสิทธิภาพของอัลกอริทึมการจัดกลุ่มบนปริภูมิย่อย, ว.เทคโนโลยีสารสนเทศ 10(2): 43-51.
สายชล สินสมบูรณ์ทอง, 2560, การทำเหมืองข้อมูล, บริษัทจามจุรีโปรดักท์, กรุงเทพฯ.
อุมาพร ยกกำพล, อัชฌาณัท รัตนเลิศนุสรณ์ และอุไรวรรณ เจริญกีรติกุล, 2561, การเปรียบ เทียบประสิทธิภาพของการจัดกลุ่มข้อมูลวิธีกำรแบบลำดับขั้นและวิธีการเคมีนสำหรับข้อมูลผสมเชิงกลุ่มกับเชิงตัวเลข, น. 1-10, การประชุมวิชาการสถิติประยุกต์และเทคโนโลยีสารสนเทศระดับชาติ ประจำปี พ.ศ. 2561, คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์, กรุงเทพฯ.
Arwa, A. and Heba, K., 2019, An energy-efficient gossiping protocol for wireless sensor networks using Chebyshev distance, Sci. Direct 151: 1066-1071.
Beckman, R.J. and Cook, R. D., 1983, Outlier … … …. S, J. Technometrics 25: 119-149.
Bhatt, V. Dhakar, M and Chaurasia, B.K., 2016, Filtered clustering based on local outlier factor in data mining, Database Theor. Appl. 9: 275-282.
David, L., 1988, Heart Disease Dataset, Available Source: https://www.kaggle.com/johnsmith88/heart-disease-dataset, December 12, 2019.
Eason, E., 2018, Sample Insurance Claim Prediction Dataset, Available Source: https://www.kaggle.com/easonlai/sample-insurance-claim-prediction-dataset, December 17, 2019.
Frederic, R. and Serge, G., 2019, A hierarchical clustering algorithm and an improvement of the single linkage criterion to deal with noise, Expert Syst. Appl. 128: 96-108.
Galit, S., Nitin, R.N. and Peter, C.B., 2007, Data Mining for Business Intelligence, John Wiley and Sons, New Jersey.
Harry, C., 2017, Diabetes Dataset, Available Source: https://www.kaggle.com/fmendes /diabetes-from-dat263x-lab01Diabetes from DAT263x Lab01 โรคเบาหวานจาก DAT263x Lab01, December 24, 2019.
Hawkins, D.M., 1980, Identification of Outliers, Springer Science and Business Media, Berlin.
Jiawei, H., Michline, K. and Jian, P., 2006, Data Mining Concepts and Techniques, Elsevier, Waltham.
Johnson, R.A. and Wichern, D.W., 2007, Applied Multivariate Statistical Analysis, Pearson Prentice Hall, New Jersey.
Merishna, S.S., 2018, Breast Cancer Prediction Dataset, Available Source: https://www.kaggle.com/merishnasuwal/breast-cancer-prediction-dataset, November 27, 2019.
Svetlana, U., 2019, Cardiovascular Disease Dataset, Available Source: https://www. kaggle. com/sulianova/cardiovascular-disease-dataset/version/1, November 20, 2019.