การเปรียบเทียบประสิทธิภาพวิธีการจัดกลุ่มเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล

Main Article Content

ณัฐวรรณ ผลจันทร์
ปาริฉัตร ใจมีธรรม
สายชล สินสมบูรณ์ทอง

Abstract

Our research objective was to evaluate an efficacy of different types of hierarchical and non-hierarchical clustering methods on five well-known data sets with different qualities and quantities of outliers. Each of the three types of the hierarchical clustering method adopted the different linkage criteria. i.e. single-linkage, complete-linkage, or average-linkage clustering. Each type could use any of three different metrics: Euclidean, Manhattan, or Chebyshev Distances. The non-hierarchical clustering method performed k-means clustering analysis employing one of two metrics: Euclidean or Manhattan distances. All data sets were pre-processed with WEKA software and their outliers detected with SPSS software. The five data sets were a heart disease data set (with 1.39 % outliers), a breast cancer (2.28 %), a cardiovascular disease (3.43 %), a diabetes (4.02 %), and an insurance claim (5.53 %) data set by SPSS software for outlier detection. The two clustering methods were run on the five data sets, and their clustering accuracy values were evaluated. A type of hierarchical and non-hierarchical clustering methods was chosen as the most efficacy for a particular data set type for that respective method according to its clustering accuracy. For hierarchical clustering method, the most efficacy clustering type for cardiovascular disease, diabetes, and insurance claim data sets was the single-linkage clustering type; the most efficacy type for heart disease and breast cancer data sets was the average-linkage clustering type; the most efficacy metric for heart disease, cardiovascular disease, and diabetes data sets was Manhattan distance; the most efficacy metric for breast cancer data set was Euclidean distance; the most efficacy metric for insurance claim data set was Chebyshev distance. For non-hierarchical clustering method performed k-means clustering analysis, the most efficacy metric for breast cancer, cardiovascular disease, and insurance claim data sets was Euclidean distance; the most efficacy metric for heart disease and diabetes data sets was Manhattan distance.

Downloads

Download data is not yet available.

Article Details

Section
วิทยาศาสตร์กายภาพ
Author Biographies

ณัฐวรรณ ผลจันทร์

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

ปาริฉัตร ใจมีธรรม

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

สายชล สินสมบูรณ์ทอง

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

References

กัลยา วานิชย์บัญชา, 2544, การวิเคราะห์สถิติ : สถิติเพื่อการตัดสินใจ, บริษัทธรรมสาร, กรุงเทพฯ.
จันทร์จิรา พิลาแดง, 2558, การจัดกลุ่มแบบสองด้านโดยขั้นตอนวิธีเชิงพันธุกรรมเพื่อแบ่งกลุ่มระดับความเข้มแข็งของครอบครัวไทย, วิทยานิพนธ์ปริญญาโท, มหาวิทยาลัยธรรมศาสตร์, ปทุมธานี
จิรวรรณ ไพบูลย์วรชาติ และนัท กุลวานิช, 2557, การเปรียบเทียบวิธีการจัดกลุ่มสําหรับข้อมูลที่มีการแจกแจงปกติแบบผสม, น. 311-326, การประชุมสัมมนาทางวิชาการ มทร.ตะวันออก มรภ.กลุ่มศรีอยุธยา และราชนครินทร์วิชาการและวิจัย, สถาบันวิจัยและพัฒนา มหาวิทยาลัยเทคโนโลยีราชมงคลตะวันออก, ชลบุรี.
ธรา อั่งสกุล และจิติมนต์ อั่งสกุล, 2557, การพัฒนาระบบส่วนบุคคลสำหรับแนะนำสถานที่ท่องเที่ยวในประเทศไทยเพื่อสร้างแรงจูงใจให้กับนักท่องเที่ยวต่างชาติ, สาขาวิชาเทคโนโลยีสารสนเทศ ภาควิชาเทคโนโลยีสังคม มหาวิทยาลัยเทคโนโลยีสุรนารี, นครราชสีมา.
พนิดา สมบัติมาก, ภัสสร จันทร์หอม, ศุภกร รัศมี และโอฬาร รุ่งมณีธรรมคุณ, 2560, การเปรียบเทียบประสิทธิภาพในการจำแนกกลุ่มเมื่อข้อมูลมีค่านอกเกณฑ์ในการทำเหมืองข้อมูล, ปัญหาพิเศษปริญญาตรี, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง, กรุงเทพฯ.
วีระยุทธ พิมพาภรณ์ และพยุง มีสัจ, 2557, การเปรียบเทียบประสิทธิภาพการจัดกลุ่มข้อมูล โดยวิธีการเลือกลักษณะสำคัญแบบพลวัตเพื่อเพิ่มประสิทธิภาพของอัลกอริทึมการจัดกลุ่มบนปริภูมิย่อย, ว.เทคโนโลยีสารสนเทศ 10(2): 43-51.
สายชล สินสมบูรณ์ทอง, 2560, การทำเหมืองข้อมูล, บริษัทจามจุรีโปรดักท์, กรุงเทพฯ.
อุมาพร ยกกำพล, อัชฌาณัท รัตนเลิศนุสรณ์ และอุไรวรรณ เจริญกีรติกุล, 2561, การเปรียบ เทียบประสิทธิภาพของการจัดกลุ่มข้อมูลวิธีกำรแบบลำดับขั้นและวิธีการเคมีนสำหรับข้อมูลผสมเชิงกลุ่มกับเชิงตัวเลข, น. 1-10, การประชุมวิชาการสถิติประยุกต์และเทคโนโลยีสารสนเทศระดับชาติ ประจำปี พ.ศ. 2561, คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์, กรุงเทพฯ.
Arwa, A. and Heba, K., 2019, An energy-efficient gossiping protocol for wireless sensor networks using Chebyshev distance, Sci. Direct 151: 1066-1071.
Beckman, R.J. and Cook, R. D., 1983, Outlier … … …. S, J. Technometrics 25: 119-149.
Bhatt, V. Dhakar, M and Chaurasia, B.K., 2016, Filtered clustering based on local outlier factor in data mining, Database Theor. Appl. 9: 275-282.
David, L., 1988, Heart Disease Dataset, Available Source: https://www.kaggle.com/johnsmith88/heart-disease-dataset, December 12, 2019.
Eason, E., 2018, Sample Insurance Claim Prediction Dataset, Available Source: https://www.kaggle.com/easonlai/sample-insurance-claim-prediction-dataset, December 17, 2019.
Frederic, R. and Serge, G., 2019, A hierarchical clustering algorithm and an improvement of the single linkage criterion to deal with noise, Expert Syst. Appl. 128: 96-108.
Galit, S., Nitin, R.N. and Peter, C.B., 2007, Data Mining for Business Intelligence, John Wiley and Sons, New Jersey.
Harry, C., 2017, Diabetes Dataset, Available Source: https://www.kaggle.com/fmendes /diabetes-from-dat263x-lab01Diabetes from DAT263x Lab01 โรคเบาหวานจาก DAT263x Lab01, December 24, 2019.
Hawkins, D.M., 1980, Identification of Outliers, Springer Science and Business Media, Berlin.
Jiawei, H., Michline, K. and Jian, P., 2006, Data Mining Concepts and Techniques, Elsevier, Waltham.
Johnson, R.A. and Wichern, D.W., 2007, Applied Multivariate Statistical Analysis, Pearson Prentice Hall, New Jersey.
Merishna, S.S., 2018, Breast Cancer Prediction Dataset, Available Source: https://www.kaggle.com/merishnasuwal/breast-cancer-prediction-dataset, November 27, 2019.
Svetlana, U., 2019, Cardiovascular Disease Dataset, Available Source: https://www. kaggle. com/sulianova/cardiovascular-disease-dataset/version/1, November 20, 2019.