การเปรียบเทียบประสิทธิภาพการทำนายผลการจำแนกกรณีข้อมูลสูญหายด้วยเทคนิคการทำเหมืองข้อมูล

Main Article Content

จิตกานต์ จันทราช
มนทิราลัย ชัยมงคล
รัตนชัย แซ่โง้ว
สายทิพย์ พลอยสัมฤทธิ์
สายชล สินสมบูรณ์ทอง

Abstract

The objective of this research was to compare the efficiencies of four classification methods: K-nearest neighbor, decision tree, artificial neural network and support vector machine, on three datasets with some missing data. The tested datasets, i.e. a dataset of incidents of liver disease in Andhra Pradesh, India, a dataset of annual incomes and expenditures of Filipino families, and a dataset of issued and non-issued credit cards by a bank data points were constructed to replace the missing data by five replacement methods: series mean, mean of nearby points, median of nearby points, linear interpolation and linear trend at a point, offered in SPSS software program. The metrics that indicated the efficiency of a classification method were the prediction accuracy and the mean squared error of classification. Each dataset was divided into three subsets: a learning set, a validation set and a test set, at a ratio of 70 : 20 : 10. For the classification of the dataset of incidents of liver disease in Andhra Pradesh, it had missing data 1.89 percentages and had the least amount of missing data. The most accurate outcomes were from the highest mean of precision for the outcomes and the lowest mean of mean squared error were from the artificial neural network method with missing data replaced by the mean of nearby points method. For the classification of the dataset of annual incomes and expenses of Filipino families, it had missing data 4.21 percentages and had a moderate amount of missing data. The most accurate outcomes were from the artificial neural network method with missing data replaced by the linear interpolation method. For the classification of the dataset of issued and non-issued credit cards by a bank, it had missing data 9.72 percentages and had the highest amount of missing data. The most accurate outcomes were from the artificial neural network method with missing data replaced by the series mean method.

Article Details

How to Cite
จันทราช จ., ชัยมงคล ม., แซ่โง้ว ร., พลอยสัมฤทธิ์ ส., & สินสมบูรณ์ทอง ส. (2019). การเปรียบเทียบประสิทธิภาพการทำนายผลการจำแนกกรณีข้อมูลสูญหายด้วยเทคนิคการทำเหมืองข้อมูล. Thai Journal of Science and Technology, 9(1), 1–15. https://doi.org/10.14456/tjst.2020.2
Section
วิทยาศาสตร์กายภาพ
Author Biographies

จิตกานต์ จันทราช

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

มนทิราลัย ชัยมงคล

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

รัตนชัย แซ่โง้ว

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

สายทิพย์ พลอยสัมฤทธิ์

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

สายชล สินสมบูรณ์ทอง

ภาควิชาสถิติ คณะวิทยาศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง ถนนฉลองกรุง เขตลาดกระบัง กรุงเทพมหานคร 10520

References

ฐณัฐ วงศ์สายเชื้อ, 2559, Replace Missing Value – การแทนค่าสูญหายในโปรแกรม SPSS, แหล่งที่มา : https://www.youtube.com/watch?v=WzaeJ_HAqtk, 25 ตุลาคม 2561.
ณัฐภัทร แก้วรัตนภัทร์, ปรีดาวรรณ เกษมธีการุณ และชนินทร์ มโนชญากร, 2555, การเปรียบเทียบประสิทธิภาพเทคนิคเหมืองข้อมูลเพื่อแมนค่าสูญหาย, น. 561-567, การประชุมวิชาการระดับประเทศด้านคอมพิวเตอร์และเทคโนโลยีสารสนเทศ ครั้งที่ 8, สาขาวิชาการจัดการสารสนเทศ มหาวิทยาลัยราชภัฏสวนสุนันทา, กรุงเทพฯ.
นรุตม์ บุตรพลอย, 2553, การประยุกต์ Soft Computing และ k-Nearest Neighbor เพื่อใช้ประมาณค่าสูญหายของข้อมูล, น. 25-29, การประชุมวิชาการระดับประเทศด้านเทคโนโลยีสารสนเทศ ครั้งที่ 3, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง, กรุงเทพฯ.
นิรนาม, ขั้นตอนวิธีการค้นหาเพื่อนบ้านใกล้สุด k ตัว, 2561, แหล่งที่มา : https://th.wikipedia.org/wiki/, 11 ตุลาคม 2561.
พรพล ธรรมรงค์รัตน์, ลัดดา ปรีชาวีรกุล และวิภาดา เวทย์ประสิทธิ์, 2553, การจำแนกประเภทเว็บเพจโดยใช้ค่าความถี่เอกสารและซัพพอร์ตเวกเตอร์แมชชีน, น. 55-61, การประชุมวิชาการวิทยาการคอมพิวเตอร์และวิศวกรรมคอมพิวเตอร์แห่งชาติ ครั้งที่ 12, มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าธนบุรี, กรุงเทพฯ.
ภัททิรา ล้อมเล็ก และวิทยา ยงเจริญ, 2557, การประยุกต์ใช้โครงข่ายประสาทเทียมสำหรับการทำนายสมรรถนะเครื่องทำความเย็นแบบดูดกลืน, ว.วิจัยพลังงาน 11(2): 67-78.
รุจิรา ธรรมสมบัติ, 2554, ระบบสนับสนุนการตัดสินใจในการเลือกใช้แพคเกจอินเตอร์เน็ตมือถือโดยใช้ต้นไม้ตัดสินใจ, รายงานวิจัย, สาขาคอมพิวเตอร์ธุรกิจ คณะบริหารธุรกิจ วิทยาลัยราชพฤกษ์, กรุงเทพฯ.
วราฤทธิ์ พานิชกิจโกศลกุล, 2552, การจำลองแบบมอนติคาร์โลสำหรับประมาณค่าความแปรปรวนของการแจกแจงอินเวอร์เกาส์เซีอนเมื่อข้อมูลมีค่าสูญหาย, ว.การวิจัยกาสะลองคำ 3(1): 14-23.
วริษฐา กณิกนันต์ และอนุภาพ สมบูรณ์สวัสดี, 2556, การเปรียบเทียบวิธีการประมาณสำหรับการวิเคราะห์การถดถอยเชิงเส้นพหุเมื่อตัวแปรตามและตัวแปรอิสระมีการสูญหายแบบนอนอิกนอร์เรเบิล, น. 43-49, การประชุมหาดใหญ่วิชาการ ครั้งที่ 4 เรื่อง การวิจัยเพื่อพัฒนาสังคมไทย, มหาวิทยาลัยหาดใหญ่, สงขลา.
วุฒิ สุขเจริญ, 2558, การดำเนินการกับข้อมูลขาดหาย, ว.ร่มพฤกษ์ มหาวิทยาลัยเกริก 33(2): 11-32.
สายชล สินสมบูรณ์ทอง, 2560, การทำเหมืองข้อมูล เล่ม 1 การค้นหาความรู้จากข้อมูล, พิมพ์ครั้งที่ 2, จามจุรีโปรดักส์, กรุงเทพฯ.
สุรวัชร ศรีเปารยะ และสายชล สินสมบูรณ์ทอง, 2560, การเปรียบเทียบประสิทธิภาพวิธีการจำแนกกลุ่มการเป็นโรคไตเรื้อรัง : กรณีศึกษาโรงพยาบาลแห่งหนึ่งในประเทศอินเดีย, ว.วิทยาศาสตร์และเทคโนโลยี 25(5): 839-853.
Berson, A. and Smith, S.J., 2001, Data Warehousing, Data Mining and OLAP, McGraw-Hill, Boston.
Blomberg, L.C. and Ruiz, D.D.A., 2013, Evaluating the Influence of Missing Data on Classification Algorithms in Data Mining Application, Pomtificia Universidade Catolica do Rio Grande do Sul.
Hartini, E., 2017, Classification of missing values handling method during data mining, Sigma Epsilon 21(2): 49-60.
Kaiser, J., 2014, Dealing with missing values in data, J. Syst. Integr. 5(1): 42-51.
Mitchell, T.M., 1997, Machine Learning, McGraw-Hill, New York.
Portuguese Banking Institution, 2012, Bank Marketing Data Set, Available Source : https://archive.ics.uci.edu/ml/datasets/Bank+Marketing, November 12, 2018.
Rahman, S., Waqas, I., Imran, M.J. and Rehan, A., 2016, Treatment of missing values in data mining, J. Comp. Sci. Syst. Biol. 9(2): 51-53.
Ramana, B.V, 2012, Liver Disease of Andhra Pradesh India Data Set, Available Source: https://archive.ics.uci.edu/ml/datasets/ILPD+(Indian+Liver+Patient+Dataset), October 25, 2018.
Shams, R., 2014, Creating Training, Validation and Test Sets (Data Preprocessing), Available Source: https://www.youtube.com/watch?v=uiDFa7iY9yo, November 13, 2018.
The Philippine Statistics Authority (PSA), 2013, Filipino Family Income and Expenditure, Available Source: https://www.kaggle.com/grosvenpaul/family-income-and-expenditure/data, October 28, 2018.