การเลือกคุณลักษณะที่เหมาะสมสำหรับการแทนค่าข้อมูลสูญหายของข้อมูลอนุกรมเวลาด้วยเทคนิคเหมืองข้อมูล

ผู้แต่ง

  • กรสิริณัฐ โรจนวรรณ์ มหาวิทยาลัยนราธิวาสราชนครินทร์
  • Wiyuda Phetjirachotkul

คำสำคัญ:

การเลือกคุณลักษณะ, การแทนค่า, ข้อมูลสูญหาย, ข้อมูลอนุกรมเวลา, เทคนิคเหมืองข้อมูล

บทคัดย่อ

งานวิจัยนี้นำเสนอการเลือกคุณลักษณะที่เหมาะสม สำหรับการแทนค่าข้อมูลสูญหาย โดยใช้ข้อมูลอนุกรมเวลาของกรมชลประทานที่ 15 โครงการพระราชดำริลุ่มน้ำปากพนัง ในช่วงระยะเวลา 5 ปี จำนวน 12 ตัวแปร โดยใช้วิธีการเลือกคุณลักษณะโดยการโหวตจาก 5 วิธี ได้แก่ 1) Principal Components Analysis (PCA), 2) Correlation-based Feature Selection (CFS), 3) ReliefF algorithm (ReliefF), 4) Gain Ratio (GR) และ 5) Information Gain (IG) ผู้วิจัยประยุกต์ใช้โครงข่ายประสาทเทียมเพื่อแทนค่าข้อมูลสูญหาย จากการจำลองการสูญหายของข้อมูล 5, 10, 15, 20, 25 และ 30% ซึ่งผลการคัดเลือกตัวแปรที่เหมาะสมได้จำนวน 9 ตัวแปร คือตัวแปรที่ 1 ตัวแปรที่ 2 ตัวแปรที่ 3 ตัวแปรที่ 4 ตัวแปรที่ 5 ตัวแปรที่ 6 ตัวแปรที่ 7 ตัวแปรที่ 8 และตัวแปรที่ 10 ร่วมกับโมเดลโครงข่ายประสาทเทียม (Artificial Neural Network) เพื่อสร้างโมเดลการแทนที่ค่าสูญหาย 10 รูปแบบ คือ 9-3-1, 9-5-1, 9-10-1, 9-15-1, 9-20-1, 9-25-1, 9-30-1, 9-35-1, 9-40-1 และ 9-45-1 ซึ่งหมายถึง จำนวนตัวแปรอินพุต-จำนวนนิวรอนชั้นซ่อน-จำนวนเอาต์พุต การสอนโครงข่ายประสาทเทียมใช้วิธี 10-Fold-Cross-Validation โดยมีการทำซ้ำ 10 รอบ ต่อรูปแบบ พบว่า รูปแบบที่ให้ประสิทธิภาพดีที่สุด คือ รูปแบบ 9-30-1 ให้ค่าผล MSE ต่ำสุด เท่ากับ 0.669

References

Albayrak, M., Turhan, K., & Kurt, B. (2017). A missing data imputation approach using clustering and maximum likelihood estimation. 2017 Medical Technologies National Congress (TIPTEKNO), 1–4.

Caparino, E. T., Sison, A. M., & Medina, R. P. (2018). A Modified Imputation Method to Missing Data as a Preprocessing Technique. 2018 IEEE 10th International Conference on Humanoid, Nanotechnology, Information Technology, Communication and Control, Environment and Management (HNICEM), 1–6.

Duong, T. V., & Tran, D.Q. (2015). A fusion of data mining techniques for predicting movement of mobile users. Journal of Communications and Networks, 17(6), 568–581.

Jangyodsuk, P., Seo, D. J., Elmasri, R., & Gao, J. (2015). Flood Prediction and Mining Influential Spatial Features on Future Flood with Causal Discovery. 2015 IEEE International Conference on Data Mining Workshop (ICDMW), 1462–1469.

Khairalla, M., Ning, X., & AL-Jallad, N. (2018). Modelling and optimisation of effective hybridisation model for time-series data forecasting. The Journal of Engineering, 2018(2), 117–122.

Li, L., Zhang, J., Wang, Y., & Ran, B. (2017). Multiple imputation for incomplete traffic accident data using chained equations. 2017 IEEE 20th International Conference on Intelligent Transportation Systems (ITSC), 1–5.

Li, X., Li, G., & Fishbune, R. (2016). A Novel Missing-Rate-Oriented Selective Algorithm for Handling Missing Data by Minimizing Imputation. 2016 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery (CyberC), 234–237.

Liu, Z., Zhang, W., Quek, T. Q. S., & Lin, S. (2017). Deep fusion of heterogeneous sensor data. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 5965–5969.

Albayrak, M., Turhan, K., & Kurt, B. (2017). A missing data imputation approach using clustering and maximum likelihood estimation. 2017 Medical Technologies National Congress (TIPTEKNO), 1–4.

Caparino, E. T., Sison, A. M., & Medina, R. P. (2018). A Modified Imputation Method to Missing Data as a Preprocessing Technique. 2018 IEEE 10th International Conference on Humanoid, Nanotechnology, Information Technology, Communication and Control, Environment and Management (HNICEM), 1–6.

Duong, T. V., & Tran, D.Q. (2015). A fusion of data mining techniques for predicting movement of mobile users. Journal of Communications and Networks, 17(6), 568–581.

Jangyodsuk, P., Seo, D. J., Elmasri, R., & Gao, J. (2015). Flood Prediction and Mining Influential Spatial Features on Future Flood with Causal Discovery. 2015 IEEE International Conference on Data Mining Workshop (ICDMW), 1462–1469.

Khairalla, M., Ning, X., & AL-Jallad, N. (2018). Modelling and optimisation of effective hybridisation model for time-series data forecasting. The Journal of Engineering, 2018(2), 117–122.

Li, L., Zhang, J., Wang, Y., & Ran, B. (2017). Multiple imputation for incomplete traffic accident data using chained equations. 2017 IEEE 20th International Conference on Intelligent Transportation Systems (ITSC), 1–5.

Li, X., Li, G., & Fishbune, R. (2016). A Novel Missing-Rate-Oriented Selective Algorithm for Handling Missing Data by Minimizing Imputation. 2016 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery (CyberC), 234–237.

Liu, Z., Zhang, W., Quek, T. Q. S., & Lin, S. (2017). Deep fusion of heterogeneous sensor data. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 5965–5969.

Ma, Q., Li, S., & Cottrell, G. (2020). Adversarial Joint-Learning Recurrent Neural Network for Incomplete Time Series Classification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1–1.

Makaba, T., & Dogo, E. (2019). A Comparison of Strategies for Missing Values in Data on Machine Learning Classification Algorithms. 2019 International Multidisciplinary Information Technology and Engineering Conference (IMITEC), 1–7.

Pasha, S. J., & Mohamed, E. S. (2020). Ensemble Gain Ratio Feature Selection (EGFS) Model with Machine Learning and Data Mining Algorithms for Disease Risk Prediction. 2020 International Conference on Inventive Computation Technologies (ICICT), 590–596.

Sim, S., Bae, H., & Choi, Y. (2019). Likelihood-based Multiple Imputation by Event Chain Methodology for Repair of Imperfect Event Logs with Missing Data. 2019 International Conference on Process Mining (ICPM), 9–16.

Wan, D., Xiao, Y., Zhang, P., & Leung, H. (2015). Hydrological Big Data Prediction Based on Similarity Search and Improved BP Neural Network. 2015 IEEE International Congress on Big Data, 343–350.

Wang, H., Yang, J., Wang, Z., & Wang, Q. (2015). A binary granular algorithm for spatiotemporal meteorological data mining. 2015 2nd IEEE International Conference on Spatial Data Mining and Geographical Knowledge Services (ICSDM), 5–11.

Widiasari, I. R., Nugroho, L. E., & Widyawan. (2017). Deep learning multilayer perceptron (MLP) for flood prediction model using wireless sensor networkbased hydrology time series data mining. 2017 International Conference on Innovative and Creative Information Technology (ICITech), 1–5.

Wu, Z., Zhou, Y., & Wang, H. (2020). Real-Time Prediction of the Water Accumulation Process of Urban Stormy Accumulation Points Based on Deep Learning. IEEE Access, 8, 151938–151951.

Xu, J., & Jiang, H. (2015). An Improved Information Gain Feature Selection Algorithm for SVM Text Classifier. 2015 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery, 273–276.

Xu, X., Chong, W., Li, S., Arabo, A., & Xiao, J. (2018). MIAEC: Missing Data Imputation Based on the Evidence Chain. IEEE Access, 6, 12983–12992.

Additional Files

เผยแพร่แล้ว

2021-05-12

How to Cite

โรจนวรรณ์ ก., & Phetjirachotkul, W. (2021). การเลือกคุณลักษณะที่เหมาะสมสำหรับการแทนค่าข้อมูลสูญหายของข้อมูลอนุกรมเวลาด้วยเทคนิคเหมืองข้อมูล. วารสารมหาวิทยาลัยนราธิวาสราชนครินทร์, 13(2), 326–341. สืบค้น จาก https://li01.tci-thaijo.org/index.php/pnujr/article/view/248365