การเปรียบเทียบประสิทธิภาพการทำนายผลการแปลงข้อมูลในการจำแนกด้วยเทคนิคการทำเหมืองข้อมูล
Main Article Content
บทคัดย่อ
การแปลงข้อมูลเป็นส่วนหนึ่งในกระบวนการเตรียมข้อมูลก่อนทำเหมืองข้อมูล งานวิจัยนี้จึงมีวัตถุประสงค์เพื่อเปรียบเทียบวิธีการแปลงข้อมูล 5 วิธี คือ ไม่แปลงข้อมูล การทำให้เป็นปรกติน้อยที่สุด-มากที่สุด การทำให้เป็นมาตรฐานแซด การแปลงข้อมูลให้เป็นเลขทศนิยม และการแปลงข้อมูลโดยค่ามัธยฐาน โดยวิธีการจำแนก 3 วิธี คือ วิธีเพื่อนบ้านใกล้สุด k ตัว วิธีโครงข่ายประสาทเทียม และวิธีนาอีฟเบส์ ว่าวิธีใดมีประสิทธิภาพในการจำแนกดีที่สุด โดยพิจารณาจากค่าความแม่น ทำการแบ่งข้อมูลในอัตราส่วน 70 และ 30 ตามลำดับ ในข้อมูลส่วนที่ 1 ข้อมูลเรียนรู้ นำไปสร้างตัวแบบ ร้อยละ 70 และข้อมูลส่วนที่ 2 ข้อมูลทดสอบ นำไปทดสอบตัวแบบ ร้อยละ 30 โดยการกำหนดตัวสร้างเลขสุ่มเทียม เป็น 10, 20, 30, 40 และ 50 มีข้อมูลที่นำมาแปลงในการศึกษา 6 ชุด และใช้เกณฑ์การแบ่งประเภทของข้อมูลออกเป็น 2 กลุ่ม คือ กลุ่มที่ข้อมูลแตกต่างกันน้อย ได้แก่ คุณภาพไวน์ขาว การเป็นโรคเบาหวานของชนเผ่าไพม่า การตรวจกระดูกแกนกลางของร่างกาย และกลุ่มที่ข้อมูลแตกต่างกันมาก ได้แก่ การเป็นโรคตับของคนอินเดีย ชั่วโมงการทำงานของแม่บ้าน และอะโวคาโด โดยใช้โปรแกรมอาร์ จากการเปรียบเทียบข้อมูลทั้งหมด 4 ใน 6 ชุด ให้ผลไปในทิศทางเดียวกันโดย วิธีที่ให้ค่าความแม่นสูงสุดคือ วิธีเพื่อนบ้านใกล้สุด k ตัว โดยการแปลงข้อมูลให้เป็นเลขทศนิยม รองลงมาคือวิธีโครงข่ายประสามเทียม โดยการแปลงข้อมูลให้เป็นเลขทศนิยม ในงานวิจัยครั้งนี้อาจเป็นประโยชน์โดยตรงต่อผู้ที่มีความสนใจในการทำเหมืองข้อมูลสำหรับข้อมูลที่มีขนาดใหญ่
Article Details

อนุญาตภายใต้เงื่อนไข Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
บทความที่ได้รับการตีพิมพ์เป็นลิขสิทธิ์ของคณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ข้อความที่ปรากฏในแต่ละเรื่องของวารสารเล่มนี้เป็นเพียงความเห็นส่วนตัวของผู้เขียน ไม่มีความเกี่ยวข้องกับคณะวิทยาศาสตร์และเทคโนโลยี หรือคณาจารย์ท่านอื่นในมหาวิทยาลัยธรรมศาสตร์ ผู้เขียนต้องยืนยันว่าความรับผิดชอบต่อทุกข้อความที่นำเสนอไว้ในบทความของตน หากมีข้อผิดพลาดหรือความไม่ถูกต้องใด ๆ
เอกสารอ้างอิง
Amit, P. and Achin, J., 2017, Comparative Analysis of KNN Algorithm using Various Normalization Techniques, International Computer Network and Information Security 11: 36-42.
Ramana, B. V., 2012, Indian Liver Patient, Available Source: https://www.mldata.io/dataset-details/indian_liver_patient/ December 26, 2019.
Mota, H. D., 2011, Vertebral Column Data Set, Available Source: https://www.kaggle.com/caesarlupum/vertebralcolumndataset, January 25, 2020.
Justin K., 2018, Avocado Prices Data Set, Available Source: https://www.kaggle.com/neuromusic/avocado-prices, December 20, 2019.
Patro, S. K. and Sahu, K. K., 2017, Normalization: A Preprocessing Stage, Department of CSE & IT, VSSUT, Burla, Odisha, India.
Cortez, P., Cerdeira, A., Almeida, F., Matos, T. and Reis, J., 2009, Wine Quality Data Set, Available Source: https://archive.ics.uci.edu/ml/datasets/Wine+Quality, December 8, 2019.
Shams, R., 2014, Creating Training, Validation and Test Sets Data Preprocessing, Available Source: https://www.youtube.com/watch?v=uiDFa7iY9yo, January 13, 2020.
Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., Tibshirani, R., Botstein, D. and Altman, R. B, 2001, Missing Values Estimation Methods for DNA Microarrays Bioinformatics, 17(1): 520-525.