ตัวแบบการเรียนรู้ของเครื่องอิทธิพลผสมสำหรับการวิเคราะห์การรอดชีพ แบบเวลาไม่ต่อเนื่อง: กรณีศึกษาการคัดกรองโรคเบาหวานในประชากรไทย
Main Article Content
บทคัดย่อ
งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาคการทำนายของ การวิเคราะห์การรอดชีพแบบเวลาไม่ต่อเนื่อง ระหว่างตัวแบบที่พิจารณาว่าข้อมูลตามยาวที่ถูกเก็บมาจากบุคคลคนเดียวกันนั้นมีความสัมพันธ์กันและไม่เป็นอิสระต่อกัน กับตัวแบบที่มองข้ามความสัมพันธ์นั้นและสมมติว่าข้อมูลที่เก็บจากบุคคลคนเดียวกันเป็นอิสระต่อกัน ทั้งนี้ ในงานวิจัยนี้ ผู้วิจัยพิจารณาการสุ่มป่าไม้กับตัวแบบ CatBoost ซึ่งพิจารณาเฉพาะอิทธิพลคงที่ และตัวแบบการเรียนรู้ของเครื่องอิทธิพลผสมที่พิจารณาทั้งอิทธิพลคงที่และอิทธิพลสุ่ม จากการวิเคราะห์ข้อมูลเพื่อพยากรณ์การเป็นโรคเบาหวานจากข้อมูลการคัดกรองโรคเบาหวานของกลุ่มตัวอย่างประชากรไทย ซึ่งเป็นข้อมูลที่ขาดความสมดุลสูง พบว่า มีเพียงตัวแบบ CatBoost ที่พิจารณาความสัมพันธ์ของข้อมูลระหว่างบุคคลคนเดียวกันให้ประสิทธิภาพการพยากรณ์ที่ดีกว่าการวิเคราะห์โดยมองข้ามความสัมพันธ์ และมีเพียงการสุ่มป่าไม้ที่ใช้อิทธิพลผสมให้ประสิทธิภาพการพยากรณ์สูงกว่าการวิเคราะห์โดยใช้เพียงอิทธิพลคงที่ โดยสรุป งานวิจัยนี้แสดงให้เห็นว่าการพิจารณาความสัมพันธ์ของข้อมูลไม่ได้ส่งผลให้ประสิทธิภาพการพยากรณ์ดีขึ้นเสมอไป ทั้งบนตัวแบบอิทธิพลคงที่และตัวแบบอิทธิพลผสม ขึ้นอยู่ข้อจำกัดและปัจจัยต่าง ๆ เช่น ลักษณะข้อมูล การเลือกตัวแบบ การกำหนดตัวแปรอิทธิพลสุ่ม และวิธีการสกัดอิทธิพลคงที่จากตัวแบบต้นไม้ ดังนั้น แม้ว่าตัวแบบการเรียนรู้ของเครื่องที่พิจารณาเฉพาะอิทธิพลคงที่นั้นมักจะถูกใช้ในการพยากรณ์ข้อมูลการรอดชีพแบบเวลาไม่ต่อเนื่อง การใช้ตัวแบบการเรียนรู้ของเครื่องอิทธิพลผสมอาจเป็นอีกทางเลือกหนึ่งที่ทำให้การพยากรณ์มีความถูกต้องแม่นยำมากขึ้นได้
Article Details
เอกสารอ้างอิง
Wang, P., Li, Y. and Reddy, C.K., 2019, Machine learning for survival analysis: A survey, ACM Computing Surveys (CSUR), 51(6): 1-36.
Suresh, K., Severn, C. and Ghosh, D., 2022, Survival prediction models: an introduction to discrete-time modeling, BMC Medical Research Methodology, 22(1): 207.
Domingos, P., 2012. A few useful things to know about machine learning. Communications of the ACM, 55(10), pp.78-87.
Kattan, M.W., 2003, Comparison of Cox regression with other methods for determining prediction mod-els and nomograms, The Journal of urology, 170(6): S6-S10.
Breiman, L., 2001, Random forests, Machine learning, 45: 5-32.
Cestnik, B., 1990, Estimating Probabilities: A Crucial Task in Machine Learning, ECAI: 147-149.
Micci-Barreca, D., 2001, A preprocessing scheme for high-cardinality categorical attributes in classification and prediction problems, ACM SIGKDD Explorations Newsletter, 3(1): 27-32.
Dorogush, A.V., Ershov, V. and Gulin, A., 2018, CatBoost: gradient boosting with categorical features sup-port, arXiv preprint arXiv:1810.11363.
Sarakarn, P. and Jumparway, D., 2020, Coverage and flexibility: issues should be considered for analyzing by generalized linear model in health science research, J Health Sci Comm Publ Health, 3(2): 144-158. (in Thai)
Bolker, B.M., Brooks, M.E., Clark, C.J., Geange, S.W., Poulsen, J.R., Stevens, M.H.H. and White, J.S.S., 2009, Generalized linear mixed models: a practical guide for ecology and evolution, Trends in ecology & evolu-tion, 24(3): 127-135.
Breslow, N.E. and Clayton, D.G., 1993. Approximate inference in generalized linear mixed models. Jour-nal of the American statistical Association, 88(421), pp.9-25.
Ngufor, C., Van Houten, H., Caffo, B.S., Shah, N.D. and McCoy, R.G., 2019, Mixed effect machine learning: A framework for predicting longitudinal change in hemoglobin A1c, Journal of biomedical informatics, 89: 56-67.
Google for developers, Machine Learning Glossary, Available Source: https://developers.google.com/machine-learning/glossary, February 21, 2023.