ปัจจัยเสี่ยงที่มีความสัมพันธ์ต่อการเกิดโรคมะเร็ง
Main Article Content
Abstract
The objective of the research is to apply the logistic regression analysis to investigate factors related to cancer. The data use in this research is the secondary data from Thai Behavioral Risk Factor Surveillance by the Questionnaire in BE. 2558, Bureau of Non-communicable Disease, Department of Disease Control, Ministry of Public Health. The software SAS version 9.4 and SAS Enterprise Miner Workstation version 14.2 are used to analyze and develop the logistic regression model for prediction the probability of being a cancer-patient. The objective of the research is to apply the logistic regression analysis to investigate factors related to cancer. The data use in this research is the secondary data from Thai Behavioral Risk Factor Surveillance by the Questionnaire in BE. 2558, Bureau of Non-communicable Disease, Department of Disease Control, Ministry of Public Health. The software SAS version 9.4 and SAS Enterprise Miner Workstation version 14.2 are used to analyze and develop the logistic regression model for prediction the probability of being a cancer-patient. Since the numbers of cancer patients and non-cancer patients are very different the problem of imbalanced data is to be corrected before developing the predictive model by under sampling the non-cancer patients. From the comparisonof the results from several models based on data sets with different ratios of cancer patients over non-cancer patients, it is found that the predictive model based on the data set of with ratio of cancer patients over non-cancer patients equal of 1/3 gives the best result. The independent variables for predicting the probability of developing a cancer are gender, smoking and age. The developed model is fit to the empirical data with chi-squared of 0.2464, p–value = 0.8841 at df = 3. When the cutoff probability equals 0.5, the specificity, sensitivity and accuracy of the model are 98.00 percent, 13.10 percent and 76.80 percent respectively. The odds ratio of developing a cancer given being female to being male is 7.3440, of developing a cancer given smoking to non-smoking is 6.1540 and of developing a cancer given age 45 year and over to less than 45 year is 4.6360.
Keywords: risk factors for cancer, Logistic regression analysis,Goodness of fit, Odds ratio, accuracy, sensitivity, specificity
บทคัดย่อ
การวิจัยครั้งนี้ เป็นการประยุกต์ใช้การวิเคราะห์การถดถอยลอจิสติกเพื่อศึกษาปัจจัยเสี่ยงที่มีความสัมพันธ์ต่อการเกิดโรคมะเร็ง ข้อมูลที่ใช้ในงานวิจัยครั้งนี้เป็นข้อมูลทุติยภูมิของโครงการสำรวจพฤติกรรมเสี่ยงโรคไม่ติดต่อและการบาดเจ็บ พ.ศ. 2558 สำนักโรคไม่ติดต่อ กรมควบคุมโรค กระทรวงสาธารณสุข และวิเคราะห์ข้อมูลโดยใช้โปรแกรมสำเร็จรูป SAS (Statistical Analysis System) เวอร์ชัน 9.4 และ SASEnterprise Miner Workstation เวอร์ชัน 14.2
เนื่องจากข้อมูลที่นำมาใช้ในงานวิจัยเป็นข้อมูลที่ไม่สมดุล คือมีจำนวนผู้ป่วยมะเร็งและผู้ที่ไม่เป็นมะเร็งแตกต่างกันมาก ผู้วิจัยจึงทำการปรับข้อมูลให้สมดุลด้วยวิธีการสุ่มลดจำนวนผู้ที่ไม่เป็นมะเร็ง
แล้วพัฒนาตัวแบบทำนายความน่าจะเป็นของการเกิดโรคมะเร็งจากการเปรียบเทียบประสิทธิภาพของ
ตัวแบบ พบว่าตัวแบบที่ดีที่สุดคือตัวแบบที่สร้างจากข้อมูลที่สุ่มลดจำนวนผู้ที่ไม่เป็นมะเร็งให้มีจำนวนผู้ป่วยมะเร็ง : ผู้ที่ไม่เป็นมะเร็ง เท่ากับ 1 : 3ผลการวิจัยสรุปได้ว่า สมการที่สร้างขึ้นมีความเหมาะสมกับข้อมูลเชิงประจักษ์ ด้วยค่าไคกำลังสองเท่ากับ 0.2464 และค่าพีเท่ากับ 0.8841 และมีร้อยละความถูกต้อง 76.80 ร้อยละความไว 13.10และร้อยละความเฉพาะ 98.00 เมื่อกำหนดความน่าจะเป็นในการแบ่งกลุ่มเป็น 0.5 เมื่อพิจารณาอัตราส่วนออดส์ของตัวแปรอิสระแต่ละตัวพบว่า เพศหญิงมีความเสี่ยงที่จะเป็นมะเร็งมากกว่าเพศชาย 7.3440 เท่า คนสูบบุหรี่มีความเสี่ยงที่จะเป็นมะเร็งมากกว่าคนที่ไม่สูบบุหรี่ 6.1540 เท่า และคนที่มีอายุมากกว่าหรือเท่ากับ 45 ปีมีความเสี่ยงที่จะเป็นมะเร็งมากกว่าคนที่มีอายุ
น้อยกว่า 45 ปี 4.6360 เท่า
คำสำคัญ: ปัจจัยเสี่ยงของโรคมะเร็ง การวิเคราะห์การถดถอยลอจิสติก ความถูกต้องเหมาะสมของตัวแบบอัตราส่วนออดส์ความถูกต้อง ความไว ความเฉพาะ
Article Details
References
[2] คณะกรรมการจัดทำแผนการป้องกันและควบคุมโรคมะเร็งแห่งชาติ. 2556. แผนการป้องกันและควบคุมโรคมะเร็งแห่งชาติ พ.ศ. 2558 - 2560. พิมพ์ครั้งที่ 1, โรงพิมพ์ชุมนุมสหกรณ์การเกษตรแห่งประเทศไทย จำกัด, กรุงเทพมหานคร. [The National Cancer Prevention and Control Commission. 2013. National Cancer Control Programmes. 1sted, Thw Agricultural Co-operative Federatiob of Thailand., LTD. Bangkok (in Thai)]
[3] จิราวัลย์ จิตรถเวช. 2558. การวิเคราะห์การถดถอย. พิมพ์ครั้งที่ 1, โรงพิมพ์องค์การสงเคราะห์ทหารผ่านศึกในพระบรมราชูปถัมภ์, กรุงเทพฯ. [JirawanJitthavech. 2015. Regression Analysis. 1sted, The War Veterans Organization of Thailand Under Royal Patronage of His Majesty the King Publisher. Bangkok. (in Thai)]
[4] Sarah, P. 2005. Gender in lung cancer and smoking research. Available from: https://www.who.int/gender/documents/LungCancerlast2.pdf.cited 2017 15 April.
[5] Key, T.J.Schatzkin, A. Willett, W.C. Allen, N.E. Spencer, E.A. and Travis, R.C.2004. Diet, nutrition and the prevention of cancer. Public Health Nutrition, 7(1A), 187–200.
[6] Oguntibeju, O.O. Truter, E.J. and Esterhuyse, A.J.2013. The Role of Fruit and Vegetable Consumption in Human Health and Disease Prevention. Available from: https://cdn.intechopen.com/pdfs/42095/InTechThe_role_of_fruit_and_vegetable_consumption_in_human_health_and_disease_prevention.pdf. cited 2017 5 March.
[7] White, M.C.Holman, D.M. Boehm, J.E. Peipins, L.A. Grossman, M. and Henley, S.J. 2014. Age and Cancer Risk: A Potentially Modifiable Relationship: American Journal of Preventive Medicine, 46(3), 7–15.
[8] Dorak, M.T. Karpuzoglu, E. 2012. Gender Differences in Cancer Susceptibility: An Inadequately Addressed Issue. Frontiers in Genetics, 268(3).
[9] McCann, J. 2000. Gender Differences in Cancer That Don’t Make Sense Or Do They?: Journal of the National Cancer Institute, 92(19), 1560-1562.
[10] Cannata,D. Fierz, Y.Vijayakumar, A.andLeRoith, D. 2010. Type 2 Diabetes and Cancer:
What Is the Connection?.The Mount Sinai JournalOf Medicine, 77(2), 197–213.
[11] Chen, Y. Wu, F. Saito, E. and et al. 2017. Association between type 2 diabetes
and risk of cancer mortality : a pooled analysis of over 771,000 individuals in the
Asia Cohort Consortium. Diabetologia, 60(6), 1022-1032.
[12] Silverman, D. T.Schiffman, M. and et al. 1999. Diabetes mellitus, other medical conditions and familial history of cancer as risk factors for pancreatic cancer. British Journal of Cancer,80(11), 1830-1837
[13] ชัยยุทธ เจติยานุวัตร. 2544. ปัจจัยที่มีความสัมพันธ์กับการเลิกบุหรี่ของเจ้าหน้าที่สาธารณสุข จังหวัดกาญจนบุรี. วิทยานิพนธ์ปริญญามหาบัณฑิต, สาขาชีวสถิติ, มหาวิทยาลัยมหิดล.[ChaiyuthJetiyanuwatr. 2001. Factors associated with smoking cessation of public health officials in Kanchanaburi province. Thesis, Biostatistics Program, Mahidol University. (in Thai)]
[14] La Vecchia, C. 1992. Cancers associated with high-fat diets.Journal of National
Cancer Institute Monograph,(12), 79-85.
[15] Connor, J. 2016. Alcohol consumption as a cause of cancer. Addiction, 112(2),
222-228.
[16] Seitz, H.K, and Becker, P. 2007. Alcohol Metabolism and cancer risk. Alcohol
Research& Health, 30(1), 38-47.
[17] Jacobs, E.J. Chanock, S.J. and et al.2010. Family history of cancer and risk of
pancreatic cancer: a pooled analysis from the Pancreatic Cancer Cohort Consortium
(PanScan). InternationalJournal of Cancer, 127(6), 1421–1428.
[18] Linet, M.S.Slovis, T.L. Miller, D.L. Kleinerman, R. Lee, C. Rajaraman, P. and
Berrington de Gonzalez A. 2012. Cancer Risks Associated With External Radiation
From Diagnostic Imaging Procedures. Cancer Journal for clinicians, 62(2), 75–100.
[19] Mohammed, A. Hannan, M.P.Magid H.A. and Farouk H.A. 1984. Study of Ultraviolet Radiation and Genotoxic Effects of Natural Sunlight in Relation to Skin Cancer in Saudi Arabia. Cancer Research, 44, 2192-2197.
[20] ปภากร อินทร์โท่โล่. 2557. การวิเคราะห์การถดถอยโลจิสติกสำหรับการดื้อยาต้านจุลชีพของเชื้อซาโมเนลล่าเอนเทอริกาในสุกร. วิทยานิพนธ์ปริญญามหาบัณฑิต, สาขาสถิติ,มหาวิทยาลัยเกษตรศาสตร์.[PaphakornIntholo. 2014. Logistic Regression Analysis for Anyimicrobial Resistance of Salmonella enterica in swine. Thesis, Statistics Program, Kasetsart University. (in Thai)]
[21] ภาสพิชญ์ ชูใจ. 2557.การเรียนรู้ร่วมกันสำหรับปัญหาการจำแนกข้อมูลไม่สมดุล.วิทยานิพนธ์ปริญญาดุษฎีบัณฑิต, สาขาวิศวกรรมคอมพิวเตอร์, มหาวิทยาลัยเทคโนโลยีสุรนารี.[PasapitchChujai. 2014. Ensemble Learning for Imbalanced data Classification Problem. Thesis, Computer Engineering Program, Suranaree University of Technology. (in Thai)]
[22] ภรัณยา ปาลวิสุทธิ์. 2559. การเพิ่มประสิทธิภาพเทคนิคต้นไม้ตัดสินใจบนชุดข้อมูลที่ไม่สมดุล โดยวิธีการสุ่มเพิ่มตัวอย่างกลุ่มน้อยสำหรับข้อมูล การเป็นโรคติดอินเทอร์เน็ต.วารสารเทคโนโลยีสารสนเทศ, 54-63.[ParanyaPalwisut. 2016. Improving Decision Tree Technique in Imbalanced Data Sets Using SMOTE for Internet Addiction Disorder Data. Information Technology Journal, 54-63.(in Thai)]
[23] Nitesh, V. Kevin, W. Lawrence, O. and Philip, W. 2002. SMOTE: Synthesis Minority
Over-sampling Technique. Journal of Artificial Intelligence Research, 16, 321-357.
[24] สุรพงค์ เอื้อวัฒนามงคล. 2559. การทำเหมืองข้อมูล. พิมพ์ครั้งที่ 1, สำนักพิมพ์สถาบัน
บัณฑิตพัฒนบริหารศาสตร์.กรุงเทพฯ. [SurapongAuwatanamongkol. 2016. Data Mining.
1sted, NIDA Publisher. Bangkok. (in Thai)]
[25] กันยาพร หาญกล้า. และวีรานันท์ พงศาภักดี. 2556. การเปรียบเทียบตัวแบบลอจิตและการ
ใช้ ROC Curve ในการวิเคราะห์ปัจจัยที่ส่งผลต่อระดับค่าจ้าง. วารสารวิทยาศาสตร์บูรพา;18
(2556): 26-35.[KanyaphornHankla. and VeeranunPongsapukdee. 2013.A Comparison of Logit Models and Use of ROC Curve in the Analysis of Factors Affecting Wages’ Levels. Burapha Sci. J. 18(2013): 26-35. (in Thai)]
[26] Han, J. Kamber, M. and Pei, J. 2012. Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann Publishers, MA, USA.
[27] Hosmer, D.W. and Lemeshow, S. 2000. Applied Logistic Regression 2nd ed. Wiley, Inc., New York.
[28] ภิญโญ วรรณสุข. 2540. การประยุกต์ใช้การวิเคราะห์การถดถอยโลจิสติกและการวิเคราะห์อิทธิพลในการศึกษาปัจจัยที่มีอิทธิพลต่อความคาดหวังในการศึกษาต่อของนักเรียนชั้นประถมศึกษาในเขตการศึกษา 11. วิทยานิพนธ์ครุศาสตรมหาบัณฑิต, สาขาวิจัยการศึกษา, จุฬาลงกรณ์มหาวิทยาลัย.[PinyoVannasuk. 1997. The Application of Logistic Regression Analysis and Path Analysis to study Factors affecting lelmaetary school students conyinuting education expectation in educational region eleven. Thesis, Educational Research Program, Chulalongkorn University. (in Thai)]
[29] Yusuff H., Mohamad N., Ngah U.K. and Yahaya A.S.. Breast cancer analysis using logistic regression. International Journal of Recent Research and Applied Studies, 10(1), 14-22.