
Main Article Content

พิมพ์จุฑา วราทรัพย์
จิราวัลย์ จิตรถเวช
วิชิตหล่อ จีระชุณห์กุล


 The objective of the research is to apply the logistic regression analysis to investigate factors related to cancer.  The data use in this research is the secondary data from Thai Behavioral Risk Factor Surveillance by the Questionnaire in BE. 2558, Bureau of Non-communicable Disease, Department of Disease Control, Ministry of Public Health. The software SAS version 9.4 and SAS Enterprise Miner Workstation version 14.2 are used to analyze and develop the logistic regression model for prediction the probability of being a cancer-patient.  Since the numbers of cancer patients and non-cancer patients are very different the problem of imbalanced data is to be corrected before developing the predictive model by under sampling the non-cancer patients. From the comparisonof the results from several models based on data sets with different ratios of cancer patients over non-cancer patients, it is found that the predictive model based on the data set of with ratio of cancer patients over non-cancer patients equal of 1/3 gives the best result. The independent variables for predicting the probability of developing a cancer are gender, smoking and age.  The developed model is fit to the empirical data with chi-squared of 0.2464, p–value = 0.8841 at df = 3.  When the cutoff probability equals 0.5, the specificity, sensitivity and accuracy of the model are 98.00 percent, 13.10 percent and 76.80 percent respectively.  The odds ratio of developing a cancer given being female to being male is 7.3440, of developing a cancer given smoking to non-smoking is 6.1540 and of developing a cancer given age 45 year and over to less than 45 year is 4.6360.

Keywords: risk factors for cancer, Logistic regression analysis,Goodness of fit, Odds ratio, accuracy, sensitivity, specificity


การวิจัยครั้งนี้ เป็นการประยุกต์ใช้การวิเคราะห์การถดถอยลอจิสติกเพื่อศึกษาปัจจัยเสี่ยงที่มีความสัมพันธ์ต่อการเกิดโรคมะเร็ง ข้อมูลที่ใช้ในงานวิจัยครั้งนี้เป็นข้อมูลทุติยภูมิของโครงการสำรวจพฤติกรรมเสี่ยงโรคไม่ติดต่อและการบาดเจ็บ พ.ศ. 2558 สำนักโรคไม่ติดต่อ กรมควบคุมโรค กระทรวงสาธารณสุข และวิเคราะห์ข้อมูลโดยใช้โปรแกรมสำเร็จรูป SAS (Statistical Analysis System) เวอร์ชัน 9.4 และ SASEnterprise Miner Workstation เวอร์ชัน 14.2
เนื่องจากข้อมูลที่นำมาใช้ในงานวิจัยเป็นข้อมูลที่ไม่สมดุล คือมีจำนวนผู้ป่วยมะเร็งและผู้ที่ไม่เป็นมะเร็งแตกต่างกันมาก ผู้วิจัยจึงทำการปรับข้อมูลให้สมดุลด้วยวิธีการสุ่มลดจำนวนผู้ที่ไม่เป็นมะเร็ง
ตัวแบบ พบว่าตัวแบบที่ดีที่สุดคือตัวแบบที่สร้างจากข้อมูลที่สุ่มลดจำนวนผู้ที่ไม่เป็นมะเร็งให้มีจำนวนผู้ป่วยมะเร็ง : ผู้ที่ไม่เป็นมะเร็ง เท่ากับ 1 : 3ผลการวิจัยสรุปได้ว่า สมการที่สร้างขึ้นมีความเหมาะสมกับข้อมูลเชิงประจักษ์ ด้วยค่าไคกำลังสองเท่ากับ 0.2464 และค่าพีเท่ากับ 0.8841 และมีร้อยละความถูกต้อง 76.80 ร้อยละความไว 13.10และร้อยละความเฉพาะ 98.00 เมื่อกำหนดความน่าจะเป็นในการแบ่งกลุ่มเป็น 0.5 เมื่อพิจารณาอัตราส่วนออดส์ของตัวแปรอิสระแต่ละตัวพบว่า เพศหญิงมีความเสี่ยงที่จะเป็นมะเร็งมากกว่าเพศชาย 7.3440 เท่า คนสูบบุหรี่มีความเสี่ยงที่จะเป็นมะเร็งมากกว่าคนที่ไม่สูบบุหรี่ 6.1540 เท่า และคนที่มีอายุมากกว่าหรือเท่ากับ 45 ปีมีความเสี่ยงที่จะเป็นมะเร็งมากกว่าคนที่มีอายุ
น้อยกว่า 45 ปี 4.6360 เท่า

คำสำคัญ: ปัจจัยเสี่ยงของโรคมะเร็ง การวิเคราะห์การถดถอยลอจิสติก ความถูกต้องเหมาะสมของตัวแบบอัตราส่วนออดส์ความถูกต้อง ความไว ความเฉพาะ

