การประยุกต์ใช้อัลกอริทึมป่าสุ่มและทฤษฎีกราฟสำหรับการวิเคราะห์ข้อความ

Main Article Content

วัชรีวรรณ จิตต์สกุล
สุนันฑา สดสี

บทคัดย่อ

บทคัดย่อ


งานวิจัยนี้นำเสนอการประยุกต์ใช้อัลกอริทึมป่าสุ่ม (random forest) และทฤษฎีกราฟสำหรับการวิเคราะห์ข้อความ โดยข้อความที่ใช้ในการทดสอบ 3 ชุด คือ ข้อความการแสดงความคิดเห็นเกี่ยวกับภาพยนตร์ ข้อความการแสดงความคิดเห็นเกี่ยวกับร้านอาหาร และข้อความการแสดงความคิดเห็นเกี่ยวกับสินค้า โดยสกัดคำจากข้อความทดสอบด้วยอัลกอริทึม random forest ต่อมานำข้อความทดสอบไปสร้างความสัมพันธ์ของคำโดยใช้ทฤษฎีกราฟ จากนั้นวัดค่าความเป็นศูนย์กลางเพื่อหาความคำสำคัญของคำ 3 วิธี ดังนี้ วิธีที่ 1 วัดค่าความเป็นศูนย์กลางจากการคั่นกลาง (betweeness centrality, BC) วิธีที่ 2 วัดค่าความเป็นศูนย์กลางจากความใกล้ชิด (closeness centrality, CC) และวิธีที่ 3 ค่าความเป็นศูนย์กลางจากระดับ (degree centrality, DC) เปรียบเทียบคำที่ได้จากอัลกอริทึมRandom Forest และทฤษฎีกราฟ ผลลัพธ์แสดงให้เห็นว่างานวิจัยที่นำเสนอสามารถจำแนกคำจากข้อความทดสอบ 3 ชุด ได้ 3 กลุ่ม คือ กลุ่มคำที่ตรงกัน กลุ่มคำที่คล้ายกัน และกลุ่มคำที่ไม่ปรากฏ โดยมีผลลัพธ์ดังนี้ (1) กลุ่มคำที่ตรงกัน มีค่าเฉลี่ย BC, CC และ DC เท่ากับ 94.24010, 2.0369, 23.5736 (2) กลุ่มคำที่คล้ายกัน มีค่าเฉลี่ย BC, CC และ DC เท่ากับ 127.6935, 2.0286, 25.1273 และ (3) กลุ่มคำที่ไม่ปรากฏ มีค่าเฉลี่ย BC, CC และ DC เท่ากับ  38.5155, 2.1053, 18.4643  ตามลำดับ จากผลลัพธ์พบว่าวิธี BC และ DC ให้ผลลัพธ์ของค่าความสำคัญของคำได้เหมาะสมกว่า (มีค่ามากกว่า) วิธี CC ทั้ง 3 กลุ่ม และกลุ่มคำที่คล้ายกันมีค่าเฉลี่ย BC และ DC สูงกว่ากลุ่มคำที่ตรงกัน และกลุ่มคำที่ไม่ปรากฏ 


คำสำคัญ : อัลกอริทึมป่าสุ่ม; ทฤษฎีกราฟ; การวิเคราะห์ข้อความ; ความสำคัญของคำ

Article Details

ประเภทบทความ
Physical Sciences
ประวัติผู้แต่ง

วัชรีวรรณ จิตต์สกุล

คณะเทคโนโลยีสารสนเทศ มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ แขวงวงศ์สว่าง เขตบางซื่อ กรุงเทพมหานคร 10800

สุนันฑา สดสี

คณะเทคโนโลยีสารสนเทศ มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ แขวงวงศ์สว่าง เขตบางซื่อ กรุงเทพมหานคร 10800

เอกสารอ้างอิง

[1] Kharea, S.K., Thapab, N. and Sahooc, K.C., 2007, Sahoo internet as a source of information: A survey of Ph.D. scholars, Ann. Library Inf. Stud. 54: 201-206.
[2] Kanimozhi, K.V. and Venkatesan, M., 2015, Unstructured data analysis – A survey, Int. J. Adv. Res. Comp. Commun. Eng. 43: 223-225.
[3] พนิดา ทรงรัมย์, 2559, การจำแนกความคิดเห็นทางการเมืองบนเครือข่ายสังคมออนไลน์โดยใช้วิธีการจำแนกแบบสัมพันธ์, ว.วิทยาศาสตร์และเทคโนโลยีธัญบุรี 6(1): 83-93.
[4] กานดา แผ่วัฒนากุล, 2555, การวิเคราะห์เหมืองข้อเสนอแนะจากบทวิจารณ์รายการโทรทัศน์, วิทยานิพนธ์ปริญญาโท, สถาบันพัฒนบริหารศาสตร์, กรุงเทพฯ, 116 น.
[5] ราชวิทย์ ทิพย์เสนา, ฉัตรเกล้า เจริญผล และแกมกาญจน์ สมประเสริฐศรี, 2557, การจำแนกกลุ่มคำถามอัตโนมัติบนกระดานสนทนา, ว.วิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยมหาสารคาม 33(5): 493-502.
[6] Abdulsahib, A.K. and Kamaruddin, S.S., 2015, Graph based text representation for document clustering, J. Theor. Appl. Inf. Technol. 76: 1-13.
[7] Wu, J., Xuan, Z. and Pan, D., 2011, Enhancing text representation for classification tasks with semantic graph structures, Int. J. Innovative Comp. Inf. Cont. 7: 2689-2698.
[8] Malliaros, F.D. and Skianis, K., 2015, Graph-based term weighting for text categorization, pp. 1473-1479, In 2015 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM' 15), August 25-28, Paris.
[9] Bondy, J. and Murty, U., 1976, Graph Theory with Applications, The Macmillan Press, Ltd., London.
[10] Hanneman, R.A., 2005, Mark Idle: Introduction to Social Network Methods, University of California, Riverside, California.
[11] Durland, M.M. and Fredericks, K.A. (Eds.), 2006, Social Network Analysis in Program Evaluation, Jossey-Bass, San Francisco.
[12] Kiagias, F.R.E. and Vazirgiannis, M., 2015, Text categorization as a graph classification Problem, pp.1702-1712, In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, Beijing.
[13] Cordobés, H., Anta, A.F., Chiroque, L.F., Pérez, F., Redondo, T. and Santos, A., 2013, Graph-based techniques for topic classification of tweets in spanish, Int. J. Artif. Intell. Interact. Multimed. 2(5): 31-37.
[14] Valle, K. and Öztürk, P., 2011, Graph-Based Representations for Text Classification, India-Norway Workshop on Web Concepts and Technologies, Trondheim.
[15] Wang, Z. and Liu, Z., 2016, Graph-based KNN Text Classification, pp. 2363-2366, 2010 Seventh International Conference on Fuzzy Systems and Knowledge Discovery (FSKD 2010), Yantai.
[16] Liu, J., Wang, J. and Wang, C., 2008, A Text Network Representation Model, pp. 150-154, In Fifth International Conference on Fuzzy Systems and Knowledge Discovery, Washington.
[17] Kotzias, D., Denil, M., De Freitas, N. and Smyth, P., 2015, From Group to Individual Labels using Deep Features, KDD 2015.
[18] Jyothi, K.B., Bindu, K.H. and Suryanarayana, D., 2017, A comparative study of random forest & K – nearest neighbors on HAR dataset using caret, Int. J. Innov. Res. Technol. 3(9): 6-9.
[19] Kurniawati, Y.E., Permanasari, A.E. and Fauziati, S. 2016, Comparative Study on Data Mining Classification Methods for Cervical Cancer Prediction Using Pap Smear Results, 2016 1st International Conference on Biomedical Engineering (IBIOMED), Yogyakarta.
[20] Campomanes, F., Pada, A.V. and Silapan, J., 2016, Mangrove Classification Using Support Vector Machines and Random Forest Algorithm: A Comparative Study, GEOBIA 2016: Solutions and Synergies, Faculty of Geo-Information and Earth Observation (ITC), University of Twente, Overijssel.