การจำแนกอนุประโยคอัตวิสัยจากบทความภาษาไทยด้วยหน่วยความจำระยะสั้นยาวแบบสองทาง
Main Article Content
บทคัดย่อ
การจำแนกประโยคอัตวิสัยเป็นหนึ่งในขั้นตอนที่สำคัญในการวิเคราะห์ความคิดเห็นจากข้อมูลที่มาจากบทความหรือสื่อออนไลน์ ซึ่งมีปริมาณเพิ่มขึ้นเป็นอย่างมาก ความคิดเห็นที่สกัดได้จากประโยคอัตวิสัยสามารถนำมาใช้เป็นข้อมูลในการผลิตหรือปรับปรุงสินค้าให้ดีขึ้น งานวิจัยนี้ได้นำเสนอแนวทางการสร้างโมเดลจำแนกอัตวิสัยระดับอนุประโยคในบทความภาษาไทย โดยใช้โมเดลการเรียนรู้เชิงลึกที่ใช้หน่วยความจำระยะสั้นยาวแบบสองทาง (Bidirectional Long Short-Term Memory) ในการจำแนก ซึ่งเป็นวิธีที่นิยมใช้กันในการจัดการกับข้อมูลที่เป็นลำดับ และได้นำโมเดล FastText มาใช้ในการแปลงคำเป็นเวกเตอร์ตัวเลข งานวิจัยนี้ได้ทดลองสร้างโมเดลจากชุดข้อความในหลายโดเมน และวัดความถูกต้องในการจำแนก โดยใช้ชุดข้อมูล LST20 ซึ่งประกอบด้วยอนุประโยคจำนวน 44,423 อนุประโยคที่ได้ตัดคำไว้แล้ว รวมถึงมีข้อมูลชนิดคำ (Part of speech) และชื่อเฉพาะ (Named entity) ที่ถูกใช้เป็นลักษณะสำหรับการเรียนรู้ของโมเดล ในการวัดประสิทธิภาพของโมเดลได้ใช้การสุ่มเลือกแบ่งข้อมูลแบบความเที่ยงตรง 5 กลุ่ม (5-fold cross-validation) และพบว่าโมเดลที่ใช้จำนวนเซลล์ประสาทของหน่วยความจำระยะสั้นยาวแบบสองทาง 200 เซลล์ และใช้ลักษณะ (Feature) คำและชนิดคำ เป็นโมเดลที่ดีที่สุดให้ค่าความแม่นยำ (Precision) 62.562% ค่าความระลึก (Recall) 51.151% ค่าความถูกต้อง (Accuracy score) 79.407% และค่า F1-score 56.284%
Article Details

อนุญาตภายใต้เงื่อนไข Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
เอกสารอ้างอิง
Regmi, S., Bal, B.K. and Kultsova, M. 2017. Analyzing facts and opinions in Nepali subjective texts. 2017 8th International Conference on Information, Intelligence, Systems & Applications (IISA), Larnaca, Cyprus, 1-4.
นงคราญ เจริญพงษ์. 2555. การแยกข้อเท็จจริง ข้อคิดเห็น. แหล่งข้อมูล : https://kunkrunong
kran.wordpress.com/ภาษาไทย-ม-2/ภาษาไทย-ม-2-เทอม-2/การแยกข้อเท็จจริง-ข้อคิ/. ค้นเมื่อวันที่ 23 พฤษภาคม 2563.
Liu, B. 2010. Sentiment analysis and subjectivity. Handbook of natural language processing. 2nd Edition, Chapman and Hall/CRC, New York.
Ayutthaya, T.S.N. and Pasupa, K. 2018. Thai Sentiment Analysis via Bidirectional LSTM-CNN Model with Embedding Vectors and Sentic Features. 2018 International Joint Symposium on Artificial Intelligence and Natural Language Processing (iSAI-NLP), Pattaya, Thailand, 1-6.
Krungklang, W. and Sinthupinyo, S. 2020. An Analysis of Natural Language Text Relating to Thai Criminal Law. 2020 12th International Conference on Electronics, Computers and Artificial Intelligence (ECAI), Bucharest, Romania, 1-6.
Zhang, Y. and Rao, Z. 2020. n-BiLSTM: BiLSTM with n-gram Features for Text Classification. 2020 IEEE 5th Information Technology and Mechatronics Engineering Conference (ITOEC), Chongqing, China, 1056-1059.
Xu, G., Meng, Y., Qiu, X., Yu, Z. and Wu, X. 2019. Sentiment Analysis of Comment Texts Based on BiLSTM. IEEE Access, 7, 51522-51532.
Yao, T., Zhai, Z. and Gao, B. 2020. Text Classification Model Based on fastText. 2020 IEEE International Conference on Artificial Intelligence and Information Systems (ICAIIS), Dalian, China, 154-157.
Hajj, N., Rizk, Y. and Awad, M. 2019. A subjectivity classification framework for sports articles using improved cortical algorithms. Neural Computing and Applications, 11(31), 8069-8085.
Pugsee, P. and Ongsirimongkol, N. 2020. A Classification Model for Thai Statement Sentiments by Deep Learning Techniques. Proceedings of the 2019 2nd International Conference on Computational Intelligence and Intelligent Systems, 22-27.