การจำแนกอารมณ์ของมนุษย์จากการรู้จำเสียงพูดโดยใช้การเรียนรู้เชิงลึก

Main Article Content

ผู้ช่วยศาสตราจารย์ ดร.ศรัญญา กาญจนวัฒนา
อัษฎายุธ จารัตน์
ดร. ปัญญ์ชลี ปราณีตพลกรัง

บทคัดย่อ

อารมณ์ของมนุษย์เป็นกระบวนการทางจิตที่ตอบสนองต่อสิ่งเร้าที่เกิดขึ้นรอบตัวและมีความซับซ้อนสูง ซึ่งเป็นกลไกทำให้มนุษย์ปรับตัวและการแสดงออกทางอารมณ์ในสถานการณ์ต่าง ๆ อย่างไรก็ตามในสถานการณ์เดียวกันนั้นมนุษย์มีการแสดงอารมณ์แตกต่างกัน ทำให้การที่จะเข้าถึงและจับความรู้สึกของผู้อื่นได้อย่างถูกต้องนั้นเป็นเรื่องยาก การคาดเดาอารมณ์ของคู่สนทนา ทำให้เกิดการตัดสินใจและการกระทำที่เหมาะสมต่อสถานการณ์ เช่น การรักษาผู้ป่วยที่เป็นโรคซึมเศร้าหรือผู้ที่ต้องการได้รับการบำบัดทางจิต การศึกษานี้มีวัตถุประสงค์คือ เพื่อเปรียบเทียบประสิทธิภาพระหว่างโมเดล Convolution Neuron Networks (CNN) และ Long Short-Term Memory (LSTM) และเพื่อหาโครงสร้างโมเดลที่เหมาะสมในการจำแนกอารมณ์จากเสียง โดยได้มีการดำเนินการทดลองกับการปรับแต่งค่าต่างๆ ของ LSTM และ CNN ซึ่งผลการทดลองพบว่า LSTM ที่มีระดับชั้น 4 เหมาะสมกับการจำแนกอารมณ์จากเสียงพูดของมนุษย์ในงานวิจัยนี้ได้พัฒนาแบบจำลองโดยใช้เทคนิคการเรียนรู้เชิงลึกในการจำแนกอารมณ์จากเสียงของมนุษย์ มี 5 อารมณ์ประกอบด้วย ปกติ โกรธ ประหลาดใจ มีความสุขและเศร้า

Article Details

บท
บทความวิจัย

References

Hammond, M. (2006). Evolutionary theory and emotions. In Stets E.J. and Turnur J.H. Handbook of the Sociology of Emotions, New York: Springer, 368–385.

Tokuno, S., Tsumatori, G., Shono, S., Takei, E., Yamamoto, T., Suzuki, G., Mituyoshi, S. and Shimura M. (2001). Usage of emotion recognition in military health care. In 2011 Defense Science Research Conference and Expo (DSR), 1–5.

Yamashita, Y., Onodera, M., Shimoda, K. and Tobe, Y. (2019). Visualizing health with emotion polarity history using voice. In Adjunct Proceedings of the 2019 ACM International Joint Conference on Pervasive and Ubiquitous Computing and Proceedings of the 2019 ACM International Symposium on Wearable Computers, 1210–1213.

Kittichaiwatthana, P., Praneetpholkrang, P., and Kanjanawattana, S. (2020). Facial Expression Recognition using Deep Learning. SUT International Virtual Conference on Science and Technology, 41.

Song, I., Kim, HJ. and Jeon, P. (2014). Deep learning for real-time robust facial expression recognition on a smartphone. In 2014 IEEE International Conference on Consumer Electronics (ICCE), 564–567.

Dagar, D., Hudait, A., Tripathy, HK. and Das, MN. (2016). Automatic emotion detection model from facial expression. In 2016 International Conference on Advanced Communication Control and Computing Technologies (ICACCCT), 77–85.

Lugović, S., Dunder, I. and Horvat, M. (2016). Techniques and applications of emotion recognition in speech. In 2016 39th international convention on information and communication technology, electronics and microelectronics (mipro), 278–1283.

Xie, Y., Liang, R., Liang, Z., Huang, C., Zou, C. and Schuller, B. (2019). Speech emotion classification using attention-based LSTM. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 27(11), 1675–1685.

Shewalkar, AN. (2018). Comparison of rnn, lstm and gru on speech recognition data. In Partial Fulfillment of the Requirements for the Degree of Master of Science. North Dakota State University of Agriculture and Applied Science.

Rawat, W. & Wang, Z. (2017). Deep convolutional neural networks for image classification: A comprehensive review. Neural computation, 29(9), 2352–2449.

Etienne, C., Fidanza, G., Petrovskii, A., Devillers, L. and Schmauch, B. (2018). Cnn+ lstm architecture for speech emotion recognition with data augmentation. In Proceeding Workshop on Speech, Music and Mind (SMM 2018), 21-25.

Zhao, J., Mao, X. and Chen, L. (2019) Speech emotion recognition using deep 1D & 2D CNN LSTM networks. Biomedical signal processing and control, 47, 312–323.