การรู้จำเสียงพูดแบบทนทานต่อเสียงรบกวนสำหรับภาษาไทยโดยใช้อัลกอริทึม N-best LIMABEAM

Main Article Content

รุ่งโรจน์ กอปัญญาพิพัฒน์
รัชฎา คงคะจันทร์

Abstract

บทคัดย่อ

บทความนี้เสนอวิธีรู้จำเสียงพูดภาษาไทยแบบทนทานต่อเสียงรบกวนในสภาพแวดล้อมจริง ซึ่งประสิทธิภาพในการรู้จำสามารถเพิ่มขึ้นได้ โดยการใช้ไมโครโฟนอาเรย์ (microphone array) แล้วใช้อัลกอริทึม N-best LIMABEAM ในการรู้จำเสียงพูด ด้วยอัลกอริทึมนี้สามารถที่จะทำให้ได้ค่าลักษณะสำคัญของเสียงที่มีเสียงรบกวนที่ดีขึ้น ทำให้ได้ค่าสมมุติฐานจากการถอดรหัสเสียงที่ดีขึ้นในขั้นตอนการรู้จำในขั้นแรก แล้วหาค่าการถอดรหัสเสียงที่ดีที่สุดในแต่ละค่าสมมุติฐานจากการถอดรหัสเสียงด้วยวิธีการจากอัลกอริทึม LIMABEAM แล้วสุดท้ายได้ผลลัพธ์ที่ดีที่สุดจากชุดค่าสมมุติฐานของ N-best จากผลการทดลองอัลกอริทึม N-best LIMABEAM ได้ค่าความถูกต้องอยู่ที่ 27.22 % ซึ่งดีกว่าอัลกอริทึม LIMABEAM 20.12 % และเสียงที่มีเสียงรบกวน 9.47 % ในสภาพแวดล้อมที่ถูกกำหนดเสียงรบกวนและเสียงกังวาน 

คำสำคัญ : การรู้จำเสียงพูดแบบทนทาน; เสียงพูดภาษาไทย; การประมวลผลเสียงพูด; การประมวลผลแบบหลายช่องรับสัญญาณ

 

Abstract

In this paper, we propose robust speech recognition for Thai language in real noisy environments. Performance of speech recognition can be increased by using a microphone array and N-best extension of the LIMABEAM algorithm is used for recognition. We show that this algorithm can be used to optimize the noisy acoustic features using the N-best hypothesized transcriptions generated at a first recognition step and then apply LIMABEAM algorithm in each N-best hypothesized transcriptions to get the recognition result. The resulting N-best hypotheses list is automatically re-ranked. Results shows improvements over LIMABEAM algorithm with considerable amount of noise and limited reverberation. 

Keywords: robust speech recognition; Thai speech; speech processing; microphone array processing

Article Details

Section
Engineering and Architecture