การแยกภาพตัวอักษรลายมือเขียนภาษาไทยแบบอัตโนมัติโดยใช้การวิเคราะห์ถดถอยเชิงเส้นและการเรียนรู้ด้วยต้นไม้ตัดสินใจ
Main Article Content
Abstract
บทคัดย่อ
บทความฉบับนี้นำเสนอหลักการสำหรับแยกภาพตัวอักษรลายมือเขียนที่อยู่ติดกันแบบสัมผัสในเอกสารภาพตัวอักษรออกจากกัน ซึ่งเป็นกระบวนการเตรียมพร้อมสำหรับการรู้จำลายมือเขียน เนื่องจากลักษณะของการเขียนภาษาไทยมีความแตกต่างจากภาษาอังกฤษ ซึ่งสามารถแบ่งออกได้เป็น 4 ระดับ โดยสามารถติดกันได้ในระดับเดียวกันและข้ามระดับทั้งในแนวนอนและแนวตั้ง หลักการที่ใช้ในบทความนี้ ประกอบด้วยการรับภาพเอกสารลายมือเขียนมาคัดแยกให้เป็นตัวอักษรเดี่ยวและตัวอักษรติดกัน จากนั้นจะวิเคราะห์ตัวอักษรด้วยคุณลักษณะต่าง ๆ ของตัวอักษรไทย เพื่อแยกตัวอักษรที่ติดกันในแนวนอนและแนวตั้ง โดยมีการใช้เส้นการวิเคราะห์การถดถอยสำหรับตัดแบ่งระดับพยัญชนะกับสระ ขั้นตอนนี้ทำการตัดแบ่งตัวอักษรก่อนการรู้จำตัวอักษรตามหลักของการรู้จำตัวอักษรไทย ผลการทดลองพบว่าความถูกต้องของการแยกตัวอักษรลายมือเขียนภาษาไทยเป็นร้อยละ 90.44
คำสำคัญ : การรู้จำตัวอักษร; การวิเคราะห์องค์ประกอบหลัก; ต้นไม้ตัดสินใจ; เส้นการวิเคราะห์การถดถอย; เส้นอ้างอิงกรอบภาพ
Abstract
This paper presents an approach to analyze and segment Thai handwritten characters that are touched with the adjacent characters. In Thai handwriting system, the characters are displayed in four-levels and they can be touched both in vertical and horizontal axis. In this paper, the linear regression line is used to segment characters in horizontal line. For segmenting characters in vertical axis, Thai character’s attributes are learnt for building a classification model i.e. decision tree. The experimental result yields the average accuracy as 90.44 %.
Keywords: optical character recognition (OCR); principal component analysis (PCA); decision tree; linear regression; bounding box
Article Details
บทความที่ได้รับการตีพิมพ์เป็นลิขสิทธิ์ของคณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ข้อความที่ปรากฏในแต่ละเรื่องของวารสารเล่มนี้เป็นเพียงความเห็นส่วนตัวของผู้เขียน ไม่มีความเกี่ยวข้องกับคณะวิทยาศาสตร์และเทคโนโลยี หรือคณาจารย์ท่านอื่นในมหาวิทยาลัยธรรมศาสตร์ ผู้เขียนต้องยืนยันว่าความรับผิดชอบต่อทุกข้อความที่นำเสนอไว้ในบทความของตน หากมีข้อผิดพลาดหรือความไม่ถูกต้องใด ๆ