การแยกภาพตัวอักษรลายมือเขียนภาษาไทยแบบอัตโนมัติโดยใช้การวิเคราะห์ถดถอยเชิงเส้นและการเรียนรู้ด้วยต้นไม้ตัดสินใจ

Main Article Content

วิเชษฐ์รจน์ เอี่ยมสำอางค์
รัชฎา คงคะจันทร์

Abstract

บทคัดย่อ

บทความฉบับนี้นำเสนอหลักการสำหรับแยกภาพตัวอักษรลายมือเขียนที่อยู่ติดกันแบบสัมผัสในเอกสารภาพตัวอักษรออกจากกัน ซึ่งเป็นกระบวนการเตรียมพร้อมสำหรับการรู้จำลายมือเขียน เนื่องจากลักษณะของการเขียนภาษาไทยมีความแตกต่างจากภาษาอังกฤษ ซึ่งสามารถแบ่งออกได้เป็น 4 ระดับ โดยสามารถติดกันได้ในระดับเดียวกันและข้ามระดับทั้งในแนวนอนและแนวตั้ง หลักการที่ใช้ในบทความนี้ ประกอบด้วยการรับภาพเอกสารลายมือเขียนมาคัดแยกให้เป็นตัวอักษรเดี่ยวและตัวอักษรติดกัน จากนั้นจะวิเคราะห์ตัวอักษรด้วยคุณลักษณะต่าง ๆ ของตัวอักษรไทย เพื่อแยกตัวอักษรที่ติดกันในแนวนอนและแนวตั้ง โดยมีการใช้เส้นการวิเคราะห์การถดถอยสำหรับตัดแบ่งระดับพยัญชนะกับสระ ขั้นตอนนี้ทำการตัดแบ่งตัวอักษรก่อนการรู้จำตัวอักษรตามหลักของการรู้จำตัวอักษรไทย ผลการทดลองพบว่าความถูกต้องของการแยกตัวอักษรลายมือเขียนภาษาไทยเป็นร้อยละ 90.44

คำสำคัญ : การรู้จำตัวอักษร; การวิเคราะห์องค์ประกอบหลัก; ต้นไม้ตัดสินใจ; เส้นการวิเคราะห์การถดถอย; เส้นอ้างอิงกรอบภาพ

 

Abstract

This paper presents an approach to analyze and segment Thai handwritten characters that are touched with the adjacent characters. In Thai handwriting system, the characters are displayed in four-levels and they can be touched both in vertical and horizontal axis. In this paper, the linear regression line is used to segment characters in horizontal line. For segmenting characters in vertical axis, Thai character’s attributes are learnt for building a classification model i.e. decision tree. The experimental result yields the average accuracy as 90.44 %.

Keywords: optical character recognition (OCR); principal component analysis (PCA); decision tree; linear regression; bounding box

Article Details

How to Cite
เอี่ยมสำอางค์ ว., & คงคะจันทร์ ร. (2013). การแยกภาพตัวอักษรลายมือเขียนภาษาไทยแบบอัตโนมัติโดยใช้การวิเคราะห์ถดถอยเชิงเส้นและการเรียนรู้ด้วยต้นไม้ตัดสินใจ. Thai Journal of Science and Technology, 2(2), 166–174. https://doi.org/10.14456/tjst.2013.13
Section
บทความวิจัย
Author Biographies

วิเชษฐ์รจน์ เอี่ยมสำอางค์, ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ศูนย์รังสิต ตำบลคลองหนึ่ง อำเภอคลองหลวง จังหวัดปทุมธานี 12120

รัชฎา คงคะจันทร์, ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ศูนย์รังสิต ตำบลคลองหนึ่ง อำเภอคลองหลวง จังหวัดปทุมธานี 12120