ผลงานวิทยานิพนธ์ของนักศึกษาปริญญาเอกสาขาวิทยาการคอมพิวเตอร์
Ph.D. (Computer Science) Thesis

Topic (TH)

Topic (EN)

การรู้จำภาพอักษรธรรมล้านนาที่จารในคัมภีร์ใบลาน บนฐานการจำแนกเชิงลำดับชั้น Lanna Dhamma Handwritten Character Recognition on Palm Leaf Manuscripts Based on Hierarchical Classification

Author
Advisory Committee

Mr.Papangkorn Inkeaw
Assoc. Prof. Dr. Jeerayut Chaijaruwanich (Advisor)
Dr. Sanparith Marukatat (Co-advisor)
Prof. Dr. Shinn-Ying Ho (Co-advisor)

Abstract

      Lanna Dhamma is an ancient alphabet. It was used through the Lanna Kingdom for inscribing knowledge and legends into documents such as palm leaf manuscripts. During the last hundreds of years, those manuscripts had been damaged. Large number of valuable manuscripts have been surveyed and digitized by many organizations. To extract useful information, transforming these manuscripts in form of digital images into machine-encoded texts is often considered to be the first step towards text mining. So, this thesis presents a handwritten character recognition of Lanna Dhamma alphabet on palm leaf manuscripts. Our works focus on character segmentation and recognition tasks that the complex characteristics of Lanna Dhamma are challenges in. In character segmentation, we propose a segmentation method that utilizes feedback from character recognition model in order to determine segmentation points. An optimal solution are retrieved using a graph partitioning algorithm. For character recognition, we propose a recognition model designed based on the hierarchical classification. Local discriminative features are used to distinguish character classes. The two proposed method were evaluated through cross-validation and writer-independent tests. The proposed methods have produced promising performance, and outperformed existing methods.

บทคัดย่อ

      อักษรธรรมล้านนาเป็นอักษรโบราณที่ถูกใช้ในช่วงเวลาแห่งความเจริญรุ่งเรืองของอาณาจักรล้านนา ในการบันทึกความรู้และเรื่องรางต่างๆ ลงในเอกสาร อาทิ คัมภีร์ใบลาน เอกสารโบราณเหล่านั้นถูกเก็บรักษาและสืบทอดผ่านระยะเวลาอันยาวนานจนในปัจจุบันอยู่ในสภาพที่ผุพัง หลายหน่วยงานได้เริ่มทำการสำรวจและจัดทำสำเนาภาพถ่ายเอกสารโบราณอันมีคุณค่าเหล่านั้นไว้จำนวนมาก การแปลงสำเนาภาพถ่ายเอกสารให้อยู่ในรูปแฟ้มข้อความที่สามารถแก้ไขได้โดยเครื่องคอมพิวเตอร์นับเป็นจุดเริ่มต้นของการสกัดองค์ความรู้จากเอกสารโบราณเหล่านั้นด้วยวิธีการทำเหมืองข้อความ ดุษฎีนิพนธ์ฉบับนี้จึงนำเสนอกระบวนการรู้จำภาพลายมือเขียนอักษรธรรมล้านนาที่จารในคัมภีร์ใบลาน เราให้ความสนใจไปยังขั้นตอนการตัดแยกอักษรและการรู้จำภาพอักษรซึ่งมีความท้าทายอันเนื่องด้วยคุณลักษณะที่ซับซ้อนของอักษรธรรมล้านนา ในขั้นตอนตัดแยกอักษร เรานำเสนอวิธีการตัดแยกอักษรโดยใช้ประโยชน์จากตัวรู้จำภาพอักษรช่วยในการตัดสินใจ ปัญหาการตัดแยกอักษรถูกแก้ไขผ่านมุมมองของการแบ่งกั้นกราฟ ส่วนการรู้จำภาพอักษรนั้น โมเดลรู้จำภาพอักษรถูกออกแบบขึ้นบนฐานการจำแนกเชิงลำดับชั้น คุณลักษณะเฉพาะที่ถูกใช้ในการแบ่งแยกอักษรต่างๆ ออกจากกัน วิธีการที่นำเสนอทั้งสองวิธีการนี้ได้ถูกทดสอบประสิทธิภาพโดยชุดข้อมูลภาพลายมือเขียนทั้งที่เขียนโดยผู้เขียนคนเดียวกับชุดข้อมูลเรียนรู้และผู้เขียนต่างคนกัน ผลการทดลองพบว่า วิธีการที่นำเสนอให้ผลลัพธ์ที่น่าพึงพอใจและดีกว่าวิธีการอื่นๆ ที่มีอยู่เดิม

Introduction Video

Topic(TH) : การรู้จำภาพอักษรธรรมล้านนาที่จารในคัมภีร์ใบลาน บนฐานการจำแนกเชิงลำดับชั้น

Topic(EN) : Lanna Dhamma Handwritten Character Recognition on Palm Leaf Manuscripts Based on Hierarchical Classification