Efficient OCR using simple features and decision trees with backtracking

Author

Abu Haybah, Ibrahim S. I.

Source

The Arabian Journal for Science and Engineering. Section B, Engineering

Issue

Vol. 31, Issue 2B (31 Oct. 2006), pp.223-243, 21 p.

Publisher

King Fahd University of Petroleum and Minerals

Publication Date

2006-10-31

Country of Publication

Saudi Arabia

No. of Pages

21

Main Subjects

Mathematics

Topics

Abstract AR

في هذا البحث، نبين أنه يكفي استخدام معالم سهلة الحساب مثل ما نسميه إسقاطات شرائح أفقية و رأسية لكي تحل بكفاءة مسألة التعرف الضوئي على الحروف المطبوعة آليا.

يتم التعرف باستخدام شجرة قرار مدعومة بآليات رجوع و تنعيم و حذف صفوف و أعمدة مع إضافات أخرى لزيادة معدل النجاح.

و لتدريب النظام نستخدم رموز من خط Times New Roman.

إن تفعيل الرجوع و التنعيم و الحذف قد حقق معدلا ناجحا تجاوز 98% بزمن تعرف أقل من 30 مللي ثانية.

و قد تم تعريض خوارزمي التعرف لاختبار صعب بتلويث البيانات الأصلية بضوضاء إضافية مصطنعة، و مع هذا فقد حافظ الخوارزمي على معدل نجاح عال و معدل خطأ منخفض لصور ملوثة جدا، مما يعتبر نتيجة لاستخدام آليات الرجوع و التنعيم و حذف الصفوف و الأعمدة.

إن النتائج تبين أنه يمكننا الاعتماد على معالم و لمحات بسيطة للتعرف باعتمادية على الحروف.

و يمكن تخفيض معدل الخطأ بزيادة حجم بيانات التدريب، و يمكن تقليص زمن التعرف باستخدام بعض طرق البرمجة المثالية مع حاسبات أكثر قدرة.

Abstract EN

In this paper, it is shown that it is adequate to use simple and easy-tocompute features such as those we call sliced horizontal and vertical projections to solve efficiently the OCR problem for machine-printed documents.

Recognition is achieved using a decision tree supported with backtracking, smoothing, row and column cropping, and other additions to increase the success rate.

Symbols from Times New Roman typeface are used to train our system.

Activating backtracking, smoothing, and cropping achieved more than 98% success rate for a recognition time below 30 ms per character.

The recognition algorithm was exposed to a hard test by polluting the original dataset with additional artificial noise and could maintain a high success rate and low error rate for highly polluted images, which is a result of backtracking, smoothing, and row and column cropping.

Results indicate that we can depend on simple features and hints to reliably recognize characters.

The error rate can be decreased by increasing the size of the training dataset.

The recognition time can be reduced by using some programming optimization techniques and more powerful computers.

American Psychological Association (APA)

Abu Haybah, Ibrahim S. I.. 2006. Efficient OCR using simple features and decision trees with backtracking. The Arabian Journal for Science and Engineering. Section B, Engineering،Vol. 31, no. 2B, pp.223-243.
https://search.emarefa.net/detail/BIM-344507

Modern Language Association (MLA)

Abu Haybah, Ibrahim S. I.. Efficient OCR using simple features and decision trees with backtracking. The Arabian Journal for Science and Engineering. Section B, Engineering Vol. 31, no. 2B (Oct. 2006), pp.223-243.
https://search.emarefa.net/detail/BIM-344507

American Medical Association (AMA)

Abu Haybah, Ibrahim S. I.. Efficient OCR using simple features and decision trees with backtracking. The Arabian Journal for Science and Engineering. Section B, Engineering. 2006. Vol. 31, no. 2B, pp.223-243.
https://search.emarefa.net/detail/BIM-344507

Data Type

Journal Articles

Language

English

Notes

Includes appendicx : p. 240-243

Record ID

BIM-344507