Efficient OCR using simple features and decision trees with backtracking

المؤلف

Abu Haybah, Ibrahim S. I.

المصدر

The Arabian Journal for Science and Engineering. Section B, Engineering

العدد

المجلد 31، العدد 2B (31 أكتوبر/تشرين الأول 2006)، ص ص. 223-243، 21ص.

الناشر

جامعة الملك فهد للبترول و المعادن

تاريخ النشر

2006-10-31

دولة النشر

السعودية

عدد الصفحات

21

التخصصات الرئيسية

الرياضيات

الموضوعات

الملخص AR

في هذا البحث، نبين أنه يكفي استخدام معالم سهلة الحساب مثل ما نسميه إسقاطات شرائح أفقية و رأسية لكي تحل بكفاءة مسألة التعرف الضوئي على الحروف المطبوعة آليا.

يتم التعرف باستخدام شجرة قرار مدعومة بآليات رجوع و تنعيم و حذف صفوف و أعمدة مع إضافات أخرى لزيادة معدل النجاح.

و لتدريب النظام نستخدم رموز من خط Times New Roman.

إن تفعيل الرجوع و التنعيم و الحذف قد حقق معدلا ناجحا تجاوز 98% بزمن تعرف أقل من 30 مللي ثانية.

و قد تم تعريض خوارزمي التعرف لاختبار صعب بتلويث البيانات الأصلية بضوضاء إضافية مصطنعة، و مع هذا فقد حافظ الخوارزمي على معدل نجاح عال و معدل خطأ منخفض لصور ملوثة جدا، مما يعتبر نتيجة لاستخدام آليات الرجوع و التنعيم و حذف الصفوف و الأعمدة.

إن النتائج تبين أنه يمكننا الاعتماد على معالم و لمحات بسيطة للتعرف باعتمادية على الحروف.

و يمكن تخفيض معدل الخطأ بزيادة حجم بيانات التدريب، و يمكن تقليص زمن التعرف باستخدام بعض طرق البرمجة المثالية مع حاسبات أكثر قدرة.

الملخص EN

In this paper, it is shown that it is adequate to use simple and easy-tocompute features such as those we call sliced horizontal and vertical projections to solve efficiently the OCR problem for machine-printed documents.

Recognition is achieved using a decision tree supported with backtracking, smoothing, row and column cropping, and other additions to increase the success rate.

Symbols from Times New Roman typeface are used to train our system.

Activating backtracking, smoothing, and cropping achieved more than 98% success rate for a recognition time below 30 ms per character.

The recognition algorithm was exposed to a hard test by polluting the original dataset with additional artificial noise and could maintain a high success rate and low error rate for highly polluted images, which is a result of backtracking, smoothing, and row and column cropping.

Results indicate that we can depend on simple features and hints to reliably recognize characters.

The error rate can be decreased by increasing the size of the training dataset.

The recognition time can be reduced by using some programming optimization techniques and more powerful computers.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

Abu Haybah, Ibrahim S. I.. 2006. Efficient OCR using simple features and decision trees with backtracking. The Arabian Journal for Science and Engineering. Section B, Engineering،Vol. 31, no. 2B, pp.223-243.
https://search.emarefa.net/detail/BIM-344507

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

Abu Haybah, Ibrahim S. I.. Efficient OCR using simple features and decision trees with backtracking. The Arabian Journal for Science and Engineering. Section B, Engineering Vol. 31, no. 2B (Oct. 2006), pp.223-243.
https://search.emarefa.net/detail/BIM-344507

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

Abu Haybah, Ibrahim S. I.. Efficient OCR using simple features and decision trees with backtracking. The Arabian Journal for Science and Engineering. Section B, Engineering. 2006. Vol. 31, no. 2B, pp.223-243.
https://search.emarefa.net/detail/BIM-344507

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes appendicx : p. 240-243

رقم السجل

BIM-344507