Efficient OCR using simple features and decision trees with backtracking
المؤلف
المصدر
The Arabian Journal for Science and Engineering. Section B, Engineering
العدد
المجلد 31، العدد 2B (31 أكتوبر/تشرين الأول 2006)، ص ص. 223-243، 21ص.
الناشر
جامعة الملك فهد للبترول و المعادن
تاريخ النشر
2006-10-31
دولة النشر
السعودية
عدد الصفحات
21
التخصصات الرئيسية
الموضوعات
الملخص AR
في هذا البحث، نبين أنه يكفي استخدام معالم سهلة الحساب مثل ما نسميه إسقاطات شرائح أفقية و رأسية لكي تحل بكفاءة مسألة التعرف الضوئي على الحروف المطبوعة آليا.
يتم التعرف باستخدام شجرة قرار مدعومة بآليات رجوع و تنعيم و حذف صفوف و أعمدة مع إضافات أخرى لزيادة معدل النجاح.
و لتدريب النظام نستخدم رموز من خط Times New Roman.
إن تفعيل الرجوع و التنعيم و الحذف قد حقق معدلا ناجحا تجاوز 98% بزمن تعرف أقل من 30 مللي ثانية.
و قد تم تعريض خوارزمي التعرف لاختبار صعب بتلويث البيانات الأصلية بضوضاء إضافية مصطنعة، و مع هذا فقد حافظ الخوارزمي على معدل نجاح عال و معدل خطأ منخفض لصور ملوثة جدا، مما يعتبر نتيجة لاستخدام آليات الرجوع و التنعيم و حذف الصفوف و الأعمدة.
إن النتائج تبين أنه يمكننا الاعتماد على معالم و لمحات بسيطة للتعرف باعتمادية على الحروف.
و يمكن تخفيض معدل الخطأ بزيادة حجم بيانات التدريب، و يمكن تقليص زمن التعرف باستخدام بعض طرق البرمجة المثالية مع حاسبات أكثر قدرة.
الملخص EN
In this paper, it is shown that it is adequate to use simple and easy-tocompute features such as those we call sliced horizontal and vertical projections to solve efficiently the OCR problem for machine-printed documents.
Recognition is achieved using a decision tree supported with backtracking, smoothing, row and column cropping, and other additions to increase the success rate.
Symbols from Times New Roman typeface are used to train our system.
Activating backtracking, smoothing, and cropping achieved more than 98% success rate for a recognition time below 30 ms per character.
The recognition algorithm was exposed to a hard test by polluting the original dataset with additional artificial noise and could maintain a high success rate and low error rate for highly polluted images, which is a result of backtracking, smoothing, and row and column cropping.
Results indicate that we can depend on simple features and hints to reliably recognize characters.
The error rate can be decreased by increasing the size of the training dataset.
The recognition time can be reduced by using some programming optimization techniques and more powerful computers.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
Abu Haybah, Ibrahim S. I.. 2006. Efficient OCR using simple features and decision trees with backtracking. The Arabian Journal for Science and Engineering. Section B, Engineering،Vol. 31, no. 2B, pp.223-243.
https://search.emarefa.net/detail/BIM-344507
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
Abu Haybah, Ibrahim S. I.. Efficient OCR using simple features and decision trees with backtracking. The Arabian Journal for Science and Engineering. Section B, Engineering Vol. 31, no. 2B (Oct. 2006), pp.223-243.
https://search.emarefa.net/detail/BIM-344507
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
Abu Haybah, Ibrahim S. I.. Efficient OCR using simple features and decision trees with backtracking. The Arabian Journal for Science and Engineering. Section B, Engineering. 2006. Vol. 31, no. 2B, pp.223-243.
https://search.emarefa.net/detail/BIM-344507
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
Includes appendicx : p. 240-243
رقم السجل
BIM-344507
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر