إيجاد الهيكل و التقسيم باستعمال الشبكات العصبية للنصوص العربية المكتوبة يدويا

العناوين الأخرى

Skeletonization and segmentation using neural networks of handwritten Arabic text

مقدم أطروحة جامعية

وديان، فادي إبراهيم علي

مشرف أطروحة جامعية

عبابنة، إسماعيل محمد
الطعاني، أحمد توفيق

أعضاء اللجنة

سلامة، وليد خالد
البصول، عدنان أحمد
عبيدات، عبد السلام

الجامعة

جامعة آل البيت

الكلية

كلية الأمير الحسين بن عبد الله لتكنولوجيا المعلومات

القسم الأكاديمي

قسم علوم الحاسوب

دولة الجامعة

الأردن

الدرجة العلمية

ماجستير

تاريخ الدرجة العلمية

1999

الملخص العربي

يعنى هذا البحث بموضوع معالجة النصوص (Text Processing) العربية المكتوبة يلوبل و تحديدا ليجاد الهيكل (Skeletonization) و التقسيم.

إن عملية إيجاد الهيكل هي خطوة ضرورية في كير من أنظمة تمييز الأحرف.

تتم في هذه الرسالة دراسة خوارزمية تجميع عنقودي غانمة لإيجاد هياكل الكلمات و المقاطع العربية المكتوبة يدويا.

تمتاز الخوارزمية بالقدرة على إيجاد هيكل فريد بغض النظر عن الميلان في طريقة الإدخال و بحساسية منخفضة للشوائب.

كما تمتاز بالقدرة على التعبير عن العلاقات التركيبية للكلمة.

استعملت الخوارزمية في بحث سابق من قبل (1991,Mahmoud et al) لإيجاد الهيكل للأحرف العربية المنفصلة، و قد سجلت نجاحا مميزا قي قدرتها على التعبير عن العلاقات التركيبية للحرف العربي، إلا أن البحث أشار إلى مشكلتين تعاني منهما الخوارزمية و هما البطء الشديد مقارنة مع طرق التمثيل الأخرى، و مشكلة الاختيار الابتدائي لعدد العناقيد.

تم في هذا البحث رقم حل للمشكلة الأولى بإضافة خطوة ترقيق للكلمة قبل تطبيق الخوارزمية، حيث استغرق الخوارزمية مع الترقيق حوالي 2 % من زمن التنفيذ الأصلي.

و في نقس الوقت فإن الترقيق أدى إلى تحسن في أداء الخو ارزمية حيث يمتاز الهيكل الناتج بأنه يعبر عن العناقيد التي تشكل المحور الوسطي للكلمة.

و للتغلب على المشكلة الثانية، تم اقتراح اختيار عدد ابتدائي من العناقيد يتناسب طردا مع حجم الكلمة أو المقطع، يتم يعد ذلك التخلص من العناقيد الزائدة و التي ليس لوجودها أية أهمية في التركيب الهيكلي للكلمة. إن تقسيم الكلمات و المقاطع العربية إلى الأحرف التي تتكون منها عملية بالغة خاصة عندما تكون الكتابة يدوية و ذلك لعدم وجود قواعد واضحة يمكن استعمالها, كما أن عدم وجود حجم أو شكل واحد للحرف بالإضافة للتداخل ما بين الأحرف (Overlaying) يزيد هن تطيب العملية.

و مع أن استعمال الشبكات العصبية (Neural Networks-NN) لاقى نجاحا واسعا قي تمييز الأنماط و ذلك لإجراء عملية التصنيف إلا آن استعمالها من اجل شيم الكلمات المتصلة أو الأرقام و الأحرف المنصة ما زال قليلا.

يتم في هذا البحث بناء نظام لتنسيهم الأحرف العربية المتصلة باستعمال منظومة من الشبكات العصبية التصنيفية (Multiple Classifier Type NN).

تهدف الشبكات العصبية المقترحة إلى التوصل إلى اقتران حكم (Decision Function) لمجموعة من المواقع التي تشكل مجموعة التقسيم الكلية و التي تتكون من أزواج رؤوس الهيكل المتصلة.

تستخرج مجموعة من الخصائص لكل زوج في المجموعة و تشكل هذه الخصائص منجه إدخال (1 nput Vector) لشبكة عصبية تقوم بالحكم على مدى ملائمة هذا الموقع للتقسيم.

تبعا للطريقة المقدمة، ينظر للتقسيم على أنها عملية تصنيفا، حيث يتم تصنيفا المتجهات إلى نوعين من الأصناف، أصناف مناسبة للتقسيم و أخرى غير بمناسبة.

الشبكات العملية المستعملة إماميه التغذية Feed Forward) يتم تدريبها بخوارزمية الانتشار الخلفي للخطأ (ErrorBackpropagation)، و تكون من طبقة إدخال (Layer ،١١٦٢٧) تقوم بتمرير قيم الخصائص ومن طبقة خفية واحدة (Hidden Layer) كما تحتوي طبقة الإخراج (Output Layer) على خلية عصبية (Neuron) تمثل اقتران الحكم المطلوب.

الشبكات العلمية المعتملة صغيرة الحجم و محددة الغرض، و تحتاج إلى مجموعات تدريب صغيرة نسبيا، حيث استطاعت الشبكات أن تثبت فعالية عالية في التعامل مع الكتابة اليدوية مع اختلاف طريقة الكتابة و حجمها، بلغ معدل النجاح الذي سجلته منظومة الشيكات العصبية حوالي 89 %. تم تطبيق النظام على جهاز حاسوب شخصي، كما تم إعداد جميع الخوارزميات اللازمة بلغة البرمجة سي (c Language).

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

عدد الصفحات

83

قائمة المحتويات

فهرس المحتويات / الموضوعات.

الملخص / المستخلص.

الفصل الأول : مقدمة في تمييز الأنماط.

الفصل الثاني : معالجة صور النصوص العربية.

الفصل الثالث : المعالجة الأولية و إيجاد الهيكل و استخراج الخصائص.

الفصل الرابع : بناء و تدريب الشبكات العصبية.

الفصل الخامس : النتائج و المناقشة.

قائمة المراجع.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

وديان، فادي إبراهيم علي. (1999). إيجاد الهيكل و التقسيم باستعمال الشبكات العصبية للنصوص العربية المكتوبة يدويا. (أطروحة ماجستير). جامعة آل البيت, الأردن
https://search.emarefa.net/detail/BIM-319544

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

وديان، فادي إبراهيم علي. إيجاد الهيكل و التقسيم باستعمال الشبكات العصبية للنصوص العربية المكتوبة يدويا. (أطروحة ماجستير). جامعة آل البيت. (1999).
https://search.emarefa.net/detail/BIM-319544

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

وديان، فادي إبراهيم علي. (1999). إيجاد الهيكل و التقسيم باستعمال الشبكات العصبية للنصوص العربية المكتوبة يدويا. (أطروحة ماجستير). جامعة آل البيت, الأردن
https://search.emarefa.net/detail/BIM-319544

لغة النص

العربية

نوع البيانات

رسائل جامعية

رقم السجل

BIM-319544