تقنية مقترحة لكبس الوثائق النصية العربية

المؤلفون المشاركون

السيف، خليل إبراهيم
النعيمي، ميسون خضر حسين

المصدر

المجلة العراقية للعلوم الإحصائية

الناشر

جامعة الموصل كلية علوم الحاسبات و الرياضيات

تاريخ النشر

2010-06-30

دولة النشر

العراق

عدد الصفحات

20

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

الملخص العربي

تعد دراسة الكبس بأنواعه كافة موضوعا مهما في جميع المجالات، إذ أن تقليل المساحة الخز نية في الذاكرة المستخدمة لخزن البيانات فضلا عن الوقت الذي تتطلبه تلك البيانات في النقل دفع العديد من الباحثين إلى عمل خوارزميات لكبس البيانات و من ثم إعادة فك كبسها.

و نظرا لذلك فقد تمت في هذا البحث دراسة صور الوثائق النصية العربية و محتوياتها لغرض إمكانية كبسها من خلال اقتراح خوارزمية خاصة بصور الوثائق النصية العربية اعتمدا على استخلاص المعاملات الخاصة بصفات الوثيقة.

و قد تضمنت أفكار الخوارزمية المقترحة العمل على استئصال الأسطر ثم استئصال الأعمدة غير المستخدمة من الوثيقة النصية لغرض اختزال حجم الوثيقة النصية إلى أقل ما يمكن و ذلك لاختزال فترة تنفيذ عملية الكبس و تسهيلها، و من خلال تطبيق مفاهيم خوارزميات التقسيم الشجري الرباعي على محتويات الوثيقة المختزلة ليتم الحصول على و صف كامل لنسيجها و من ثم إنشاء ملف جديد يحوي على المعلومات الخاصة بوصف الصورة النصية.

و جدت انه عند تطبيق تلك الخوارزمية على ملفات نصية بهيئات مختلفة كانت نتائج الكبس مشجعة لغرض اعتمادها من قبل برمجيات الكبس، فقد تم الحصول على نسبة كبس جيدة، فضلا عن ذلك تم الحصول على وضوحية جيدة و عالية عند فتح كبس صور تلك الوثائق النصية.

علما أن نسبة الكبس تراوحت من 1 : 5.

الملخص الإنجليزي

The study of compression types is regarded as an important subject in all fields.

Minimizing the storage area in the memory used in storing data and the time required by the data on transferring have urged many researchers to prepare algorithms to compress data and then to repeat untying compression.

In the current research, the pictures of Arabic textual documents together with their contents have been studied in an attempt to compress them through the suggestion of an algorithm specific to the pictures of Arabic textual documents based on the deduction of coefficients of the features of the document.

The ideas of the algorithm suggested subsume working to uproot the lines and then the columns of the textual document so as to minimize the size of the textual document to its minimum degree by minimizing the period of executing and by facilitating the process of compression.

All that is done by applying the concepts of the algorithms of the four-fold tree division to the contents of the minimized document so as to get a full description of the texture of that minimized document, then building up a new file that contains the data limited to the description of the textual picture.

We have also found that, on applying that algorithm to the textual files in different shapes, the outcomes have been very encouraging so as to be adopted by compression programes.

We have also obtained a good compression ratio and also a better and higher vividness on opening the compression of those textual documents.

The compression ratio ranged between 1 : 5.

نوع البيانات

أوراق مؤتمرات

رقم السجل

BIM-256088

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

السيف، خليل إبراهيم والنعيمي، ميسون خضر حسين. 2010-06-30. تقنية مقترحة لكبس الوثائق النصية العربية. المؤتمر العلمي للرياضيات-الإحصاء و المعلوماتية (2 : 2009 : الموصل، العراق). . ع. 17 (2010).الموصل، العراق : جامعة الموصل، كلية علوم الحاسبات و الرياضيات،.
https://search.emarefa.net/detail/BIM-256088

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

السيف، خليل إبراهيم والنعيمي، ميسون خضر حسين. تقنية مقترحة لكبس الوثائق النصية العربية. . الموصل، العراق : جامعة الموصل، كلية علوم الحاسبات و الرياضيات،. 2010-06-30.
https://search.emarefa.net/detail/BIM-256088

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

السيف، خليل إبراهيم والنعيمي، ميسون خضر حسين. تقنية مقترحة لكبس الوثائق النصية العربية. . المؤتمر العلمي للرياضيات-الإحصاء و المعلوماتية (2 : 2009 : الموصل، العراق).
https://search.emarefa.net/detail/BIM-256088