تقنية مقترحة لكبس الوثائق النصية العربية

Joint Authors

السيف، خليل إبراهيم
النعيمي، ميسون خضر حسين

Source

المجلة العراقية للعلوم الإحصائية

Publisher

University of Mosul College of Computer Science and Mathematics

Publication Date

2010-06-30

Country of Publication

Iraq

No. of Pages

20

Main Subjects

Information Technology and Computer Science

Topics

Arabic Abstract

تعد دراسة الكبس بأنواعه كافة موضوعا مهما في جميع المجالات، إذ أن تقليل المساحة الخز نية في الذاكرة المستخدمة لخزن البيانات فضلا عن الوقت الذي تتطلبه تلك البيانات في النقل دفع العديد من الباحثين إلى عمل خوارزميات لكبس البيانات و من ثم إعادة فك كبسها.

و نظرا لذلك فقد تمت في هذا البحث دراسة صور الوثائق النصية العربية و محتوياتها لغرض إمكانية كبسها من خلال اقتراح خوارزمية خاصة بصور الوثائق النصية العربية اعتمدا على استخلاص المعاملات الخاصة بصفات الوثيقة.

و قد تضمنت أفكار الخوارزمية المقترحة العمل على استئصال الأسطر ثم استئصال الأعمدة غير المستخدمة من الوثيقة النصية لغرض اختزال حجم الوثيقة النصية إلى أقل ما يمكن و ذلك لاختزال فترة تنفيذ عملية الكبس و تسهيلها، و من خلال تطبيق مفاهيم خوارزميات التقسيم الشجري الرباعي على محتويات الوثيقة المختزلة ليتم الحصول على و صف كامل لنسيجها و من ثم إنشاء ملف جديد يحوي على المعلومات الخاصة بوصف الصورة النصية.

و جدت انه عند تطبيق تلك الخوارزمية على ملفات نصية بهيئات مختلفة كانت نتائج الكبس مشجعة لغرض اعتمادها من قبل برمجيات الكبس، فقد تم الحصول على نسبة كبس جيدة، فضلا عن ذلك تم الحصول على وضوحية جيدة و عالية عند فتح كبس صور تلك الوثائق النصية.

علما أن نسبة الكبس تراوحت من 1 : 5.

English Abstract

The study of compression types is regarded as an important subject in all fields.

Minimizing the storage area in the memory used in storing data and the time required by the data on transferring have urged many researchers to prepare algorithms to compress data and then to repeat untying compression.

In the current research, the pictures of Arabic textual documents together with their contents have been studied in an attempt to compress them through the suggestion of an algorithm specific to the pictures of Arabic textual documents based on the deduction of coefficients of the features of the document.

The ideas of the algorithm suggested subsume working to uproot the lines and then the columns of the textual document so as to minimize the size of the textual document to its minimum degree by minimizing the period of executing and by facilitating the process of compression.

All that is done by applying the concepts of the algorithms of the four-fold tree division to the contents of the minimized document so as to get a full description of the texture of that minimized document, then building up a new file that contains the data limited to the description of the textual picture.

We have also found that, on applying that algorithm to the textual files in different shapes, the outcomes have been very encouraging so as to be adopted by compression programes.

We have also obtained a good compression ratio and also a better and higher vividness on opening the compression of those textual documents.

The compression ratio ranged between 1 : 5.

Data Type

Conference Papers

Record ID

BIM-256088

American Psychological Association (APA)

السيف، خليل إبراهيم والنعيمي، ميسون خضر حسين. 2010-06-30. تقنية مقترحة لكبس الوثائق النصية العربية. المؤتمر العلمي للرياضيات-الإحصاء و المعلوماتية (2 : 2009 : الموصل، العراق). . ع. 17 (2010).الموصل، العراق : جامعة الموصل، كلية علوم الحاسبات و الرياضيات،.
https://search.emarefa.net/detail/BIM-256088

Modern Language Association (MLA)

السيف، خليل إبراهيم والنعيمي، ميسون خضر حسين. تقنية مقترحة لكبس الوثائق النصية العربية. . الموصل، العراق : جامعة الموصل، كلية علوم الحاسبات و الرياضيات،. 2010-06-30.
https://search.emarefa.net/detail/BIM-256088

American Medical Association (AMA)

السيف، خليل إبراهيم والنعيمي، ميسون خضر حسين. تقنية مقترحة لكبس الوثائق النصية العربية. . المؤتمر العلمي للرياضيات-الإحصاء و المعلوماتية (2 : 2009 : الموصل، العراق).
https://search.emarefa.net/detail/BIM-256088