Classical arabic poetry categorization using N-Gram frequency statistics

العناوين الأخرى

تصنيف الشعر العربي الكلاسيكي باستخدام ترددات N-Gram الإحصائية

المؤلف

Muhammad, Iqbal Abd al-Baqi

المصدر

Iraqi Journal of Science

العدد

المجلد 51، العدد 1 (31 مارس/آذار 2010)7ص.

الناشر

جامعة بغداد كلية العلوم

تاريخ النشر

2010-03-31

دولة النشر

العراق

عدد الصفحات

7

التخصصات الرئيسية

اللغات والآداب المقارنة

الموضوعات

الملخص AR

معظم مفردات اللغة العربية مبنية من اشتقاقات جذور الكلمات.

هذه الجذور هي كلمات مؤلفة من ثلاثة إلى خمسة أحرف ساكنة.

أي عملية تجري على اللغة العربية لأغراض استرجاع المعلومات تتطلب التعامل مع صرفيات اللغة و تغييرات بنائها أولا (هذه العملية تسمى التجذير) ثم نستخدم طريقة إحصائية لاسترجاع المعلومات.

هذا البحث يقدم طريقة لتصنيف الشعر العربي الكلاسيكي إلى أصنافه المعروفة و هي : الغزل، المدح، الوصف، الهجاء، ...

إلخ و ذلك باستخدام كل من خوارزمية التجذير الخفيف (التي تميز مجاميع من الإضافات الأمامية و النهائية في الكلمة العربية و من ثم حذفها لغرض الوصول إلى جذر الكلمة) مع طريقة N-gram الإحصائية (و التي تسترجع المعلومات دون الخوض في تعقيدات اللغة).

نوعين من القياسات سوف يتم استخدامها و هما مسافة Manhattan المعامل الغير مماثل، و قياس Dice و هو المعامل المماثل لأغراض التصنيف.

الملخص EN

Most of the Arabic language vocabulary is built from the roots derivation.

These roots are words composed of three to five consonants letters.

Any performance in Arabic language for the purpose of information retrieval needs to deal with the language morphological and structural changes first (which is called the stemming process) then a statistical method for extracting information is implemented.

This approach presents a method for categorizing the Classical Arabic Poetry (CAP) into its categorizations : Ghazal, Medeh, Wasef, Hijaa`, ...

etc.

by combining the algorithm of a light stemmer (which identify sets of prefixes and suffixes in an Arabic word in order to reach to the word root after removing the suffixes and prefixes) with "N-gram" statistical method (which retrieves the information independently of the language complexity).

Two measures will be implemented : the "Manhattan distance" dissimilarity coefficient and the "Dice's measure" similarity coefficient for the purpose of categorization.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

Muhammad, Iqbal Abd al-Baqi. 2010. Classical arabic poetry categorization using N-Gram frequency statistics. Iraqi Journal of Science،Vol. 51, no. 1.
https://search.emarefa.net/detail/BIM-309437

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

Muhammad, Iqbal Abd al-Baqi. Classical arabic poetry categorization using N-Gram frequency statistics. Iraqi Journal of Science Vol. 51, no. 1 (2010).
https://search.emarefa.net/detail/BIM-309437

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

Muhammad, Iqbal Abd al-Baqi. Classical arabic poetry categorization using N-Gram frequency statistics. Iraqi Journal of Science. 2010. Vol. 51, no. 1.
https://search.emarefa.net/detail/BIM-309437

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes bibliographical references.

رقم السجل

BIM-309437