Modeling Arabic language using statistical methods

المؤلفون المشاركون

Meftouh, Karimah
Laskri, M. Tayyib
Smaili, Kamil

المصدر

The Arabian Journal for Science and Engineering. Section C, Theme issues

العدد

المجلد 35، العدد 2C(s) (31 ديسمبر/كانون الأول 2010)، ص ص. 70-82، 13ص.

الناشر

جامعة الملك فهد للبترول و المعادن

تاريخ النشر

2010-12-31

دولة النشر

السعودية

عدد الصفحات

13

التخصصات الرئيسية

اللغات والآداب المقارنة
تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

الملخص AR

نقترح في هذا المقال دراسة النماذج الإحصائية للغة العربية.

أولا : سوف نقوم بإجراء العديد من التجارب باستخدام تقنيات ملمس مختلفة على مدونة صغيرة الحجم و المستخرجة من صحيفة يومية.

قلة البيانات تقودنا للجوء إلى حلول أخرى دون زيادة حجم المدونة.

و قد استخدمنا تقنية تقطيع الكلمات من أجل زيادة القابلية الإحصائية للمدونة مما أدى إلى نتائج أفضل.

أما التجربة الثانية فتتمثل في دراسة سلوك نماذج إحصائية تقوم على أنواع مختلفة من المدونات.

كذلك سنبين أن استعمال النماذج البعيدة يحسن الأنموذج الأساسي.

أخيرا نقترح دراسة مقارنة لنماذج إحصائية للغة العربية و لغات أجنبية عدة.

الهدف من هذه الدراسة هو فهم كيفية تحسين كل أنموذج من هذه اللغات.

و بالنسبة للغة العربية, فإن النماذج المحسوبة بتقنية «ويتن-بال» هي الأكثر كفاءة.

الملخص EN

In this paper, we propose to investigate statistical language models for Arabic.

First, several experiments using different smoothing techniques are carried out on a small corpus extracted from a daily newspaper.

The sparseness of the data leads us to investigate other solutions without increasing the size of the corpus.

Word segmentation technique has been employed in order to increase the statistical viability of the corpus.

An n-morpheme model has been developed which leads to a better performance in terms of normalized perplexity.

The second experiment concerns the study of the behavior of statistical models based on different kinds of corpora.

The introduction of a distant n-gram improves the baseline model.

Finally, we propose a comparative study of statistical language models for Arabic and several foreign languages.

The objective of this study is to understand how to better model each of these languages.

For foreign languages, trigram models are most appropriate whatever the smoothing technique used.

For Arabic, the n-gram models of higher order smoothed with the Witten-Bell method are more efficient.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

Meftouh, Karimah& Laskri, M. Tayyib& Smaili, Kamil. 2010. Modeling Arabic language using statistical methods. The Arabian Journal for Science and Engineering. Section C, Theme issues،Vol. 35, no. 2C(s), pp.70-82.
https://search.emarefa.net/detail/BIM-308404

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

Meftouh, Karimah…[et al.]. Modeling Arabic language using statistical methods. The Arabian Journal for Science and Engineering. Section C, Theme issues Vol. 35, no. 2C(s) (Dec. 2010), pp.70-82.
https://search.emarefa.net/detail/BIM-308404

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

Meftouh, Karimah& Laskri, M. Tayyib& Smaili, Kamil. Modeling Arabic language using statistical methods. The Arabian Journal for Science and Engineering. Section C, Theme issues. 2010. Vol. 35, no. 2C(s), pp.70-82.
https://search.emarefa.net/detail/BIM-308404

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes bibliographical references : p. 81-82

رقم السجل

BIM-308404