Modeling Arabic language using statistical methods

Joint Authors

Meftouh, Karimah
Laskri, M. Tayyib
Smaili, Kamil

Source

The Arabian Journal for Science and Engineering. Section C, Theme issues

Issue

Vol. 35, Issue 2C(s) (31 Dec. 2010), pp.70-82, 13 p.

Publisher

King Fahd University of Petroleum and Minerals

Publication Date

2010-12-31

Country of Publication

Saudi Arabia

No. of Pages

13

Main Subjects

Languages & Comparative Literature
Information Technology and Computer Science

Topics

Abstract AR

نقترح في هذا المقال دراسة النماذج الإحصائية للغة العربية.

أولا : سوف نقوم بإجراء العديد من التجارب باستخدام تقنيات ملمس مختلفة على مدونة صغيرة الحجم و المستخرجة من صحيفة يومية.

قلة البيانات تقودنا للجوء إلى حلول أخرى دون زيادة حجم المدونة.

و قد استخدمنا تقنية تقطيع الكلمات من أجل زيادة القابلية الإحصائية للمدونة مما أدى إلى نتائج أفضل.

أما التجربة الثانية فتتمثل في دراسة سلوك نماذج إحصائية تقوم على أنواع مختلفة من المدونات.

كذلك سنبين أن استعمال النماذج البعيدة يحسن الأنموذج الأساسي.

أخيرا نقترح دراسة مقارنة لنماذج إحصائية للغة العربية و لغات أجنبية عدة.

الهدف من هذه الدراسة هو فهم كيفية تحسين كل أنموذج من هذه اللغات.

و بالنسبة للغة العربية, فإن النماذج المحسوبة بتقنية «ويتن-بال» هي الأكثر كفاءة.

Abstract EN

In this paper, we propose to investigate statistical language models for Arabic.

First, several experiments using different smoothing techniques are carried out on a small corpus extracted from a daily newspaper.

The sparseness of the data leads us to investigate other solutions without increasing the size of the corpus.

Word segmentation technique has been employed in order to increase the statistical viability of the corpus.

An n-morpheme model has been developed which leads to a better performance in terms of normalized perplexity.

The second experiment concerns the study of the behavior of statistical models based on different kinds of corpora.

The introduction of a distant n-gram improves the baseline model.

Finally, we propose a comparative study of statistical language models for Arabic and several foreign languages.

The objective of this study is to understand how to better model each of these languages.

For foreign languages, trigram models are most appropriate whatever the smoothing technique used.

For Arabic, the n-gram models of higher order smoothed with the Witten-Bell method are more efficient.

American Psychological Association (APA)

Meftouh, Karimah& Laskri, M. Tayyib& Smaili, Kamil. 2010. Modeling Arabic language using statistical methods. The Arabian Journal for Science and Engineering. Section C, Theme issues،Vol. 35, no. 2C(s), pp.70-82.
https://search.emarefa.net/detail/BIM-308404

Modern Language Association (MLA)

Meftouh, Karimah…[et al.]. Modeling Arabic language using statistical methods. The Arabian Journal for Science and Engineering. Section C, Theme issues Vol. 35, no. 2C(s) (Dec. 2010), pp.70-82.
https://search.emarefa.net/detail/BIM-308404

American Medical Association (AMA)

Meftouh, Karimah& Laskri, M. Tayyib& Smaili, Kamil. Modeling Arabic language using statistical methods. The Arabian Journal for Science and Engineering. Section C, Theme issues. 2010. Vol. 35, no. 2C(s), pp.70-82.
https://search.emarefa.net/detail/BIM-308404

Data Type

Journal Articles

Language

English

Notes

Includes bibliographical references : p. 81-82

Record ID

BIM-308404