Modeling Arabic language using statistical methods
Joint Authors
Meftouh, Karimah
Laskri, M. Tayyib
Smaili, Kamil
Source
The Arabian Journal for Science and Engineering. Section C, Theme issues
Issue
Vol. 35, Issue 2C(s) (31 Dec. 2010), pp.70-82, 13 p.
Publisher
King Fahd University of Petroleum and Minerals
Publication Date
2010-12-31
Country of Publication
Saudi Arabia
No. of Pages
13
Main Subjects
Languages & Comparative Literature
Information Technology and Computer Science
Topics
Abstract AR
نقترح في هذا المقال دراسة النماذج الإحصائية للغة العربية.
أولا : سوف نقوم بإجراء العديد من التجارب باستخدام تقنيات ملمس مختلفة على مدونة صغيرة الحجم و المستخرجة من صحيفة يومية.
قلة البيانات تقودنا للجوء إلى حلول أخرى دون زيادة حجم المدونة.
و قد استخدمنا تقنية تقطيع الكلمات من أجل زيادة القابلية الإحصائية للمدونة مما أدى إلى نتائج أفضل.
أما التجربة الثانية فتتمثل في دراسة سلوك نماذج إحصائية تقوم على أنواع مختلفة من المدونات.
كذلك سنبين أن استعمال النماذج البعيدة يحسن الأنموذج الأساسي.
أخيرا نقترح دراسة مقارنة لنماذج إحصائية للغة العربية و لغات أجنبية عدة.
الهدف من هذه الدراسة هو فهم كيفية تحسين كل أنموذج من هذه اللغات.
و بالنسبة للغة العربية, فإن النماذج المحسوبة بتقنية «ويتن-بال» هي الأكثر كفاءة.
Abstract EN
In this paper, we propose to investigate statistical language models for Arabic.
First, several experiments using different smoothing techniques are carried out on a small corpus extracted from a daily newspaper.
The sparseness of the data leads us to investigate other solutions without increasing the size of the corpus.
Word segmentation technique has been employed in order to increase the statistical viability of the corpus.
An n-morpheme model has been developed which leads to a better performance in terms of normalized perplexity.
The second experiment concerns the study of the behavior of statistical models based on different kinds of corpora.
The introduction of a distant n-gram improves the baseline model.
Finally, we propose a comparative study of statistical language models for Arabic and several foreign languages.
The objective of this study is to understand how to better model each of these languages.
For foreign languages, trigram models are most appropriate whatever the smoothing technique used.
For Arabic, the n-gram models of higher order smoothed with the Witten-Bell method are more efficient.
American Psychological Association (APA)
Meftouh, Karimah& Laskri, M. Tayyib& Smaili, Kamil. 2010. Modeling Arabic language using statistical methods. The Arabian Journal for Science and Engineering. Section C, Theme issues،Vol. 35, no. 2C(s), pp.70-82.
https://search.emarefa.net/detail/BIM-308404
Modern Language Association (MLA)
Meftouh, Karimah…[et al.]. Modeling Arabic language using statistical methods. The Arabian Journal for Science and Engineering. Section C, Theme issues Vol. 35, no. 2C(s) (Dec. 2010), pp.70-82.
https://search.emarefa.net/detail/BIM-308404
American Medical Association (AMA)
Meftouh, Karimah& Laskri, M. Tayyib& Smaili, Kamil. Modeling Arabic language using statistical methods. The Arabian Journal for Science and Engineering. Section C, Theme issues. 2010. Vol. 35, no. 2C(s), pp.70-82.
https://search.emarefa.net/detail/BIM-308404
Data Type
Journal Articles
Language
English
Notes
Includes bibliographical references : p. 81-82
Record ID
BIM-308404