Parsing Arabic texts using real patterns of syntactic trees

Joint Authors

Bin Faraj, F.
Zribi, C. Bin Uthman
Bin Ahmad, M.

Source

The Arabian Journal for Science and Engineering. Section C, Theme issues

Issue

Vol. 35, Issue 2C(s) (31 Dec. 2010), pp.84-101, 18 p.

Publisher

King Fahd University of Petroleum and Minerals

Publication Date

2010-12-31

Country of Publication

Saudi Arabia

No. of Pages

18

Main Subjects

Languages & Comparative Literature
Information Technology and Computer Science

Topics

Abstract AR

يقدم هذا البحث طريقة جديدة للتحليل الالكتروني للنصوص العربية تحليلا نحويا عميقا.

و قد اخترنا في هذا البحث أن نعتمد على التعلم الالكتروني.

و يتم التعلم من بنك للمعلومات يحتوي على جمل محللة نحويا.

ففي خطوة أولى، نقوم باستخلاص نماذج التحاليل النحوية من البنك.

و تمثل هذه النماذج عدة تراكيب نحوية مكونة من مجموعة من الطبقات كما أنها غنية بشتى أنواع المعلومات: النحوية، التركيبية، الاشتقاقية و السياقية.

نستعمل هذه النماذج لتوجيه التعامل مع الجمل.

فالمحلل النحوي الالكتروني يعمل بتعاقب لأنه يحلل الجملة على مراحل مكملة بعضها البعض.

و عدد هذه المراحل يساوي عدد الكلمات المكونة للجملة.

في كل مرحلة، يتم البحث عن النماذج المحتملة التي يمكنها تمثيل كلمة معينة في السياق الذي تنتمي إليه.

ثم يتم تركيب النماذج المختارة مع النماذج التي تم الحصول عليها في المراحل السابقة.

في نهاية التحليل يمكننا تكوين مجموعة من التراكيب النحوية الكاملة المحتملة للجملة ككل.

عندئذ يتم ترتيب التراكيب بالاعتماد على تواتر تواجدها في بنك الجمل المحللة.

مكنتنا النتائج الأولية للاختبارات من الحصول على معدلات مرضية (دقة في التحليل تساوي 84<8% و أف – سكور مساو لـ 77,5%).

Abstract EN

-In order to parse Arabic texts, we have chosen to use a machine learning approach.

It learns from an Arabic Treebank.

The knowledge enclosed in this Treebank is structured as patterns of syntactic trees.

These patterns are representative models of the Arabic syntactic components.

They are both layered and rich structurally and contextually.

They serve as an informational source for guiding the parsing process.

Our parser is progressive since it proceeded by treating a sentence into a number of stages equal to the number of its words.

At every step, the parser affects the target word with the most likely patterns that represent it in the context where it is put.

Then, it joins the selected patterns with those collected in the previous parsing steps in order to construct the representative syntactic tree (s) of the whole sentence.

If more than one tree is proposed, all the analysis trees are sorted according to their appearance frequencies in the Treebank.

The preliminary tests have yielded accuracy and f-score equal to 84.8 % and 77.5 % respectively.

American Psychological Association (APA)

Bin Faraj, F.& Zribi, C. Bin Uthman& Bin Ahmad, M.. 2010. Parsing Arabic texts using real patterns of syntactic trees. The Arabian Journal for Science and Engineering. Section C, Theme issues،Vol. 35, no. 2C(s), pp.84-101.
https://search.emarefa.net/detail/BIM-308408

Modern Language Association (MLA)

Bin Faraj, F.…[et al.]. Parsing Arabic texts using real patterns of syntactic trees. The Arabian Journal for Science and Engineering. Section C, Theme issues Vol. 35, no. 2C(s) (Dec. 2010), pp.84-101.
https://search.emarefa.net/detail/BIM-308408

American Medical Association (AMA)

Bin Faraj, F.& Zribi, C. Bin Uthman& Bin Ahmad, M.. Parsing Arabic texts using real patterns of syntactic trees. The Arabian Journal for Science and Engineering. Section C, Theme issues. 2010. Vol. 35, no. 2C(s), pp.84-101.
https://search.emarefa.net/detail/BIM-308408

Data Type

Journal Articles

Language

English

Notes

Includes bibliographical references : p. 99-101

Record ID

BIM-308408