Adopting Arabic taggers to annotate a Libyan dialect text with a pre-tagging processing and term substitutions

Joint Authors

al-Farid, Ramadan al-Sayyid
al-Hadi, Ahmad al-Tayyib Muhammad

Source

International Science and Technology Journal

Issue

Vol. 2022, Issue (s+conf) (28 Feb. 2022), pp.146-158, 13 p.

Publisher

Libyan Society for Research and Scientific Studies

Publication Date

2022-02-28

Country of Publication

Libya

No. of Pages

13

Main Subjects

Information Technology and Computer Science

Abstract AR

تعرض هذه الورقة عن عمل يحثى في محاولة التعويض عن نقص الموارد تتعلق بفهم ومعالجة اللغات الطبيعية واللهجة العربية الليبية (LAD (، وال سيما عمليات وسم الكلام الى اقسام الكلام.

من الأهمية بمكان التعامل مع عدم وجود موارد وسم LAD (POS).

هذا النقص يستلزم استخدام موسومات اللغة العربية الفصحى الحديثة (MAS (من أجل تحسين نتائج وضع توسيم اللهجة العامية) LAD).

هدفنا هو دراسة استخدام اثنين من أدوات الوسم المتاحة بشكل شائع، وهما Tools Camel وtaggers Sanford في وسم اللهجة الليبي.

أظهر التطبيق الأولي أدوات التوسيم على مجموعات من البيانات العامية ً أداء ا.

من خلال تطبيق المعالجة والتحسينات على الجمل قبل ً ضعيف وضع عالمات التوسيم عليها باستخدام taggers MAS كان لها تأثير إيجابي على النتائج.

أعطى استخدام معجم خارجي وقواعد الاستبدال على مجموعة مختارة من كلمات اللهجة الليبية نتائج مشجعة للغاية بل وأفضل من المتوقع.

تعتبر نتائج مجموعة التجارب، حتى بمثل هذه المعالجة البدائية التي تستند إلى معجم ضحل للغاية، مشجعة للغاية مع التحسن العام الذي يزيد عن ٪50 )55.55 / 21.55، بأدوات كمل ولستانفورد على التوالي (.

إن العمل المستقبلي الذي يأخذ في الاعتبار تحسينات مفايلة للتحديات المتعلقة بالاختلافات المعجمية والصرفية وعمليات إلغاء الغموض يضمن تحقيق نتائج أفضل بكثير.

Abstract EN

This paper reports on research work that attempts to compensate for the lack of resources when it comes to Natural Language Understanding for Libyan Arabic Dialect (LAD), particularly POS tagging.

Of prime importance is dealing with the lack of LAD POS tagging facilities.

This deficiency necessitates the use of Modern Standard Arabic (MAS) taggers in order to improve tagging results for LAD.

It is our aim to investigate the use of two commonly available taggers, namely Camel Tools and Sanford taggers for LAD.

Initial application of such POS tools to LAD collections showed poor performance.

Through the application of processing and improvements on the sentences before tagging them using MAS taggers had a positive influence on the results.

Using of an external lexicon and substitution rules base on a selected set of LAD words gave very encouraging and even better than expected.

The pilot set of experiments, even with such primitive processing based on very shallow lexicon are very encouraging with overall improvement above 30% (37.43/26.37, for camel tagger and Stanford tagger respectively).

Future work taking into account improvements on many LAD challenges relating to lexical, morphological variations and sense disambiguation are guaranteed to bring about much better results

American Psychological Association (APA)

al-Hadi, Ahmad al-Tayyib Muhammad& al-Farid, Ramadan al-Sayyid. 2022. Adopting Arabic taggers to annotate a Libyan dialect text with a pre-tagging processing and term substitutions. International Science and Technology Journal،Vol. 2022, no. (s+conf), pp.146-158.
https://search.emarefa.net/detail/BIM-1593992

Modern Language Association (MLA)

al-Hadi, Ahmad al-Tayyib Muhammad& al-Farid, Ramadan al-Sayyid. Adopting Arabic taggers to annotate a Libyan dialect text with a pre-tagging processing and term substitutions. International Science and Technology Journal Special issue conference (Feb. 2022), pp.146-158.
https://search.emarefa.net/detail/BIM-1593992

American Medical Association (AMA)

al-Hadi, Ahmad al-Tayyib Muhammad& al-Farid, Ramadan al-Sayyid. Adopting Arabic taggers to annotate a Libyan dialect text with a pre-tagging processing and term substitutions. International Science and Technology Journal. 2022. Vol. 2022, no. (s+conf), pp.146-158.
https://search.emarefa.net/detail/BIM-1593992

Data Type

Journal Articles

Language

English

Notes

Includes bibliographical references: p. 156-158

Record ID

BIM-1593992