نظام للتدقيق الإملائي للغة العربية للشبكة العنكبوتية باستخدام معجم حاسوبي وقوانين إملائية وصوتية

Other Title(s)

A spell-checking system for the Arabic language for the world wide web using a computational lexicon and orthographic and phonological rules

Author

الناجم، صلاح راشد

Source

مجلة كلية الآداب

Issue

Vol. 72, Issue 110 (31 Oct. 2022), pp.1-24, 24 p.

Publisher

Alexandria University Faculty of Arts

Publication Date

2022-10-31

Country of Publication

Egypt

No. of Pages

24

Main Subjects

Arabic language and Literature

Topics

Abstract AR

يقدم هذا البحث نظاما لاكتشاف وتصحيح الأخطاء الإملائية للغة العربية للشبكة العنكبوتية(Web Spell Checker) قمنا بتصميمه باستخدام نظام Web Spell Checker Engine.

نظامنا متاح للمستخدمين على شكل خدمة ويب سحابية (Cloud Web Service) يمكن دمجها مع أي موقع أو تطبيق متاح على الشبكة العنكبوتية، كما يمكن دمجه مع تطبيقات الأجهزة الذكية وذلك من خلال واجهة لبرمجة التطبيقات (Application Programming Interface) تتيح التدقيق الإملائي لنصوص اللغة العربية المدخلة إلى مواقع وتطبيقات الشبكة العنكبوتية وتطبيقات الأجهزة الذكية.

يستطيع نظامنا التعامل مع نسبة كبيرة من الكلمات التي تغطي العربية الفصحى بشكل عام والعربية الفصحى الحديثة (Modern Standard Arabic) بشكل خاص باستخدام معجم حاسوبي (Lexicon).

صمم هذا المعجم باستخدام قائمة كلمات ضخمة (Word List) مفتوحة المصدر (Open Source).

بنيت هذه القائمة باستخدام قاعدة بيانات معجمية (Lexical Database) مفتوحة المصدر مخصصة للتحليل الصرفي (Morphological Analysis) للأسماء والأفعال العربية صممت باستخدام تقنية الآلات منتهية الحالات (Finite State Automata).

تحتوي قائمة الكلمات المذكورة على الصيغ الصرفية والاشتقاقية (Inflected and Derived Forms) المحتملة لكلمات اللغة العربية الفصحى (على سبيل المثال: كتب، ويكتبان، كتبوا، فسيكتبن، كاتبة، للكاتبين، المكتوب).

كما تم تزويد النظام بالقدرة على إعادة ترتيب (Re-Ranking) مقترحات التصحيح الآلي الناتجة من تطبيق خوارزمية مسافة تحرير ليفينستين (Levenshtein Edit Distance Algorithm) المستخدمة في التصحيح الحاسوبي الآلي للأخطاء الإملائية من خلال إعطاء الأولوية لإظهار مقترحات التصحيح الآلي للأخطاء الإملائية الشائعة لدى مستخدمي اللغة العربية وذلك باستخدام قوانين إملائية وصوتية سياقية (Context Sensitive Orthographic and Phonological Rules).

استخدم المعجم الحاسوبي والقوانين الإملائية والصوتية السياقية المذكورة لتزويد النظام بالمعرفة اللغوية التي تمكنه من اكتشاف وتصحيح الأخطاء الإملائية في نصوص اللغة العربية الفصحى المدخلة إلى مواقع الشبكة العنكبوتية.

Abstract EN

This paper presents a system for detecting and correcting spelling errors for the Arabic language for the World Wide Web (Web Spell Checker) that we designed using the WebSpellChecker Engine system.

Our system is available to users in the form of a Cloud Web Service that can be integrated with any website or application available on the World Wide Web, and it can also be integrated with smart device applications through an Application Programming Interface (API) that allows spell checking of Arabic texts entered to web applications and smart device applications.

Our system can handle a large percentage of words covering Standard Arabic in general and Modern Standard Arabic in particular using a computational lexicon.

This lexicon is built using a huge open source word list.

This list was built using an open source Lexical Database dedicated to morphological analysis of Arabic nouns and verbs, which was designed using Finite State Automata technique.

The mentioned word list contains the possible inflected and derived forms of Standard Arabic words (examples:

American Psychological Association (APA)

الناجم، صلاح راشد. 2022. نظام للتدقيق الإملائي للغة العربية للشبكة العنكبوتية باستخدام معجم حاسوبي وقوانين إملائية وصوتية. مجلة كلية الآداب،مج. 72، ع. 110، ص ص. 1-24.
https://search.emarefa.net/detail/BIM-1453010

Modern Language Association (MLA)

الناجم، صلاح راشد. نظام للتدقيق الإملائي للغة العربية للشبكة العنكبوتية باستخدام معجم حاسوبي وقوانين إملائية وصوتية. مجلة كلية الآداب مج. 72، ع. 110 (2022)، ص ص. 1-24.
https://search.emarefa.net/detail/BIM-1453010

American Medical Association (AMA)

الناجم، صلاح راشد. نظام للتدقيق الإملائي للغة العربية للشبكة العنكبوتية باستخدام معجم حاسوبي وقوانين إملائية وصوتية. مجلة كلية الآداب. 2022. مج. 72، ع. 110، ص ص. 1-24.
https://search.emarefa.net/detail/BIM-1453010

Data Type

Journal Articles

Language

Arabic

Notes

يتضمن هوامش.

Record ID

BIM-1453010