An automated system for Arabic named entity recognition

Bani Bakr, Safiyah

al-Kuz, Akram


جامعة الأميرة سمية للتكنولوجيا


كلية الملك الحسين لعلوم الحوسبة

قسم علم الحاسوب

إن الزيادة السريعة في النصوص العربية على شبكة الإنترنت على مدى العقد الماضي تثير ضرورة لتقنيات جديدة كافية لتصنيف المعلومات عبر الإنترنت وتحليلها ومعالجتها.

أثبتت الأبحاث الحديثة أن المعلومات القيمة في النص ترتبط بالكيانات المسماة.

استخراج الكيانات هي عملية تحديد الأسماء الصحيحة بالإضافة إلى التعبيرات الزمنية والرقمية في نص بمجال معين.

تلعب استخراج الكيانات دورا أساسيا في مهمام معالجة اللغات الطبيعية، مثل استرجاع المعلومات، الترجمة الآلية، استخراج المعلومات، والإجابة على الأسئلة.

وبالتالي، كان هذا الموضوع ساحة أبحاث حيوية وجذب انتباه الباحثين.

إن استخراج الكيانات باللغة العربية يمثل تحديا بسبب ندرة الموارد المعجمية في اللغة العربية.

بالإضافة إلى ذلك، فإن خصائص اللغة العربية تجعل البحث في هذا المجال معضلة.

وللأسف، فإن معظم أنظمة استخراج الكيان للغة العربية الموثوق بها تم تطويرها تجاريا، والنهج المستخدم وكذلك الدقة غير متاحة للأغراض البحثية.

علاوة على ذلك، فإن عدم توفر الموارد اللغوية العربية المناسبة للبحث يجعل مهمة التعرف على الكيانات المسماة باللغة العربية عملية صعبة.

بهدف حل هذه المشاكل، اقترحنا نظام لاستخراج الأسماء الصحيحة من نص عربي والذي يتكون من قسمين؛ القسم الأول هوتاغر لاستخرج وتصنيف الأسماء الصحيحة باستخدام العديد من التقنيات والمناهج التي تستخدم في معالجة اللغات الطبيعية بالإضافة إلى ويكبيديا بالنسخة العربية.

القسم الثاني هومعجم الي والذي هوعبارة عن معجم من الأسماء الصحيحة تم بناءه بطريقة أوتوماتيكية من خلال الزحف إلى عدد كبير من مستندات الويب ومن ثم معالجة النصوص باستخدام العديد من التقنيات مثل جوجل للترجمه وستافورد تاغر للأسماء الصحيحة.

تم تقييم النظام المقترح باستخدام مجموعة بيانات مشهورة للباحث بن جيبا، وأظهرت النتائج التمهيدية أن النهج المقترح يعالج مشكلات استخراج الكيانات المسماة من النصوص العربية.

فمثلا، تجاوز عدد الأسماء الصحيحة في معاجمنا المقترحة خمسة وعشرون ألفا حتى الأن ويمكن زيادة هذا العدد بسهولة.

علاوة على ذلك، فإن مقاييس التقيم للدقة، الاستدعاء وقياس الإف لمعاجمنا المقترحة هي 90.15%، 90.56%، 90.35% على التوالي.

إضافة على ذلك، فإن مقاييس التقيم للدقة، الاستدعاء وقياس الإف للتاغر هي 91.80%، 91.83%، 91.78%.

The rapid increase of Arabic textual information on the internet over the past decade raised a necessity for new sufficient techniques to classify, analyze, and process online information.

Recent researches proved that valuable information in a text is related to Named Entities (NEs).

Named Entity Recognition (NER) is the process of identifying proper names as well as temporal and numeric expressions in open-domain text.

NER plays a key role in Natural Language Processing (NLP) tasks such as Information Retrieval, Machine Translation, Information Extraction and Question Answering.

Thus, this topic has been a vital research arena and grabbed researchers’ attention.

The extraction of NEs in Arabic is challenging due to the scarcity of lexical resources for Arabic NEs.

In addition, the characteristics and peculiarities of Arabic make the research in this area a dilemma.

Regrettably, most of reliable NER systems for Arabic have been developed commercially and the approach used as well as the accuracy are not publicly available for research purposes.

Furthermore, the lack of the availability of adequate Arabic lexical resources for research makes the task of Arabic Named Entity Recognition (ANER) difficult.

In this thesis, we proposed ANER system named PSUT-ANERsys.

PSUT-ANERsys has two components; the first component is ANERtagger, which is an approach for ANER.

The second component is a new approach for developing Arabic NEs gazetteers automatically, which is named as Auto-ANERgazets.

ANERtagger is proposed specifically for Arabic text.

It is based on processing Arabic Wikipedia and a specific pipeline of multiple NLP techniques, such as Stanford Part of Speech (POS) Tagger, N-gram, Levenshtein Similarity, and Term Frequency-Inverse Document Frequency (TF-IDF) along with processing Arabic Wikipedia infoboxes.

Auto-ANERgazets investigates a significant number of NEs by crawling huge number of web documents and then utilizing Stanford NER Tagger along with Google Translate API in a smart way to address the limitations of Arabic lexical resources.

The performance of our PSUT-ANERsys is evaluated against the gold standard evaluation corpus; Benajiba’s ANERCorp.

The prefatory results show that the proposed approaches handle the problems of NER for Arabic with a high percentage of accuracy.

For example, the total number of NEs in Auto-ANERgazets until now exceeded 25,420 token, and they could be increased automatically.

Moreover, the evaluation measures for Auto-ANERgazets against ANERCorp are 90.15%, 90.56%, 90.35% for precision, recall, and F-measure respectively.

In addition, ANERtagger evaluation measures for precision, recall, and F-measure are 91.78%, 91.83%, and 91.80% respectively.

Furthermore, the performance of PSUT-ANERsys is benchmarked with other ANER systems

تكنولوجيا المعلومات وعلم الحاسوب


Table of contents.


Abstract in Arabic.

Chapter One : Introduction.

Chapter Two : Research background and literature review.

Chapter Three : Research methodology.

Chapter Four : Experimental setup and discussion.

Chapter Five : Research Conclusion and future work.


نمط استشهاد جمعية علماء النفس الأمريكية (APA)

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

