Effective unsupervised Arabic word stemming : towards an unsupervised radicals extraction
المؤلف
المصدر
The International Arab Journal of Information Technology
العدد
المجلد 9، العدد 6 (30 نوفمبر/تشرين الثاني 2012)7ص.
الناشر
تاريخ النشر
2012-11-30
دولة النشر
الأردن
عدد الصفحات
7
التخصصات الرئيسية
اللغات والآداب المقارنة
تكنولوجيا المعلومات وعلم الحاسوب
الموضوعات
الملخص EN
This paper presents a new totally unsupervised and 90% effective stemming approach for classical Arabic.
This stemming is meant to be a preparatory step to an unsupervised root (i.e., radicals) extraction.
As a learning input, our stemming system requires no linguistic knowledge but a plain classical Arabic text.
Once the learning input analyzed, our stemming system is able to extract the strongest segment of a given length, namely the stem.
We start by a definition of the targeted stem, then, we show how our system performs about 90 % true positives after a leaning of less than 15000 words.
Unlike the other unsupervised approaches, ours does not suppose the perfectness of the input text and deals efficiently with the eventual (practically very frequent) misspellings.
The test corpus we have used is an ultimate reference in the classical Arabic and its labeling has been rigorously done by a team of experts.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
Khorsi, Ahmad. 2012. Effective unsupervised Arabic word stemming : towards an unsupervised radicals extraction. The International Arab Journal of Information Technology،Vol. 9, no. 6.
https://search.emarefa.net/detail/BIM-305088
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
Khorsi, Ahmad. Effective unsupervised Arabic word stemming : towards an unsupervised radicals extraction. The International Arab Journal of Information Technology Vol. 9, no. 6 (Nov. 2012).
https://search.emarefa.net/detail/BIM-305088
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
Khorsi, Ahmad. Effective unsupervised Arabic word stemming : towards an unsupervised radicals extraction. The International Arab Journal of Information Technology. 2012. Vol. 9, no. 6.
https://search.emarefa.net/detail/BIM-305088
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
Includes bibliographical references.
رقم السجل
BIM-305088
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر