![](/images/graphics-bg.png)
Automatic domain-relevant collocation extraction from Arabic corpus
العناوين الأخرى
استخراج المصطلحات العربية المرتبطة بمجال معين من مجموعة نصوص عربية آليا
المؤلفون المشاركون
Barakah, Ribhi S.
Fayyd, Manar S.
المصدر
IUG Journal of Natural Studies
العدد
المجلد 22، العدد 2 (31 ديسمبر/كانون الأول 2014)، ص ص. 30-44، 15ص.
الناشر
الجامعة الإسلامية-غزة عمادة شؤون البحث العلمي و الدراسات العليا
تاريخ النشر
2014-12-31
دولة النشر
فلسطين (قطاع غزة)
عدد الصفحات
15
التخصصات الرئيسية
تكنولوجيا المعلومات وعلم الحاسوب
الموضوعات
الملخص AR
تم اقتراح طريقة آلية لاستخراج المصطلحات العربية المرتبطة بمجال معين من مجموعة نصوص عربية.
استخدمت هذه الطريقة الأساليب اللغوية و الإحصائية لاستخراج المصطلحات ذات الصلة بمجال محدد و إسنادها إلى هذا المجال.
من أجل تحقيق الطريقة المقترحة استخدمنا مكنزا (Corpus) عربيا مقسما إلى عشرة مجالات.
الطريقة المقترحة تقوم بمعالجة هذه المستندات معالجة لغوية خفيفة (Light stemming) ثم تستخرج المصطلحات المرشحة.
بعد ذلك يتم تقييم كل مصطلح من المصطلحات المرشحة (Candidate terms) بناء على مدى انتشار المصطلح داخل المجال المحدد و خارجه و مدى ارتباطه بهذا المجال.
و من ثم يخصص المصطلح المرشح للمجال ذو الوزن الأكبر لنحصل بعدها على مصفوفة مصطلحات المجالات (Domains term matrix).
و لاختبار مدى فاعلية هذه الطريقة تم استخدام هذه المصفوفة في عملية تصنيف بعض المستندات أو النصوص و تحديد مجالاتها مع العلم بأن مجالاتها كانت محددة مسبقا و قد تم تصميم مصنف يعتمد على مصفوفة مصطلحات المجال و كانت النتائج ممتازة في أغلب المجالات بحيث حققت نسبة دقة تجاوزت 90%.
الملخص EN
An approach for automatic domain-relevant collocation extraction from Arabic text corpus is proposed.
It uses naïve linguistic and statistical methods to extract collocations and relate them to specific domains depending on prevalence and tendency collocation ranking mechanism.
In order to realize the proposed approach we use a corpus separated into ten domains.
The proposed approach starts with preprocessing this corpus, then extracting candidate collocations.
After that, it ranks the candidate collocations depending on the distributional behavior of candidate collocations within the domain and across the rest of the corpus.
Then we distribute the candidate collocations over the domains depending on their rank values to get domains' term matrix.
Finally, we evaluate the resulting collocation matrix by using it to classify the domain of a number of documents.
The results are encouraging in most domains such that the achieved rate of accuracy exceeded 90 %.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
Barakah, Ribhi S.& Fayyd, Manar S.. 2014. Automatic domain-relevant collocation extraction from Arabic corpus. IUG Journal of Natural Studies،Vol. 22, no. 2, pp.30-44.
https://search.emarefa.net/detail/BIM-382902
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
Barakah, Ribhi S.& Fayyd, Manar S.. Automatic domain-relevant collocation extraction from Arabic corpus. IUG Journal of Natural Studies Vol. 22, no. 2 (2014), pp.30-44.
https://search.emarefa.net/detail/BIM-382902
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
Barakah, Ribhi S.& Fayyd, Manar S.. Automatic domain-relevant collocation extraction from Arabic corpus. IUG Journal of Natural Studies. 2014. Vol. 22, no. 2, pp.30-44.
https://search.emarefa.net/detail/BIM-382902
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
Includes bibliographical references : p. 42-44
رقم السجل
BIM-382902
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
![](/images/ebook-kashef.png)
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر
![](/images/kashef-image.png)