مقاربة لتحديد اللغات تلقائيا (بدون إشراف)‎ في مدينة نصوص متعدد اللغات

العناوين الأخرى

An unsupervised approach for language identification of a multilingual text corpus

عدد الاستشهادات بقاعدة ارسيف : 
1

المؤلف

بوقفة، عبد المالك أمين

المصدر

المجلة العربية الدولية للمعلوماتية

العدد

المجلد 2، العدد 4 (31 يناير/كانون الثاني 2013)، ص ص. 29-40، 12ص.

الناشر

جامعة نايف العربية للعلوم الأمنية كلية أمن الحاسب و المعلومات

تاريخ النشر

2013-01-31

دولة النشر

السعودية

عدد الصفحات

12

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

الملخص AR

نقدم في هذه الورقة مقاربة لتحديد اللغة تلقائيا.

هذه الطريقة ترتب النصوص الواردة في مدونة نصوص متعددة اللغات استنادا على لغاتهم باستخدام ن-غرام لتمثيل النصوص و خوارزمية AntClass لتصنيفها.

لتقييم الخوارزمية المقترحة نقوم بالعديد من التجارب مستعملين مدونة مكونة من نصوص مكتوبة بثالث لغات مختلفة (العربية، الإنجليزية و الفرنسية) و مقاييس التباين جيب التمام، الإقليدية و مانهاتن و عدة قيم لـ ن.

الملخص EN

We present in this paper an unsupervised approach for automatic language identification.

The method sorts the texts contained in a multilingual text corpus based on their language.

This method uses n-grams of characters for text representation and the AntClass algorithm applying artificial ants, for their classification.

The proposed algorithm is evaluated on a corpus composed of texts of three different languages (Arabic, English and French) and its effect will be examined in several experiments using the cosine distance, the Euclidean distance and the Manhattan distance as similarity measures and several values of n.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

بوقفة، عبد المالك أمين. 2013. مقاربة لتحديد اللغات تلقائيا (بدون إشراف) في مدينة نصوص متعدد اللغات. المجلة العربية الدولية للمعلوماتية،مج. 2، ع. 4، ص ص. 29-40.
https://search.emarefa.net/detail/BIM-412427

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

بوقفة، عبد المالك أمين. مقاربة لتحديد اللغات تلقائيا (بدون إشراف) في مدينة نصوص متعدد اللغات. المجلة العربية الدولية للمعلوماتية مج. 2، ع. 4 (كانون الثاني 2013)، ص ص. 29-40.
https://search.emarefa.net/detail/BIM-412427

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

بوقفة، عبد المالك أمين. مقاربة لتحديد اللغات تلقائيا (بدون إشراف) في مدينة نصوص متعدد اللغات. المجلة العربية الدولية للمعلوماتية. 2013. مج. 2، ع. 4، ص ص. 29-40.
https://search.emarefa.net/detail/BIM-412427

نوع البيانات

مقالات

لغة النص

العربية

الملاحظات

يتضمن مراجع ببليوجرافية : ص. 37-38

رقم السجل

BIM-412427