مقاربة لتحديد اللغات تلقائيا (بدون إشراف) في مدينة نصوص متعدد اللغات
العناوين الأخرى
An unsupervised approach for language identification of a multilingual text corpus
المؤلف
المصدر
المجلة العربية الدولية للمعلوماتية
العدد
المجلد 2، العدد 4 (31 يناير/كانون الثاني 2013)، ص ص. 29-40، 12ص.
الناشر
جامعة نايف العربية للعلوم الأمنية كلية أمن الحاسب و المعلومات
تاريخ النشر
2013-01-31
دولة النشر
السعودية
عدد الصفحات
12
التخصصات الرئيسية
تكنولوجيا المعلومات وعلم الحاسوب
الموضوعات
الملخص AR
نقدم في هذه الورقة مقاربة لتحديد اللغة تلقائيا.
هذه الطريقة ترتب النصوص الواردة في مدونة نصوص متعددة اللغات استنادا على لغاتهم باستخدام ن-غرام لتمثيل النصوص و خوارزمية AntClass لتصنيفها.
لتقييم الخوارزمية المقترحة نقوم بالعديد من التجارب مستعملين مدونة مكونة من نصوص مكتوبة بثالث لغات مختلفة (العربية، الإنجليزية و الفرنسية) و مقاييس التباين جيب التمام، الإقليدية و مانهاتن و عدة قيم لـ ن.
الملخص EN
We present in this paper an unsupervised approach for automatic language identification.
The method sorts the texts contained in a multilingual text corpus based on their language.
This method uses n-grams of characters for text representation and the AntClass algorithm applying artificial ants, for their classification.
The proposed algorithm is evaluated on a corpus composed of texts of three different languages (Arabic, English and French) and its effect will be examined in several experiments using the cosine distance, the Euclidean distance and the Manhattan distance as similarity measures and several values of n.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
بوقفة، عبد المالك أمين. 2013. مقاربة لتحديد اللغات تلقائيا (بدون إشراف) في مدينة نصوص متعدد اللغات. المجلة العربية الدولية للمعلوماتية،مج. 2، ع. 4، ص ص. 29-40.
https://search.emarefa.net/detail/BIM-412427
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
بوقفة، عبد المالك أمين. مقاربة لتحديد اللغات تلقائيا (بدون إشراف) في مدينة نصوص متعدد اللغات. المجلة العربية الدولية للمعلوماتية مج. 2، ع. 4 (كانون الثاني 2013)، ص ص. 29-40.
https://search.emarefa.net/detail/BIM-412427
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
بوقفة، عبد المالك أمين. مقاربة لتحديد اللغات تلقائيا (بدون إشراف) في مدينة نصوص متعدد اللغات. المجلة العربية الدولية للمعلوماتية. 2013. مج. 2، ع. 4، ص ص. 29-40.
https://search.emarefa.net/detail/BIM-412427
نوع البيانات
مقالات
لغة النص
العربية
الملاحظات
يتضمن مراجع ببليوجرافية : ص. 37-38
رقم السجل
BIM-412427
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر