مقاربة لتحديد اللغات تلقائيا (بدون إشراف)‎ في مدينة نصوص متعدد اللغات

Other Title(s)

An unsupervised approach for language identification of a multilingual text corpus

Time cited in Arcif : 
1

Author

بوقفة، عبد المالك أمين

Source

المجلة العربية الدولية للمعلوماتية

Issue

Vol. 2, Issue 4 (31 Jan. 2013), pp.29-40, 12 p.

Publisher

Naif Arab University for Security Sciences The College of Computer and Information Security

Publication Date

2013-01-31

Country of Publication

Saudi Arabia

No. of Pages

12

Main Subjects

Information Technology and Computer Science

Topics

Abstract AR

نقدم في هذه الورقة مقاربة لتحديد اللغة تلقائيا.

هذه الطريقة ترتب النصوص الواردة في مدونة نصوص متعددة اللغات استنادا على لغاتهم باستخدام ن-غرام لتمثيل النصوص و خوارزمية AntClass لتصنيفها.

لتقييم الخوارزمية المقترحة نقوم بالعديد من التجارب مستعملين مدونة مكونة من نصوص مكتوبة بثالث لغات مختلفة (العربية، الإنجليزية و الفرنسية) و مقاييس التباين جيب التمام، الإقليدية و مانهاتن و عدة قيم لـ ن.

Abstract EN

We present in this paper an unsupervised approach for automatic language identification.

The method sorts the texts contained in a multilingual text corpus based on their language.

This method uses n-grams of characters for text representation and the AntClass algorithm applying artificial ants, for their classification.

The proposed algorithm is evaluated on a corpus composed of texts of three different languages (Arabic, English and French) and its effect will be examined in several experiments using the cosine distance, the Euclidean distance and the Manhattan distance as similarity measures and several values of n.

American Psychological Association (APA)

بوقفة، عبد المالك أمين. 2013. مقاربة لتحديد اللغات تلقائيا (بدون إشراف) في مدينة نصوص متعدد اللغات. المجلة العربية الدولية للمعلوماتية،مج. 2، ع. 4، ص ص. 29-40.
https://search.emarefa.net/detail/BIM-412427

Modern Language Association (MLA)

بوقفة، عبد المالك أمين. مقاربة لتحديد اللغات تلقائيا (بدون إشراف) في مدينة نصوص متعدد اللغات. المجلة العربية الدولية للمعلوماتية مج. 2، ع. 4 (كانون الثاني 2013)، ص ص. 29-40.
https://search.emarefa.net/detail/BIM-412427

American Medical Association (AMA)

بوقفة، عبد المالك أمين. مقاربة لتحديد اللغات تلقائيا (بدون إشراف) في مدينة نصوص متعدد اللغات. المجلة العربية الدولية للمعلوماتية. 2013. مج. 2، ع. 4، ص ص. 29-40.
https://search.emarefa.net/detail/BIM-412427

Data Type

Journal Articles

Language

Arabic

Notes

يتضمن مراجع ببليوجرافية : ص. 37-38

Record ID

BIM-412427