مقاربة لتحديد اللغات تلقائيا (بدون إشراف) في مدينة نصوص متعدد اللغات
Other Title(s)
An unsupervised approach for language identification of a multilingual text corpus
Author
Source
المجلة العربية الدولية للمعلوماتية
Issue
Vol. 2, Issue 4 (31 Jan. 2013), pp.29-40, 12 p.
Publisher
Naif Arab University for Security Sciences The College of Computer and Information Security
Publication Date
2013-01-31
Country of Publication
Saudi Arabia
No. of Pages
12
Main Subjects
Information Technology and Computer Science
Topics
Abstract AR
نقدم في هذه الورقة مقاربة لتحديد اللغة تلقائيا.
هذه الطريقة ترتب النصوص الواردة في مدونة نصوص متعددة اللغات استنادا على لغاتهم باستخدام ن-غرام لتمثيل النصوص و خوارزمية AntClass لتصنيفها.
لتقييم الخوارزمية المقترحة نقوم بالعديد من التجارب مستعملين مدونة مكونة من نصوص مكتوبة بثالث لغات مختلفة (العربية، الإنجليزية و الفرنسية) و مقاييس التباين جيب التمام، الإقليدية و مانهاتن و عدة قيم لـ ن.
Abstract EN
We present in this paper an unsupervised approach for automatic language identification.
The method sorts the texts contained in a multilingual text corpus based on their language.
This method uses n-grams of characters for text representation and the AntClass algorithm applying artificial ants, for their classification.
The proposed algorithm is evaluated on a corpus composed of texts of three different languages (Arabic, English and French) and its effect will be examined in several experiments using the cosine distance, the Euclidean distance and the Manhattan distance as similarity measures and several values of n.
American Psychological Association (APA)
بوقفة، عبد المالك أمين. 2013. مقاربة لتحديد اللغات تلقائيا (بدون إشراف) في مدينة نصوص متعدد اللغات. المجلة العربية الدولية للمعلوماتية،مج. 2، ع. 4، ص ص. 29-40.
https://search.emarefa.net/detail/BIM-412427
Modern Language Association (MLA)
بوقفة، عبد المالك أمين. مقاربة لتحديد اللغات تلقائيا (بدون إشراف) في مدينة نصوص متعدد اللغات. المجلة العربية الدولية للمعلوماتية مج. 2، ع. 4 (كانون الثاني 2013)، ص ص. 29-40.
https://search.emarefa.net/detail/BIM-412427
American Medical Association (AMA)
بوقفة، عبد المالك أمين. مقاربة لتحديد اللغات تلقائيا (بدون إشراف) في مدينة نصوص متعدد اللغات. المجلة العربية الدولية للمعلوماتية. 2013. مج. 2، ع. 4، ص ص. 29-40.
https://search.emarefa.net/detail/BIM-412427
Data Type
Journal Articles
Language
Arabic
Notes
يتضمن مراجع ببليوجرافية : ص. 37-38
Record ID
BIM-412427