Audiovisual speaker identification based on lip and speech modalities
المؤلفون المشاركون
Chelali, Fatimah
Djeradi, Ammar
المصدر
The International Arab Journal of Information Technology
العدد
المجلد 14، العدد 1 (31 يناير/كانون الثاني 2017)
الناشر
تاريخ النشر
2017-01-31
دولة النشر
الأردن
التخصصات الرئيسية
تكنولوجيا المعلومات وعلم الحاسوب
الموضوعات
- الوسائل السمعية والبصرية
- علم اللغة النفسي
- الكلام
- الصوتيات
- معالجة البيانات
- الوسائط المتعددة التفاعلية
- الخطابة
- مضخمات الصوت
الملخص EN
In this article, we present a bimodal speaker identification method, which integrates both acoustic and visual features and where the two audiovisual stream modalities are processed in parallel.
We also propose a fusion technique that combines the two modalities to make the final recognition decision.
Experiments are conducted on an audiovisual dataset containing the 28 Arabic syllables pronounced by ten speakers.
Results show the importance of the visual information that is provided by Discrete Cosine Transform (DCT) and Discrete Wavelet Transform (DWT) in addition to the audio information corresponding to the Mel Frequency Cepstra Coefficients (MFCC) and Perceptual Linear Predictive (PLP).
Furthermore some artificial neural networks such as Multilayer Perceptron (MLP) and Radial Basis Function (RBF) were investigated and tested successfully in this dataset by presenting good recognition performances with serial concatenation for the acoustic and visual vectors.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
Chelali, Fatimah& Djeradi, Ammar. 2017. Audiovisual speaker identification based on lip and speech modalities. The International Arab Journal of Information Technology،Vol. 14, no. 1.
https://search.emarefa.net/detail/BIM-693624
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
Chelali, Fatimah& Djeradi, Ammar. Audiovisual speaker identification based on lip and speech modalities. The International Arab Journal of Information Technology Vol. 14, no. 1 (Jan. 2017).
https://search.emarefa.net/detail/BIM-693624
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
Chelali, Fatimah& Djeradi, Ammar. Audiovisual speaker identification based on lip and speech modalities. The International Arab Journal of Information Technology. 2017. Vol. 14, no. 1.
https://search.emarefa.net/detail/BIM-693624
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
Includes appendices.
رقم السجل
BIM-693624
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر