Investigation of distance effect on gaussian mixture models in speaker identification

العناوين الأخرى

دراسة تأثير المسافة على موديلات الخليط الكاوسي في تمييز هوية المتكلم

المؤلف

Shindala, Nada Abd al-Ghani

المصدر

al-Rafidain Engineering Journal

العدد

المجلد 19، العدد 5 (31 أكتوبر/تشرين الأول 2011)، ص ص. 53-65، 13ص.

الناشر

جامعة الموصل كلية الهندسة

تاريخ النشر

2011-10-31

دولة النشر

العراق

عدد الصفحات

13

التخصصات الرئيسية

الإعلام و الاتصال

الملخص AR

يتناول هذا البحث دراسة تأثير المسافة على موديلات الخليط الكاوسي (GMM) لتمييز هوية المتكلم، استخدمت ثلاث مراحل و لثلاث مسافات مختلفة البعد عن المايكروفون (1 متر و 2 متر و 3 متر)، أنواع استخلاص الصفات هي معاملات التردد الميلي (MFCC) و معاملات التردد الباركي (BFCC) و معاملات التنبؤ الخطي (LPCC) و هذه الطرائق استخلصت من 20 متكلم (10 بالغين، 10 أطفال) و كل متكلم نطق خمس كلمات عربية و لمدة خمسة ثوان.

إن طرائق التمييز المستخدمة تتضمن نوعان : الأول موديلات الخليط الكاوسي (GMM)، و الثاني الشبكة العصبية متعددة الطبقات (MLP) و أثبتت النتائج أن استخدام طريقة معاملات التردد الميلي هي الأحسن في استخلاص الصفات وطريقة (GMM) هي الأحسن في التمييز، حيث كانت نسبة التمييز في (GMM) 93.15 % و في الشبكة العصبية 88.06 %.

كما بينت النتائج أن نسبة التمييز تقل من 93.1 % إلى 80.82 % كلما زيدت المسافة من 1 متر إلى 3 متر.

الملخص EN

This paper investigates the effect of distance on the Gaussian Mixture Models (GMM) for text dependent speaker identification.

Three stages are used for three different distances from the microphone (1m, 2m, and 3m).

The set of feature extraction used here include Mel frequency cepstral coefficient (MFCC), Bark frequency cepstral coefficient (BFCC) and linear predictive cepstral coefficient (LPCC).

These features are obtained from 20 speakers (10 adults and 10 children) ; all spoke five Arabic words in 5 seconds.

The set of classification includes two types GMM and multilayer perceptron neural network (MLP).

Total results show that MFCC has the best performance in feature extraction, and GMM has better recognition than MLP as total recognition in GMM is 93.15 % and recognition in MLP is 88.06 %.

The results show also that the recognition rate decreases from 93.15 % to 80.82 % as the distance is increased from 1m to 3m.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

Shindala, Nada Abd al-Ghani. 2011. Investigation of distance effect on gaussian mixture models in speaker identification. al-Rafidain Engineering Journal،Vol. 19, no. 5, pp.53-65.
https://search.emarefa.net/detail/BIM-309639

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

Shindala, Nada Abd al-Ghani. Investigation of distance effect on gaussian mixture models in speaker identification. al-Rafidain Engineering Journal Vol. 19, no. 5 (Oct. 2011), pp.53-65.
https://search.emarefa.net/detail/BIM-309639

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

Shindala, Nada Abd al-Ghani. Investigation of distance effect on gaussian mixture models in speaker identification. al-Rafidain Engineering Journal. 2011. Vol. 19, no. 5, pp.53-65.
https://search.emarefa.net/detail/BIM-309639

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes bibliographical references : p. 64-65

رقم السجل

BIM-309639