Investigation of distance effect on gaussian mixture models in speaker identification

Other Title(s)

دراسة تأثير المسافة على موديلات الخليط الكاوسي في تمييز هوية المتكلم

Author

Shindala, Nada Abd al-Ghani

Source

al-Rafidain Engineering Journal

Issue

Vol. 19, Issue 5 (31 Oct. 2011), pp.53-65, 13 p.

Publisher

University of Mosul College of Engineering

Publication Date

2011-10-31

Country of Publication

Iraq

No. of Pages

13

Main Subjects

Media and Communication

Abstract AR

يتناول هذا البحث دراسة تأثير المسافة على موديلات الخليط الكاوسي (GMM) لتمييز هوية المتكلم، استخدمت ثلاث مراحل و لثلاث مسافات مختلفة البعد عن المايكروفون (1 متر و 2 متر و 3 متر)، أنواع استخلاص الصفات هي معاملات التردد الميلي (MFCC) و معاملات التردد الباركي (BFCC) و معاملات التنبؤ الخطي (LPCC) و هذه الطرائق استخلصت من 20 متكلم (10 بالغين، 10 أطفال) و كل متكلم نطق خمس كلمات عربية و لمدة خمسة ثوان.

إن طرائق التمييز المستخدمة تتضمن نوعان : الأول موديلات الخليط الكاوسي (GMM)، و الثاني الشبكة العصبية متعددة الطبقات (MLP) و أثبتت النتائج أن استخدام طريقة معاملات التردد الميلي هي الأحسن في استخلاص الصفات وطريقة (GMM) هي الأحسن في التمييز، حيث كانت نسبة التمييز في (GMM) 93.15 % و في الشبكة العصبية 88.06 %.

كما بينت النتائج أن نسبة التمييز تقل من 93.1 % إلى 80.82 % كلما زيدت المسافة من 1 متر إلى 3 متر.

Abstract EN

This paper investigates the effect of distance on the Gaussian Mixture Models (GMM) for text dependent speaker identification.

Three stages are used for three different distances from the microphone (1m, 2m, and 3m).

The set of feature extraction used here include Mel frequency cepstral coefficient (MFCC), Bark frequency cepstral coefficient (BFCC) and linear predictive cepstral coefficient (LPCC).

These features are obtained from 20 speakers (10 adults and 10 children) ; all spoke five Arabic words in 5 seconds.

The set of classification includes two types GMM and multilayer perceptron neural network (MLP).

Total results show that MFCC has the best performance in feature extraction, and GMM has better recognition than MLP as total recognition in GMM is 93.15 % and recognition in MLP is 88.06 %.

The results show also that the recognition rate decreases from 93.15 % to 80.82 % as the distance is increased from 1m to 3m.

American Psychological Association (APA)

Shindala, Nada Abd al-Ghani. 2011. Investigation of distance effect on gaussian mixture models in speaker identification. al-Rafidain Engineering Journal،Vol. 19, no. 5, pp.53-65.
https://search.emarefa.net/detail/BIM-309639

Modern Language Association (MLA)

Shindala, Nada Abd al-Ghani. Investigation of distance effect on gaussian mixture models in speaker identification. al-Rafidain Engineering Journal Vol. 19, no. 5 (Oct. 2011), pp.53-65.
https://search.emarefa.net/detail/BIM-309639

American Medical Association (AMA)

Shindala, Nada Abd al-Ghani. Investigation of distance effect on gaussian mixture models in speaker identification. al-Rafidain Engineering Journal. 2011. Vol. 19, no. 5, pp.53-65.
https://search.emarefa.net/detail/BIM-309639

Data Type

Journal Articles

Language

English

Notes

Includes bibliographical references : p. 64-65

Record ID

BIM-309639