Investigation of distance effect on gaussian mixture models in speaker identification
Other Title(s)
دراسة تأثير المسافة على موديلات الخليط الكاوسي في تمييز هوية المتكلم
Author
Source
al-Rafidain Engineering Journal
Issue
Vol. 19, Issue 5 (31 Oct. 2011), pp.53-65, 13 p.
Publisher
University of Mosul College of Engineering
Publication Date
2011-10-31
Country of Publication
Iraq
No. of Pages
13
Main Subjects
Abstract AR
يتناول هذا البحث دراسة تأثير المسافة على موديلات الخليط الكاوسي (GMM) لتمييز هوية المتكلم، استخدمت ثلاث مراحل و لثلاث مسافات مختلفة البعد عن المايكروفون (1 متر و 2 متر و 3 متر)، أنواع استخلاص الصفات هي معاملات التردد الميلي (MFCC) و معاملات التردد الباركي (BFCC) و معاملات التنبؤ الخطي (LPCC) و هذه الطرائق استخلصت من 20 متكلم (10 بالغين، 10 أطفال) و كل متكلم نطق خمس كلمات عربية و لمدة خمسة ثوان.
إن طرائق التمييز المستخدمة تتضمن نوعان : الأول موديلات الخليط الكاوسي (GMM)، و الثاني الشبكة العصبية متعددة الطبقات (MLP) و أثبتت النتائج أن استخدام طريقة معاملات التردد الميلي هي الأحسن في استخلاص الصفات وطريقة (GMM) هي الأحسن في التمييز، حيث كانت نسبة التمييز في (GMM) 93.15 % و في الشبكة العصبية 88.06 %.
كما بينت النتائج أن نسبة التمييز تقل من 93.1 % إلى 80.82 % كلما زيدت المسافة من 1 متر إلى 3 متر.
Abstract EN
This paper investigates the effect of distance on the Gaussian Mixture Models (GMM) for text dependent speaker identification.
Three stages are used for three different distances from the microphone (1m, 2m, and 3m).
The set of feature extraction used here include Mel frequency cepstral coefficient (MFCC), Bark frequency cepstral coefficient (BFCC) and linear predictive cepstral coefficient (LPCC).
These features are obtained from 20 speakers (10 adults and 10 children) ; all spoke five Arabic words in 5 seconds.
The set of classification includes two types GMM and multilayer perceptron neural network (MLP).
Total results show that MFCC has the best performance in feature extraction, and GMM has better recognition than MLP as total recognition in GMM is 93.15 % and recognition in MLP is 88.06 %.
The results show also that the recognition rate decreases from 93.15 % to 80.82 % as the distance is increased from 1m to 3m.
American Psychological Association (APA)
Shindala, Nada Abd al-Ghani. 2011. Investigation of distance effect on gaussian mixture models in speaker identification. al-Rafidain Engineering Journal،Vol. 19, no. 5, pp.53-65.
https://search.emarefa.net/detail/BIM-309639
Modern Language Association (MLA)
Shindala, Nada Abd al-Ghani. Investigation of distance effect on gaussian mixture models in speaker identification. al-Rafidain Engineering Journal Vol. 19, no. 5 (Oct. 2011), pp.53-65.
https://search.emarefa.net/detail/BIM-309639
American Medical Association (AMA)
Shindala, Nada Abd al-Ghani. Investigation of distance effect on gaussian mixture models in speaker identification. al-Rafidain Engineering Journal. 2011. Vol. 19, no. 5, pp.53-65.
https://search.emarefa.net/detail/BIM-309639
Data Type
Journal Articles
Language
English
Notes
Includes bibliographical references : p. 64-65
Record ID
BIM-309639