توليد تحريك لوجه يتزامن مع كلام مدخل باللغة العربية

Other Title(s)

Face animation generation synchronized with an Arabic input speech

Joint Authors

الصوص، مدحت
إياس راضي
الدكاك، أميمة

Source

مجلة جامعة دمشق للعلوم الهندسية : مجلة علمية محكمة دورية

Publisher

Damascus University

Publication Date

2022-12-31

Country of Publication

Syria

No. of Pages

9

Main Subjects

Learning Technology

Arabic Abstract

يهدف البحث إلى توليد تحريك لنموذج وجه بشري ثلاثي الأبعاد يتزامن مع إشارة كلامية باللغة العربية، يختص بمنطقة الشفاه والفك.

ينقسم البحث إلى قسمين : 1- معالجة الإشارة الكلامية لتعرف الصوتيمات (الفونيمات) ومددها، 2- مقابلة الصوتيمات مع الفيزيمات المناسبة والتنقل بين الفيزيمات حسب مدة كل صوتيم.

تم الاعتماد في القسم الأول على نموذج ماركوف المخفي ذي ثلاث حالات لكل صوتيم، مع نموذج خليط غاوسي، بحيث يكون دخل النموذج تصنيفات سمات ميل کیبستروم MFCCS، وخرجه صوتيمات الكلام مقتمة زمنيا.

و تم الاعتماد في القسم الثاني على نموذج استيفاء الأشكال مع مراعاة التداخل الزمني بين الفيزيمات لتحقيق الترابط التطقي، وتم وضع صيغة جديدة لحساب شدة ظهور الفيزيم و الفترة التي يبقى فيها محافظا على شكله، تعتمد على مدة الصوتيم ومتوسط مدده.

كانت دقة تعرف الصوتيمات 86.09% على مستوى الإطار حسب صيغة معدل الخطأ في تعرف الصوتيمات، وتم إجراء تقييم فردي لنتائج التحريك بواسطة 75 مستخدم، وكانت النتيجة أن 56% من المستخدمين كـان تقييمهم 80% ومـا فـوق لجـودة مطابقة الكلام مع حركات الشفاه، و 57% من المستخدمين كـان تقييمهم 80% وما فوق لواقعية التحريك.

كما تمت المقارنة مع طريقة أخرى لحساب شدة الفيزيم تعتمد على تردد الصوت Frequency و الشدة Intensity، وكانت النتيجة أن 65% من المستخدمين كان تقييمهم لصالح التحريك الناتج عن الطريقة المطبقة في هذا البحث .

نستنتج أنه إذا كانت دقة التحريك عالية فإن دقة تعرف الصوتيمات حتما عالية، لكن العكس ليس بالضرورة صحيحا، فلعملية التحريك محدداتها الخاصة التي من شأنها إنتاج مزامنة دقيقة بين الحركة والكلام، مثل معرفة شدة الفيزيم وتحقيق الترابط التطقي والفترة التي يبقى فيها الفيزيم محافظا على شكله، إذا عملية الانتقال من صوتيمات الكلام إلى التحريك ليست عملية تقابل بحتة.

English Abstract

The research aims to generate an animation of a 3D human face model that synchronizing to an Arabic speech signal, and specializing in lips and jaw area.

The research is divided into two parts : 1- speech signal processing in order to phonemes recognition and their durations, 2 mapping between phonemes and visemes and making interpolation between visemes according to phonemes durations.

In the first part, the three-states hidden Markov model and Gaussian Mixture Model for each phoneme was used, where the model input is Mel Frequency Cepstral Coefficients (MFCCs), and the output is phonemes and their durations.

In the second part, the Blend Shapes model was used, taking into account the temporal overlap between visemes to achieve co-articulation, and a new formula was developed to calculate the viseme amplitude and the period during which it remains in its shape.

This formula depends on the phoneme duration and its average.

The accuracy of phonemes recognition was 86.09% at the frame level according to the Phone Error Rate formula (PER), and an individual evaluation of animation was made by 75 users, and the result was that 56% of users rated 80% and above for the quality of synchronization between speech and lip movements, and 57% of users rated 80% and above for the realism of animation.

A comparison with another method for calculating the viseme amplitude based on sound frequency and intensity was also made, and the result was that 65% of users preferred the animation that is generated by the method applied in this research.

We conclude that if the animation accuracy is high, then the phonemes recognition accuracy is inevitably high, but the opposite is not necessarily true, because the process of animation has determinants that would produce an accurate synchronization between movement and speech, such as the viseme amplitude, co-articulation and the period during which the viseme remains in its shape, so the process of generating animation from phonemes is not a purely mapping process.

Data Type

Conference Papers

Record ID

BIM-1529970

American Psychological Association (APA)

إياس راضي والدكاك، أميمة والصوص، مدحت. 2022-12-31. توليد تحريك لوجه يتزامن مع كلام مدخل باللغة العربية. مؤتمر الهندسة المعلوماتية (1 : 2022 : دمشق، سوريا) :1) 2022 : دمشق، سوريا). . مج. 38، ع. 4 (s+conf) (2022)، ص ص. 115-123.دمشق، سوريا : جامعة دمشق،.
https://search.emarefa.net/detail/BIM-1529970

Modern Language Association (MLA)

إياس راضي....[و آخرون]. توليد تحريك لوجه يتزامن مع كلام مدخل باللغة العربية. . دمشق، سوريا : جامعة دمشق،. 2022-12-31.
https://search.emarefa.net/detail/BIM-1529970

American Medical Association (AMA)

إياس راضي والدكاك، أميمة والصوص، مدحت. توليد تحريك لوجه يتزامن مع كلام مدخل باللغة العربية. . مؤتمر الهندسة المعلوماتية (1 : 2022 : دمشق، سوريا) :1) 2022 : دمشق، سوريا).
https://search.emarefa.net/detail/BIM-1529970