F0 modeling for isarn speech synthesis using deep neural networks and syllable-level feature representation
المؤلفون المشاركون
Janyoi, Pongsathon
Seresangtakul, Pusadee
المصدر
The International Arab Journal of Information Technology
العدد
المجلد 17، العدد 6 (30 نوفمبر/تشرين الثاني 2020)، ص ص. 906-915، 10ص.
الناشر
جامعة الزرقاء عمادة البحث العلمي
تاريخ النشر
2020-11-30
دولة النشر
الأردن
عدد الصفحات
10
التخصصات الرئيسية
تكنولوجيا المعلومات وعلم الحاسوب
الملخص EN
The generation of the fundamental frequency (F0) plays an important role in speech synthesis, which directly influences the naturalness of synthetic speech.
In conventional parametric speech synthesis, F0 is predicted frame-by-frame.
This method is insufficient to represent F0 contours in larger units, especially tone contours of syllables in tonal languages that deviate as a result of long-term context dependency.
This work proposes a syllable-level F0 model that represents F0 contours within syllables, using syllable-level F0 parameters that comprise the sampling F0 points and dynamic features.
A Deep Neural Network (DNN) was used to represent the relationships between syllable-level contextual features and syllable-level F0 parameters.
The proposed model was examined using an Isarn speech synthesis system with both large and small training sets.
For all training sets, the results of objective and subjective tests indicate that the proposed approach outperforms the baseline systems based on hidden Markov models and DNNS that predict F0 values at the frame level.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
Janyoi, Pongsathon& Seresangtakul, Pusadee. 2020. F0 modeling for isarn speech synthesis using deep neural networks and syllable-level feature representation. The International Arab Journal of Information Technology،Vol. 17, no. 6, pp.906-915.
https://search.emarefa.net/detail/BIM-1433876
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
Janyoi, Pongsathon& Seresangtakul, Pusadee. F0 modeling for isarn speech synthesis using deep neural networks and syllable-level feature representation. The International Arab Journal of Information Technology Vol. 17, no. 6 (Nov. 2020), pp.906-915.
https://search.emarefa.net/detail/BIM-1433876
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
Janyoi, Pongsathon& Seresangtakul, Pusadee. F0 modeling for isarn speech synthesis using deep neural networks and syllable-level feature representation. The International Arab Journal of Information Technology. 2020. Vol. 17, no. 6, pp.906-915.
https://search.emarefa.net/detail/BIM-1433876
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
Includes bibliographical references : p. 913-914
رقم السجل
BIM-1433876
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر