Clustering Vietnamese conversations from Facebook page to build training dataset for chatbot
المؤلفون المشاركون
Nguyen, Thanh Q.
Nguyen, Trieu Hai
Pham, Thi Kim Ngoan
Bui, Thi-Hong-Minh
المصدر
Jordanian Journal of Computetrs and Information Technology
العدد
المجلد 8، العدد 1 (31 مارس/آذار 2022)، ص ص. 1-17، 17ص.
الناشر
جامعة الأميرة سمية للتكنولوجيا
تاريخ النشر
2022-03-31
دولة النشر
الأردن
عدد الصفحات
17
التخصصات الرئيسية
تكنولوجيا المعلومات وعلم الحاسوب
الملخص EN
The biggest challenge of building chatbots is training data.
The required data must be realistic and large enough to train chatbots.
We create a tool to get actual training data from Facebook messenger of a Facebook page.
After text preprocessing steps, the newly obtained dataset generates FVnC and Sample dataset.
We use the Retraining of BERT for Vietnamese (PhoBERT) to extract features of our text data.
K-Means and DBSCAN clustering algorithms are used for clustering tasks based on output embeddings from PhoBERTbase.
We apply V-measure score and Silhouette score to evaluate the performance of clustering algorithms.
We also demonstrate the efficiency of PhoBERT compared to other models in feature extraction on the Sample dataset and wiki dataset.
A GridSearch algorithm that combines both clustering evaluations is also proposed to find optimal parameters.
Thanks to clustering such a number of conversations, we save a lot of time and effort to build data and storylines for training chatbot.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
Nguyen, Trieu Hai& Pham, Thi Kim Ngoan& Bui, Thi-Hong-Minh& Nguyen, Thanh Q.. 2022. Clustering Vietnamese conversations from Facebook page to build training dataset for chatbot. Jordanian Journal of Computetrs and Information Technology،Vol. 8, no. 1, pp.1-17.
https://search.emarefa.net/detail/BIM-1416101
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
Nguyen, Trieu Hai…[et al.]. Clustering Vietnamese conversations from Facebook page to build training dataset for chatbot. Jordanian Journal of Computetrs and Information Technology Vol. 8, no. 1 (Mar. 2022), pp.1-17.
https://search.emarefa.net/detail/BIM-1416101
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
Nguyen, Trieu Hai& Pham, Thi Kim Ngoan& Bui, Thi-Hong-Minh& Nguyen, Thanh Q.. Clustering Vietnamese conversations from Facebook page to build training dataset for chatbot. Jordanian Journal of Computetrs and Information Technology. 2022. Vol. 8, no. 1, pp.1-17.
https://search.emarefa.net/detail/BIM-1416101
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
Includes bibliographical references : p. 15-17
رقم السجل
BIM-1416101
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر