![](/images/graphics-bg.png)
A Systematic Comparison of Data Selection Criteria for SMT Domain Adaptation
المؤلفون المشاركون
Wong, Derek F.
Chao, Lidia S.
Wang, Longyue
Lu, Yi
Xing, Junwen
المصدر
العدد
المجلد 2014، العدد 2014 (31 ديسمبر/كانون الأول 2014)، ص ص. 1-10، 10ص.
الناشر
Hindawi Publishing Corporation
تاريخ النشر
2014-02-11
دولة النشر
مصر
عدد الصفحات
10
التخصصات الرئيسية
الطب البشري
تكنولوجيا المعلومات وعلم الحاسوب
الملخص EN
Data selection has shown significant improvements in effective use of training data by extracting sentences from large general-domain corpora to adapt statistical machine translation (SMT) systems to in-domain data.
This paper performs an in-depth analysis of three different sentence selection techniques.
The first one is cosine tf-idf, which comes from the realm of information retrieval (IR).
The second is perplexity-based approach, which can be found in the field of language modeling.
These two data selection techniques applied to SMT have been already presented in the literature.
However, edit distance for this task is proposed in this paper for the first time.
After investigating the individual model, a combination of all three techniques is proposed at both corpus level and model level.
Comparative experiments are conducted on Hong Kong law Chinese-English corpus and the results indicate the following: (i) the constraint degree of similarity measuring is not monotonically related to domain-specific translation quality; (ii) the individual selection models fail to perform effectively and robustly; but (iii) bilingual resources and combination methods are helpful to balance out-of-vocabulary (OOV) and irrelevant data; (iv) finally, our method achieves the goal to consistently boost the overall translation performance that can ensure optimal quality of a real-life SMT system.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
Wang, Longyue& Wong, Derek F.& Chao, Lidia S.& Lu, Yi& Xing, Junwen. 2014. A Systematic Comparison of Data Selection Criteria for SMT Domain Adaptation. The Scientific World Journal،Vol. 2014, no. 2014, pp.1-10.
https://search.emarefa.net/detail/BIM-1050872
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
Wang, Longyue…[et al.]. A Systematic Comparison of Data Selection Criteria for SMT Domain Adaptation. The Scientific World Journal No. 2014 (2014), pp.1-10.
https://search.emarefa.net/detail/BIM-1050872
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
Wang, Longyue& Wong, Derek F.& Chao, Lidia S.& Lu, Yi& Xing, Junwen. A Systematic Comparison of Data Selection Criteria for SMT Domain Adaptation. The Scientific World Journal. 2014. Vol. 2014, no. 2014, pp.1-10.
https://search.emarefa.net/detail/BIM-1050872
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
Includes bibliographical references
رقم السجل
BIM-1050872
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
![](/images/ebook-kashef.png)
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر
![](/images/kashef-image.png)