Genetic based optimization models for enhancing multi-document text summarization

Other Title(s)

التلخيص الاقتطاعي للمستندات النصية المتعددة باستخدام نماذج أمثليه مستندة على الخوارزمية الجينية

Joint Authors

Kazim, Nisrin J.
Salih, Hilal Hadi

Source

Engineering and Technology Journal

Issue

Vol. 33, Issue 8B (31 Aug. 2015), pp.1374-1387, 14 p.

Publisher

University of Technology

Publication Date

2015-08-31

Country of Publication

Iraq

No. of Pages

14

Main Subjects

Mathematics

Abstract AR

التلخيص الاقتطاعي للمستندات النصية المتعددة – تلخيص يھدف إلى إزالة البيانات المتكررة بمجموعة مستندات مع الحفاظ على الجمل المھمة التي تبرز المحور الرئيسي الذي تدور حوله ھذه المستندات – حصل مؤخرا على اھتمام واسع من خلال اقتراح نماذج رياضية أوتوماتيكية لصياغة ھذه المشكلة.

ھذا البحث يقوم باقتراح نموذجين للتلخيص الاقتطاعي مستند على الخوارزمية الجينية.

حيث تم أوال وصف و نمذجة المشكلة كمشكلة أفضلية متقطعة عن طريق نموذجين مع تصميم دالة ملائمة محددة لكل نموذج مقترح.

و الثاني ھو استخدام تمثيل ثنائي مع موجه طفرة و مصحح محلي لمساعدة الخوارزمية الجينية المتبناة.

تم تبني دور درجة التشابه بين كل جملة مع باقي الجمل في مجموعة المستندات النصية و التشابه بين كل جملة و مركز مجموعة المستندات النصية و التشابه بين مركز المختصر و مركز مجموعة المستندات النصية في النماذج المقترحة.

التجارب طبقت على عشرة محاور من مجموعة البيانات العالمية DUC2002 و قد أظھرت النتائج فعالية النماذج المقترحة عندما تمت مقارنتھا مع أحد النماذج الحديثة.

أظھرت عملية حقن مستويات متعددة من مقياس التشابه النصي عند صياغة النموذج تأثير ايجابي على تحسين الأداء الكلي للخوارزمية الجينية المقترحة.

Abstract EN

Extractive multi-document text summarization – a summarization with the aim of removing redundant information in a document collection while preserving its salient sentences-has recently enjoyed a large interest in proposing automatic models.

This paper proposes two models for extractive multi-document summarization based on genetic algorithm (GA).

First, the problem is described and modeled as a discrete optimization problem with two candidate expressions and a specific fitness function is designed to effectively cope with each candidate.

Then, a binary-encoded representation together with a heuristic mutation and a local repair operator are proposed to characterize the adopted GA.

The semantic roles of similarity of sentence to sentence, sentence to center of document collection and center of summary to center of document collection are exploited in the proposed model formulations.

Experiments are applied to ten clusters from DUC2002 datasets (d061j through d070f) and compared with another state-of-the-art model.

Results clarify the effectiveness of the proposed models.

Moreover, the injection of several levels of text similarity in the model formulation shows a positive impact on enhancing the overall performance of the proposed GA.

American Psychological Association (APA)

Salih, Hilal Hadi& Kazim, Nisrin J.. 2015. Genetic based optimization models for enhancing multi-document text summarization. Engineering and Technology Journal،Vol. 33, no. 8B, pp.1374-1387.
https://search.emarefa.net/detail/BIM-674640

Modern Language Association (MLA)

Salih, Hilal Hadi& Kazim, Nisrin J.. Genetic based optimization models for enhancing multi-document text summarization. Engineering and Technology Journal Vol. 33, no. 8B (2015), pp.1374-1387.
https://search.emarefa.net/detail/BIM-674640

American Medical Association (AMA)

Salih, Hilal Hadi& Kazim, Nisrin J.. Genetic based optimization models for enhancing multi-document text summarization. Engineering and Technology Journal. 2015. Vol. 33, no. 8B, pp.1374-1387.
https://search.emarefa.net/detail/BIM-674640

Data Type

Journal Articles

Language

English

Notes

Text in English ; abstracts in English and Arabic.

Record ID

BIM-674640