Adaptive indexing of documents using genetic algorithms and relevance feedback

Other Title(s)

الفهرسة التكيفية للوثائق باستخدام الخوارزميات الجينية والتغذية الراجعة ذات الصلة

Joint Authors

al-Khafaji, Tiful Husayn Umran
Shahid, Ali Hasan

Source

Journal of Babylon University : Journal of Applied and Pure Sciences

Issue

Vol. 30, Issue 3 (30 Sep. 2022), pp.1-9, 9 p.

Publisher

University of Babylon

Publication Date

2022-09-30

Country of Publication

Iraq

No. of Pages

9

Main Subjects

Information Technology and Computer Science

Abstract AR

مقدمه: في هذه الورقة، تم البحث في مشكلة استرجاع الوثائق الصحيحة التي تحقق رغبات المستخدم الهدف الرئيسي في أنظمة استرجاع المعلومات هو استرداد جميع الوثائق ذات الصلة فقط.

طرق العمل: تم استخدام الخوارزمية الجينية لتحقيق هذا الهدف أوصاف المستندات تم تكييفها وتغييرها باستخدام الخوارزمية الجينية، اعتمادا على الأحكام التي أطلقها المستخدم (والتي تم جمعها والاحتفاظ بها حول اهمية المستندات بالنسبة له الخوارزمية الجينية هي أ أداة قوية تعتمد على مبادئ الداروينية وتقنيات التطور للبحث في فضاءات البحث المعقدة.

يسهل استخدام الخوارزمية الجينية تكييف فهارس المستندات.

تم تنفيذ ثلاثة طرق في الانتخاب نمذجة عجلة الروليت، ونمذجة عجلة الروليت مع النخبة والنمذجة الشاملة التصادفية.

يتم حساب دالة الصلاحية باستخدام معامل Jaccard الذي يقيس التقارب بين الاستعلام وفهرس المستند.

الاستنتاجات: توجد بين الكلمات المفتاحية المستخدمة لوصف محتوى الوثائق اعتماديات إحصائية من الصعب استيعاب هذه الاعتماديات في نظام الاسترجاع.

يمكن للخوارزمية الجينية أن تأخذ في الاعتبار هذه الاعتماديات أثناء عملها.

وفقا لنظرية المخطط وفرضية حجر البناء [10]، يتم نشر المخططات الأكثر صلاحية من جيل إلى جيل، حيث يتم أخذ عينات منها وإعادة تجميعها وتحويلها وإعادة تشكيلها لتشكيل سلاسل ذات صلاحية أعلى.

هناك جانب آخر يمكن أن تقدمه الخوارزمية الجينية، وهو الاعتماد على التغذية الراجعة المقدمة من مستخدمي نظام الاسترجاع لتكييف أوصاف المستندات، وإنتاج مجموعة جديدة من الأوصاف الأقرب إلى حاجات المستخدمين.

تم استخدام ثلاثة انواع من الانتخاب المتناسب مع الصلاحية، وهي نمذجة عجلة الروليت، ونمذجة عجلة الروليت ذات النخبة، والنمذجة الشاملة التصادفية.

أظهرت النتائج تفوق النوع الثالث على الأول والثاني.

Abstract EN

Background: In this paper, the problem of retrieving the correct documents that satisfy the user's concerns is investigated.

The main aim in information retrieval systems is to retrieve all and only relevant documents.

Materials and Methods: The genetic algorithm is utilized to adapt and change the documents indexes, depending on relevance judgments collected from users.

Genetic algorithm is a powerful tool that depends on the Darwinian principles and evolution techniques to search complex spaces.

The use of genetic algorithm facilitates the adaptation of documents indexes.

Sampling operation is performed using roulette wheel, roulette wheel with elitism and stochastic universal sampling.

The fitness function is computed using Jaccard's coefficient that measure the closeness between query and document index.

Results: The results show that the new descriptions are more efficient and closer to the population of users that use the information retrieval system.

In addition, the stochastic universal sampling gave the best results.

Conclusion: The keywords used to describe the content of documents have statistical dependencies among them.

It is difficult to accommodate these dependencies in retrieval system.

Genetic algorithm can consider these dependencies during its action.

According to schema theorem and building block hypothesis [10], the fittest schemata are propagated from generation to generation, where they are sampled, recombined, mutated and resampled to form strings of potentially higher worth.

Another aspect genetic algorithm can offer, is the reliance on the feedback provided by users of the retrieval system to adapt documents descriptions and selections variations were experimented with roulette sampling, with elitism, and with produce new set of descriptions closer to the population of users' needs.

Three fitness proportionate selection variations are used, roulette wheel sampling, roulette wheel with elitism and stochastic universal sampling.

The results have indicated the superiority of the third over the first two.

American Psychological Association (APA)

al-Khafaji, Tiful Husayn Umran& Shahid, Ali Hasan. 2022. Adaptive indexing of documents using genetic algorithms and relevance feedback. Journal of Babylon University : Journal of Applied and Pure Sciences،Vol. 30, no. 3, pp.1-9.
https://search.emarefa.net/detail/BIM-1593846

Modern Language Association (MLA)

al-Khafaji, Tiful Husayn Umran& Shahid, Ali Hasan. Adaptive indexing of documents using genetic algorithms and relevance feedback. Journal of Babylon University : Journal of Applied and Pure Sciences Vol. 30, no. 3 (2022), pp.1-9.
https://search.emarefa.net/detail/BIM-1593846

American Medical Association (AMA)

al-Khafaji, Tiful Husayn Umran& Shahid, Ali Hasan. Adaptive indexing of documents using genetic algorithms and relevance feedback. Journal of Babylon University : Journal of Applied and Pure Sciences. 2022. Vol. 30, no. 3, pp.1-9.
https://search.emarefa.net/detail/BIM-1593846

Data Type

Journal Articles

Language

English

Notes

Includes bibliographical references: p. 9

Record ID

BIM-1593846