Adaptive indexing of documents using genetic algorithms and relevance feedback

العناوين الأخرى

الفهرسة التكيفية للوثائق باستخدام الخوارزميات الجينية والتغذية الراجعة ذات الصلة

المؤلفون المشاركون

al-Khafaji, Tiful Husayn Umran
Shahid, Ali Hasan

المصدر

Journal of Babylon University : Journal of Applied and Pure Sciences

العدد

المجلد 30، العدد 3 (30 سبتمبر/أيلول 2022)، ص ص. 1-9، 9ص.

الناشر

جامعة بابل

تاريخ النشر

2022-09-30

دولة النشر

العراق

عدد الصفحات

9

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب

الملخص AR

مقدمه: في هذه الورقة، تم البحث في مشكلة استرجاع الوثائق الصحيحة التي تحقق رغبات المستخدم الهدف الرئيسي في أنظمة استرجاع المعلومات هو استرداد جميع الوثائق ذات الصلة فقط.

طرق العمل: تم استخدام الخوارزمية الجينية لتحقيق هذا الهدف أوصاف المستندات تم تكييفها وتغييرها باستخدام الخوارزمية الجينية، اعتمادا على الأحكام التي أطلقها المستخدم (والتي تم جمعها والاحتفاظ بها حول اهمية المستندات بالنسبة له الخوارزمية الجينية هي أ أداة قوية تعتمد على مبادئ الداروينية وتقنيات التطور للبحث في فضاءات البحث المعقدة.

يسهل استخدام الخوارزمية الجينية تكييف فهارس المستندات.

تم تنفيذ ثلاثة طرق في الانتخاب نمذجة عجلة الروليت، ونمذجة عجلة الروليت مع النخبة والنمذجة الشاملة التصادفية.

يتم حساب دالة الصلاحية باستخدام معامل Jaccard الذي يقيس التقارب بين الاستعلام وفهرس المستند.

الاستنتاجات: توجد بين الكلمات المفتاحية المستخدمة لوصف محتوى الوثائق اعتماديات إحصائية من الصعب استيعاب هذه الاعتماديات في نظام الاسترجاع.

يمكن للخوارزمية الجينية أن تأخذ في الاعتبار هذه الاعتماديات أثناء عملها.

وفقا لنظرية المخطط وفرضية حجر البناء [10]، يتم نشر المخططات الأكثر صلاحية من جيل إلى جيل، حيث يتم أخذ عينات منها وإعادة تجميعها وتحويلها وإعادة تشكيلها لتشكيل سلاسل ذات صلاحية أعلى.

هناك جانب آخر يمكن أن تقدمه الخوارزمية الجينية، وهو الاعتماد على التغذية الراجعة المقدمة من مستخدمي نظام الاسترجاع لتكييف أوصاف المستندات، وإنتاج مجموعة جديدة من الأوصاف الأقرب إلى حاجات المستخدمين.

تم استخدام ثلاثة انواع من الانتخاب المتناسب مع الصلاحية، وهي نمذجة عجلة الروليت، ونمذجة عجلة الروليت ذات النخبة، والنمذجة الشاملة التصادفية.

أظهرت النتائج تفوق النوع الثالث على الأول والثاني.

الملخص EN

Background: In this paper, the problem of retrieving the correct documents that satisfy the user's concerns is investigated.

The main aim in information retrieval systems is to retrieve all and only relevant documents.

Materials and Methods: The genetic algorithm is utilized to adapt and change the documents indexes, depending on relevance judgments collected from users.

Genetic algorithm is a powerful tool that depends on the Darwinian principles and evolution techniques to search complex spaces.

The use of genetic algorithm facilitates the adaptation of documents indexes.

Sampling operation is performed using roulette wheel, roulette wheel with elitism and stochastic universal sampling.

The fitness function is computed using Jaccard's coefficient that measure the closeness between query and document index.

Results: The results show that the new descriptions are more efficient and closer to the population of users that use the information retrieval system.

In addition, the stochastic universal sampling gave the best results.

Conclusion: The keywords used to describe the content of documents have statistical dependencies among them.

It is difficult to accommodate these dependencies in retrieval system.

Genetic algorithm can consider these dependencies during its action.

According to schema theorem and building block hypothesis [10], the fittest schemata are propagated from generation to generation, where they are sampled, recombined, mutated and resampled to form strings of potentially higher worth.

Another aspect genetic algorithm can offer, is the reliance on the feedback provided by users of the retrieval system to adapt documents descriptions and selections variations were experimented with roulette sampling, with elitism, and with produce new set of descriptions closer to the population of users' needs.

Three fitness proportionate selection variations are used, roulette wheel sampling, roulette wheel with elitism and stochastic universal sampling.

The results have indicated the superiority of the third over the first two.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

al-Khafaji, Tiful Husayn Umran& Shahid, Ali Hasan. 2022. Adaptive indexing of documents using genetic algorithms and relevance feedback. Journal of Babylon University : Journal of Applied and Pure Sciences،Vol. 30, no. 3, pp.1-9.
https://search.emarefa.net/detail/BIM-1593846

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

al-Khafaji, Tiful Husayn Umran& Shahid, Ali Hasan. Adaptive indexing of documents using genetic algorithms and relevance feedback. Journal of Babylon University : Journal of Applied and Pure Sciences Vol. 30, no. 3 (2022), pp.1-9.
https://search.emarefa.net/detail/BIM-1593846

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

al-Khafaji, Tiful Husayn Umran& Shahid, Ali Hasan. Adaptive indexing of documents using genetic algorithms and relevance feedback. Journal of Babylon University : Journal of Applied and Pure Sciences. 2022. Vol. 30, no. 3, pp.1-9.
https://search.emarefa.net/detail/BIM-1593846

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes bibliographical references: p. 9

رقم السجل

BIM-1593846