العناوين الأخرى

مجمع (غواص)‎ صفحلت الويب الكفوء

المؤلفون المشاركون

Salih, Hilal Hadi
Ali, Isra Tahsin

المصدر

Engineering and Technology Journal

العدد

المجلد 29، العدد 3 (31 ديسمبر/كانون الأول 2011)، ص ص. 513-530، 18ص.

الناشر

الجامعة التكنولوجية

تاريخ النشر

2011-12-31

دولة النشر

العراق

عدد الصفحات

18

التخصصات الرئيسية

تكنولوجيا المعلومات وعلم الحاسوب

الموضوعات

الملخص AR

بسبب تزايد حجم شبكة المعلومات من بضعة آلاف صفحة منذ 1993 إلى ما يتجاوز 8 بلايين صفحة في وقتنا الحالي، أصبحت محركات بحث الإنترنت ذات الأهمية المتزايدة تستخدم كوسائل أساسية في تحديد أماكن المعلومات المطلوبة.

أن هذا البحث يهدف إلى بناء محرك بحث يعمل على احتواء العدد الحقيقي لصفحات الإنترنت أثناء عملية ال (Crawling) و الفهرسة.

لغرض (crawl) الصفحات الأكثر أهيمه تم بناء منظومة (crawling) كفؤة التي تستخدم ثلاث تقنيات مقترحة أساسية : الأولى هي تقنية ال (Best-First) لأختيار الصفحة الأكثر أهمية أولا، الثانية هي توزيع الصفحات المختاره إلى مجموعة من مكائن ال (crawling) و التي بدورها تعتمد على UbiCrawler، و الثالثة تقنية اكتشاف الصفحات المتكررة باستخدام الخوارزمية المقترحة (بصمة الأصبع النصية).

الملخص EN

The World Wide Web (WWW) has grown from a few thousand pages in 1993 to more than eight billion pages at present.

Due to this explosion in size, web search engines are becoming increasingly important as the primary means of locating relevant information.

This research aims to build a crawler that crawls the most important web pages ; a crawling system has been built which consists of three main techniques.

The first is Best-First Technique which is used to select the most important page.

The second is Distributed Crawling Technique which based on UbiCrawler.

It is used to distribute the URLs of the selected web pages to several machines.

And the third is Duplicated Pages Detecting Technique by using a proposed document fingerprint algorithm.

نمط استشهاد جمعية علماء النفس الأمريكية (APA)

Salih, Hilal Hadi& Ali, Isra Tahsin. 2011. Effective web page crawler. Engineering and Technology Journal،Vol. 29, no. 3, pp.513-530.
https://search.emarefa.net/detail/BIM-289986

نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)

Salih, Hilal Hadi& Ali, Isra Tahsin. Effective web page crawler. Engineering and Technology Journal Vol. 29, no. 3 (2011), pp.513-530.
https://search.emarefa.net/detail/BIM-289986

نمط استشهاد الجمعية الطبية الأمريكية (AMA)

Salih, Hilal Hadi& Ali, Isra Tahsin. Effective web page crawler. Engineering and Technology Journal. 2011. Vol. 29, no. 3, pp.513-530.
https://search.emarefa.net/detail/BIM-289986

نوع البيانات

مقالات

لغة النص

الإنجليزية

الملاحظات

Includes appendices : p. 526-530

رقم السجل

BIM-289986