Effective web page crawler

Other Title(s)

مجمع (غواص)‎ صفحلت الويب الكفوء

Joint Authors

Salih, Hilal Hadi
Ali, Isra Tahsin

Source

Engineering and Technology Journal

Issue

Vol. 29, Issue 3 (31 Dec. 2011), pp.513-530, 18 p.

Publisher

University of Technology

Publication Date

2011-12-31

Country of Publication

Iraq

No. of Pages

18

Main Subjects

Information Technology and Computer Science

Topics

Abstract AR

بسبب تزايد حجم شبكة المعلومات من بضعة آلاف صفحة منذ 1993 إلى ما يتجاوز 8 بلايين صفحة في وقتنا الحالي، أصبحت محركات بحث الإنترنت ذات الأهمية المتزايدة تستخدم كوسائل أساسية في تحديد أماكن المعلومات المطلوبة.

أن هذا البحث يهدف إلى بناء محرك بحث يعمل على احتواء العدد الحقيقي لصفحات الإنترنت أثناء عملية ال (Crawling) و الفهرسة.

لغرض (crawl) الصفحات الأكثر أهيمه تم بناء منظومة (crawling) كفؤة التي تستخدم ثلاث تقنيات مقترحة أساسية : الأولى هي تقنية ال (Best-First) لأختيار الصفحة الأكثر أهمية أولا، الثانية هي توزيع الصفحات المختاره إلى مجموعة من مكائن ال (crawling) و التي بدورها تعتمد على UbiCrawler، و الثالثة تقنية اكتشاف الصفحات المتكررة باستخدام الخوارزمية المقترحة (بصمة الأصبع النصية).

Abstract EN

The World Wide Web (WWW) has grown from a few thousand pages in 1993 to more than eight billion pages at present.

Due to this explosion in size, web search engines are becoming increasingly important as the primary means of locating relevant information.

This research aims to build a crawler that crawls the most important web pages ; a crawling system has been built which consists of three main techniques.

The first is Best-First Technique which is used to select the most important page.

The second is Distributed Crawling Technique which based on UbiCrawler.

It is used to distribute the URLs of the selected web pages to several machines.

And the third is Duplicated Pages Detecting Technique by using a proposed document fingerprint algorithm.

American Psychological Association (APA)

Salih, Hilal Hadi& Ali, Isra Tahsin. 2011. Effective web page crawler. Engineering and Technology Journal،Vol. 29, no. 3, pp.513-530.
https://search.emarefa.net/detail/BIM-289986

Modern Language Association (MLA)

Salih, Hilal Hadi& Ali, Isra Tahsin. Effective web page crawler. Engineering and Technology Journal Vol. 29, no. 3 (2011), pp.513-530.
https://search.emarefa.net/detail/BIM-289986

American Medical Association (AMA)

Salih, Hilal Hadi& Ali, Isra Tahsin. Effective web page crawler. Engineering and Technology Journal. 2011. Vol. 29, no. 3, pp.513-530.
https://search.emarefa.net/detail/BIM-289986

Data Type

Journal Articles

Language

English

Notes

Includes appendices : p. 526-530

Record ID

BIM-289986