Effective web page crawler
Other Title(s)
مجمع (غواص) صفحلت الويب الكفوء
Joint Authors
Salih, Hilal Hadi
Ali, Isra Tahsin
Source
Engineering and Technology Journal
Issue
Vol. 29, Issue 3 (31 Dec. 2011), pp.513-530, 18 p.
Publisher
Publication Date
2011-12-31
Country of Publication
Iraq
No. of Pages
18
Main Subjects
Information Technology and Computer Science
Topics
Abstract AR
بسبب تزايد حجم شبكة المعلومات من بضعة آلاف صفحة منذ 1993 إلى ما يتجاوز 8 بلايين صفحة في وقتنا الحالي، أصبحت محركات بحث الإنترنت ذات الأهمية المتزايدة تستخدم كوسائل أساسية في تحديد أماكن المعلومات المطلوبة.
أن هذا البحث يهدف إلى بناء محرك بحث يعمل على احتواء العدد الحقيقي لصفحات الإنترنت أثناء عملية ال (Crawling) و الفهرسة.
لغرض (crawl) الصفحات الأكثر أهيمه تم بناء منظومة (crawling) كفؤة التي تستخدم ثلاث تقنيات مقترحة أساسية : الأولى هي تقنية ال (Best-First) لأختيار الصفحة الأكثر أهمية أولا، الثانية هي توزيع الصفحات المختاره إلى مجموعة من مكائن ال (crawling) و التي بدورها تعتمد على UbiCrawler، و الثالثة تقنية اكتشاف الصفحات المتكررة باستخدام الخوارزمية المقترحة (بصمة الأصبع النصية).
Abstract EN
The World Wide Web (WWW) has grown from a few thousand pages in 1993 to more than eight billion pages at present.
Due to this explosion in size, web search engines are becoming increasingly important as the primary means of locating relevant information.
This research aims to build a crawler that crawls the most important web pages ; a crawling system has been built which consists of three main techniques.
The first is Best-First Technique which is used to select the most important page.
The second is Distributed Crawling Technique which based on UbiCrawler.
It is used to distribute the URLs of the selected web pages to several machines.
And the third is Duplicated Pages Detecting Technique by using a proposed document fingerprint algorithm.
American Psychological Association (APA)
Salih, Hilal Hadi& Ali, Isra Tahsin. 2011. Effective web page crawler. Engineering and Technology Journal،Vol. 29, no. 3, pp.513-530.
https://search.emarefa.net/detail/BIM-289986
Modern Language Association (MLA)
Salih, Hilal Hadi& Ali, Isra Tahsin. Effective web page crawler. Engineering and Technology Journal Vol. 29, no. 3 (2011), pp.513-530.
https://search.emarefa.net/detail/BIM-289986
American Medical Association (AMA)
Salih, Hilal Hadi& Ali, Isra Tahsin. Effective web page crawler. Engineering and Technology Journal. 2011. Vol. 29, no. 3, pp.513-530.
https://search.emarefa.net/detail/BIM-289986
Data Type
Journal Articles
Language
English
Notes
Includes appendices : p. 526-530
Record ID
BIM-289986