Effective web page crawler
العناوين الأخرى
مجمع (غواص) صفحلت الويب الكفوء
المؤلفون المشاركون
Salih, Hilal Hadi
Ali, Isra Tahsin
المصدر
Engineering and Technology Journal
العدد
المجلد 29، العدد 3 (31 ديسمبر/كانون الأول 2011)، ص ص. 513-530، 18ص.
الناشر
تاريخ النشر
2011-12-31
دولة النشر
العراق
عدد الصفحات
18
التخصصات الرئيسية
تكنولوجيا المعلومات وعلم الحاسوب
الموضوعات
الملخص AR
بسبب تزايد حجم شبكة المعلومات من بضعة آلاف صفحة منذ 1993 إلى ما يتجاوز 8 بلايين صفحة في وقتنا الحالي، أصبحت محركات بحث الإنترنت ذات الأهمية المتزايدة تستخدم كوسائل أساسية في تحديد أماكن المعلومات المطلوبة.
أن هذا البحث يهدف إلى بناء محرك بحث يعمل على احتواء العدد الحقيقي لصفحات الإنترنت أثناء عملية ال (Crawling) و الفهرسة.
لغرض (crawl) الصفحات الأكثر أهيمه تم بناء منظومة (crawling) كفؤة التي تستخدم ثلاث تقنيات مقترحة أساسية : الأولى هي تقنية ال (Best-First) لأختيار الصفحة الأكثر أهمية أولا، الثانية هي توزيع الصفحات المختاره إلى مجموعة من مكائن ال (crawling) و التي بدورها تعتمد على UbiCrawler، و الثالثة تقنية اكتشاف الصفحات المتكررة باستخدام الخوارزمية المقترحة (بصمة الأصبع النصية).
الملخص EN
The World Wide Web (WWW) has grown from a few thousand pages in 1993 to more than eight billion pages at present.
Due to this explosion in size, web search engines are becoming increasingly important as the primary means of locating relevant information.
This research aims to build a crawler that crawls the most important web pages ; a crawling system has been built which consists of three main techniques.
The first is Best-First Technique which is used to select the most important page.
The second is Distributed Crawling Technique which based on UbiCrawler.
It is used to distribute the URLs of the selected web pages to several machines.
And the third is Duplicated Pages Detecting Technique by using a proposed document fingerprint algorithm.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
Salih, Hilal Hadi& Ali, Isra Tahsin. 2011. Effective web page crawler. Engineering and Technology Journal،Vol. 29, no. 3, pp.513-530.
https://search.emarefa.net/detail/BIM-289986
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
Salih, Hilal Hadi& Ali, Isra Tahsin. Effective web page crawler. Engineering and Technology Journal Vol. 29, no. 3 (2011), pp.513-530.
https://search.emarefa.net/detail/BIM-289986
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
Salih, Hilal Hadi& Ali, Isra Tahsin. Effective web page crawler. Engineering and Technology Journal. 2011. Vol. 29, no. 3, pp.513-530.
https://search.emarefa.net/detail/BIM-289986
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
Includes appendices : p. 526-530
رقم السجل
BIM-289986
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر