A survey of fault tolerance and reliability techniques in hypercubes

Author

al-Tawil, Khalid M.

Source

The Arabian Journal for Science and Engineering. Section B, Engineering

Issue

Vol. 25, Issue 2B (31 Oct. 2000), pp.123-148, 26 p.

Publisher

King Fahd University of Petroleum and Minerals

Publication Date

2000-10-31

Country of Publication

Saudi Arabia

No. of Pages

26

Main Subjects

Engineering & Technology Sciences (Multidisciplinary)

Topics

Abstract AR

تعتبر الحواسيب العالية الأداء و التي تعمل على التوازي هي المتقبل المنشود لتوفير المصادر المطلوبة للعمليات الحاسوببة الهائلة, و مع ذلك فإن فشل معالج واحد منها في أنظمة الشبكات فوق التكعيبية قد يؤدي إلى فشل النظام برمته و تعطيل هذه القوة الحاسوبية الهائلة.

و مع زيادة عدد الأجزاء المستخدمة في هذا النوع من الأنظمة فإن احتمالية تعطل أي جزء منها تزداد مما يؤدي إلى زيادة تعطل النظام.

إن أنظمة تحمل الأعطال و زيادة الاعتمادية في الأنظمة المتوازية و المتوزعة تعتبر عاملا رئيسا للحصول على أنظمة شدة و عالية الأداء تعمل بطريقة صحيحة.

و تتم عملية تحمل الأخطاء عن طريق توفير معالجات أو خطوط اتصال إضافية يمكن استخدامها عند حدوث خطا معينا و يقدم هذا البحث عرضا لأهم البحوث التي ثمت في مجال تقييم الاعتمادية و تحمل الأخطاء ني أنس ا لحواسيب فوق التكعيبية.

Abstract EN

Massively parallel computers, using thousands of processors, will be the future trend for producing tremendous computational power.

However, in the current technology, if one processor fails, the entire system may fail.

A major drawback of hypercubes is that a single processor failure may destroy the whole network.

The existence of a large number of components in such systems makes them subject to failures.

As the probability of any one or more processors failing in such a complex system is large, building some fault-tolerance feature into them becomes extremely important.

Fault tolerance in highly parallel computers is important for achieving reliable high-performance computing.

The problem of tolerating faulty processors or links in hypercubes has been studied by many researchers, either by using spares or by reconfiguration.

This manuscript is mainly a chronological survey of fault tolerant issues and reliability evaluation of hypercubes.

American Psychological Association (APA)

al-Tawil, Khalid M.. 2000. A survey of fault tolerance and reliability techniques in hypercubes. The Arabian Journal for Science and Engineering. Section B, Engineering،Vol. 25, no. 2B, pp.123-148.
https://search.emarefa.net/detail/BIM-389606

Modern Language Association (MLA)

al-Tawil, Khalid M.. A survey of fault tolerance and reliability techniques in hypercubes. The Arabian Journal for Science and Engineering. Section B, Engineering Vol. 25, no. 2B (Oct. 2000), pp.123-148.
https://search.emarefa.net/detail/BIM-389606

American Medical Association (AMA)

al-Tawil, Khalid M.. A survey of fault tolerance and reliability techniques in hypercubes. The Arabian Journal for Science and Engineering. Section B, Engineering. 2000. Vol. 25, no. 2B, pp.123-148.
https://search.emarefa.net/detail/BIM-389606

Data Type

Journal Articles

Language

English

Notes

Includes bibliographical references : p. 143-148

Record ID

BIM-389606