Software engineering-based design for a bayesian spam filter

Other Title(s)

تصميم مرشح Bayesian لرسائل الدعاية يعتمد هندسة البرمجيات

Author

al-Mukhtar, Mumtaz Muhammad Ali

Source

al-Khwarizmi Engineering Journal

Issue

Vol. 6, Issue 2 (30 Jun. 2010)10 p.

Publisher

University of Baghdad al-Khwarizmi College of Engineering

Publication Date

2010-06-30

Country of Publication

Iraq

No. of Pages

10

Main Subjects

Mathematics

Topics

Abstract AR

الانتشار السريع و توفر السهل لخدمة البريد الإلكتروني المجاني جعلا منه وسطا مختارا لإرسال بريد الإعلانات الغير مرغوبة و بريد الدعاية بشكل عام.

هذه الرسائل و المعروفة التافه أو (spam) مشكلة متزايدة لكل من المستعملين و مزودي خدمة الإنترنت (ISP).

يقدم البحث حلا لإحدى جوانب مشكلة رسائل الدعاية (spam) من خلال تطوير مرشح ملائم لبريد المستفيد (e-mail client).

المرشح المقترح يتكون من ثلاثة أجزاء تعمل معا : القائمة البيضاء (Whitelist), القائمة السوداء (Blacklist), و مرشح Bayesian يسمح مرشح القائمة البيضاء باستقبال الرسائل البريدية من عناوين معروفة للمستفيد.

بينما يمنع مرشح القائمة السوداء استقبال الرسائل البريدية من عناوين عرفت بإرسالها لرسائل الدعاية.

يعتمد مرشح Bayesian في تقديراته على محتوى الرسائل و يرشح هذه الرسائل نسبة المعيار (threshold) محدد سلفا. تم بناء قواعد البيانات المطلوبة بشكل جداول تخزن في خادم SQL.

المرشح المقترح للمستفيد يمكن أن يصل إلى قواعد البيانات هذه بشكل شفاف لكي يتمكن من تنفيذ الترشيح المطلوب.

النظام المقترح يتعامل مع رسائل الدعاية التي تكتب في كلتا اللغتين العربية و الانكليزية و الذي يعتبر أمرا هاما للمستفيدين في منطقتنا. تم اعتماد مبادئ هندسة البرمجيات خلال تصميم النظام أقل عرضة للأخطاء و إدامته أسهل.

خطوات التصميم نفذت باستخدام نموذج Waterfall و برمجيات ASCENT.

تم تطوير واجهة للمستفيد سهلة لاستخدام للحصول على مزايا المرشح المقترح.

تم استخدام بيئة Visual Basic 6 لبناء النظام كما استخدم SQL Server لبناء و تنفيذ قواعد البيانات المطلوبة. تم استخدام عدد من مقاييس الأداء و استحصال النتائج التجريبية مع مجموعة من البريد المجموع لتقييم الأداء للمرشح المقترح و إثبات كفائته.

Abstract EN

The rapid spread and the easy availability of a free e-mail service have made it the medium of choice for the sending of unsolicited advertising and bulk e-mail in general.

These messages, known as junk e-mail or spam mail, are an increasing problem to both Internet users and Internet service providers (ISPs).

The research resolves one aspect of the spam problem by developing an appropriate filter for the e-mail client.

The proposed filter is a combination of three forms of filters : Whitelist, Blacklist, and a Bayesian filter.

Whitelist-based filter only accepts e-mails from known addresses.

Blacklist filter blocks e-mails from addresses known to send out spam.

Bayesian content-based filter makes estimations of spam probability based on the text and filters messages based on a pre-selected threshold.

The Bayesian filter is selected to be the main filter.

The Bayesian filter is manually trained on a set of gathered emails some of them are spam and the others are legitimate based on the contents of an e-mail.

Thereafter the classification phase has been implemented for new entered e-mails.

All the required databases are constructed in form of tables stored in the Structured Query Language (SQL) server.

The filter at the client side can transparently access the database in order to carry on the intended filtering.

The proposed system (e-mail client interface and the filters) can manage messages written in both Arabic and English languages which is crucial for the users in our region.

Software engineering principals are implemented throughout the design process to make the system less vulnerable to faults and easily maintained.

The design steps have followed the Waterfall-model using the ASCENT software.

A user-friendly interface has been developed to access the features of the spam filter at the client side.

Visual Basic version 6 has been used to develop the system.

As well, the SQL server has been implemented to build and process the database.

A number of performance measurements have been carried out with asset of gathered e-mails.

The results are used to evaluate the performance of the filter and to prove its efficiency.

American Psychological Association (APA)

al-Mukhtar, Mumtaz Muhammad Ali. 2010. Software engineering-based design for a bayesian spam filter. al-Khwarizmi Engineering Journal،Vol. 6, no. 2.
https://search.emarefa.net/detail/BIM-324973

Modern Language Association (MLA)

al-Mukhtar, Mumtaz Muhammad Ali. Software engineering-based design for a bayesian spam filter. al-Khwarizmi Engineering Journal Vol. 6, no. 2 (2010).
https://search.emarefa.net/detail/BIM-324973

American Medical Association (AMA)

al-Mukhtar, Mumtaz Muhammad Ali. Software engineering-based design for a bayesian spam filter. al-Khwarizmi Engineering Journal. 2010. Vol. 6, no. 2.
https://search.emarefa.net/detail/BIM-324973

Data Type

Journal Articles

Language

English

Notes

Includes bibliographical references

Record ID

BIM-324973