Detecting Web Spam Based on Novel Features from Web Page Source Code
المؤلفون المشاركون
Su, Yu
Liu, Jiayong
Lv, Shun
Huang, Cheng
المصدر
Security and Communication Networks
العدد
المجلد 2020، العدد 2020 (31 ديسمبر/كانون الأول 2020)، ص ص. 1-14، 14ص.
الناشر
Hindawi Publishing Corporation
تاريخ النشر
2020-12-17
دولة النشر
مصر
عدد الصفحات
14
التخصصات الرئيسية
تكنولوجيا المعلومات وعلم الحاسوب
الملخص EN
Search engine is critical in people’s daily life because it determines the information quality people obtain through searching.
Fierce competition for the ranking in search engines is not conducive to both users and search engines.
Existing research mainly studies the content and links of websites.
However, none of these techniques focused on semantic analysis of link and anchor text for detection.
In this paper, we propose a web spam detection method by extracting novel feature sets from the homepage source code and choosing the random forest (RF) as the classifier.
The novel feature sets are extracted from the homepage’s links, hypertext markup language (HTML) structure, and semantic similarity of content.
We conduct experiments on the WEBSPAM-UK2007 and UK-2011 dataset using a five-fold cross-validation method.
Besides, we design three sets of experiments to evaluate the performance of the proposed method.
The proposed method with novel feature sets is compared with different indicators and has better performance than other methods with a precision of 0.929 and a recall of 0.930.
Experiment results show that the proposed model could effectively detect web spam.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
Liu, Jiayong& Su, Yu& Lv, Shun& Huang, Cheng. 2020. Detecting Web Spam Based on Novel Features from Web Page Source Code. Security and Communication Networks،Vol. 2020, no. 2020, pp.1-14.
https://search.emarefa.net/detail/BIM-1208500
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
Liu, Jiayong…[et al.]. Detecting Web Spam Based on Novel Features from Web Page Source Code. Security and Communication Networks No. 2020 (2020), pp.1-14.
https://search.emarefa.net/detail/BIM-1208500
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
Liu, Jiayong& Su, Yu& Lv, Shun& Huang, Cheng. Detecting Web Spam Based on Novel Features from Web Page Source Code. Security and Communication Networks. 2020. Vol. 2020, no. 2020, pp.1-14.
https://search.emarefa.net/detail/BIM-1208500
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
Includes bibliographical references
رقم السجل
BIM-1208500
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر