Partition Selection for Large-Scale Data Management Using KNN Join Processing
المؤلفون المشاركون
Hu, Yue
Peng, Ge
Wang, Zehua
Cui, Yanrong
Qin, Hang
المصدر
Mathematical Problems in Engineering
العدد
المجلد 2020، العدد 2020 (31 ديسمبر/كانون الأول 2020)، ص ص. 1-14، 14ص.
الناشر
Hindawi Publishing Corporation
تاريخ النشر
2020-09-08
دولة النشر
مصر
عدد الصفحات
14
التخصصات الرئيسية
الملخص EN
For the data processing with increasing avalanche under large datasets, the k nearest neighbors (KNN) algorithm is a particularly expensive operation for both classification and regression predictive problems.
To predict the values of new data points, it can calculate the feature similarity between each object in the test dataset and each object in the training dataset.
However, due to expensive computational cost, the single computer is out of work to deal with large-scale dataset.
In this paper, we propose an adaptive vKNN algorithm, which adopts on the Voronoi diagram under the MapReduce parallel framework and makes full use of the advantages of parallel computing in processing large-scale data.
In the process of partition selection, we design a new predictive strategy for sample point to find the optimal relevant partition.
Then, we can effectively collect irrelevant data, reduce KNN join computation, and improve the operation efficiency.
Finally, we use a large number of 54-dimensional datasets to conduct a large number of experiments on the cluster.
The experimental results show that our proposed method is effective and scalable with ensuring accuracy.
نمط استشهاد جمعية علماء النفس الأمريكية (APA)
Hu, Yue& Peng, Ge& Wang, Zehua& Cui, Yanrong& Qin, Hang. 2020. Partition Selection for Large-Scale Data Management Using KNN Join Processing. Mathematical Problems in Engineering،Vol. 2020, no. 2020, pp.1-14.
https://search.emarefa.net/detail/BIM-1200758
نمط استشهاد الجمعية الأمريكية للغات الحديثة (MLA)
Hu, Yue…[et al.]. Partition Selection for Large-Scale Data Management Using KNN Join Processing. Mathematical Problems in Engineering No. 2020 (2020), pp.1-14.
https://search.emarefa.net/detail/BIM-1200758
نمط استشهاد الجمعية الطبية الأمريكية (AMA)
Hu, Yue& Peng, Ge& Wang, Zehua& Cui, Yanrong& Qin, Hang. Partition Selection for Large-Scale Data Management Using KNN Join Processing. Mathematical Problems in Engineering. 2020. Vol. 2020, no. 2020, pp.1-14.
https://search.emarefa.net/detail/BIM-1200758
نوع البيانات
مقالات
لغة النص
الإنجليزية
الملاحظات
Includes bibliographical references
رقم السجل
BIM-1200758
قاعدة معامل التأثير والاستشهادات المرجعية العربي "ارسيف Arcif"
أضخم قاعدة بيانات عربية للاستشهادات المرجعية للمجلات العلمية المحكمة الصادرة في العالم العربي
تقوم هذه الخدمة بالتحقق من التشابه أو الانتحال في الأبحاث والمقالات العلمية والأطروحات الجامعية والكتب والأبحاث باللغة العربية، وتحديد درجة التشابه أو أصالة الأعمال البحثية وحماية ملكيتها الفكرية. تعرف اكثر