Büyük ölçekli akan veri işleyen dağıtık sistemleri inşa etmek ve operasyonunu sağlamak oldukça karmaşık ve maliyetli bir süreçtir. Sistemlerin veri akışının değişen hızlarına adapte olabilmesi ve gerektiğinde ölçeklenebilmesi gerekmektedir. Bu nedenle, akan veriyi işleyen dağıtık sistemlere entegre edilecek etkin bir otomatik ölçekleme sistemi kullanılması çoğu zaman kaçınılmazdır. Son yıllarda, hızla artan akan veri kaynaklarını işleyebilen sistemlere olan ilgi oldukça artmıştır ve literatürde bu alanda yapılan çok sayıda çalışma bulunmaktadır. Ancak bu çalışmaların çoğu sistemin değişen iş yüklerine adapte olabilmesi ve ölçeklenebilirlik konusu yerine sistemin olağan şartlarda nasıl çalışacağı üzerine yoğunlaşmıştır. Literatürde az sayıda olan ölçeklenebilirlik ile ilgili çalışmalarda ise genellikle ölçeklenebilirlik bir kaynak kümesi ile gerçeklenmektedir. Ayrıca, Apache Flink üzerine yapılan çalışma sayısı da oldukça azdır. Bu çalışmada, literatürdeki bu eksikliklerden yola çıkılarak, Apache Flink üzerinde çalışan, değişen çalışma yüklerine adapte olabilen bir sistem tasarımı önerilmiştir. Apache Flink, hem sistem geliştirme hem de ölçekleme metriklerini hesaplama amacıyla kullanılmıştır. Ölçekleme, Kuyruk Teorisi kullanılarak hesaplanan, sistemde meydana gelmesi beklenen gecikme ve kritik sistem metrikleri değerlendirilerek gerçekleştirilmiştir. Büyük veri işleyen sistemlere entegre çalışabilecek bu model ile sistem performanslarının geliştirilmesi ve kalite kayıplarının azaltılması hedeflenmiştir. Son olarak, sistemin hangi durumlarda ölçeklendiği ve ölçeklemeden sonraki durumu benzetim çalışmaları ile gerçeklenerek önerilen sistemin etkinliği gösterilmiştir.
Establishing large-scale distributed stream processing systems and ensuring their operations is a very complex and costly process. These systems should be capable of adapting the varying rates of data stream and they must be scaled, if required. It is usually inevitable to use an effective automatic scaling system which can be integrated into such systems. In recent literature, there are numerous studies on this issue. Many of these studies have focused on how these systems will operate under normal conditions. There are limited studies on scalability where scaling is usually implemented with a set of resources. In this study, based on these shortcomings, a system design which can adapt to changing working loads and work on Apache Flink, is proposed. Apache Flink is used for both system development and calculating the scaling metrics. Scaling is performed by evaluating the expected latency calculated with Queuing Theory and some critical metrics. It is aimed to improve system performances and reduce quality losses with this model, which can be integrated into big data processing systems. Pre-scaling and post-scaling cases are also demonstrated by simulations to show the effectiveness of the proposed system.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Research Articles |
Authors | |
Publication Date | August 22, 2020 |
Submission Date | July 13, 2020 |
Acceptance Date | August 11, 2020 |
Published in Issue | Year 2020 Volume: 1 Issue: 1 |