Derin öğrenme ile İHA görüntülerinden nesne tespitinin yapılması
Citation
Albayrak, E. (2021). Derin öğrenme ile İHA görüntülerinden nesne tespitinin yapılması. [Yayımlanmamış yüksek lisans tezi]. Bilecik Şeyh Edebali Üniversitesi.Abstract
Günümüzde insansız hava araçlarından alınan görüntüler askeri ve ticari alanlar başta olmak üzere tarım, güvenlik, keşif alanlarında ve daha birçok alanda yaygın olarak kullanılmaktadır. Son yıllarda, yapay zekâ teknolojilerinin gelişimi ile birlikte görüntülerdeki nesne tespiti, doğru ve hızlı bir şekilde yapılabilmektedir. İnsansız hava araçlarında en çok tespit edilen nesne türleri, hareket eden nesneler ve araç görüntüleridir. Araç tespiti, askeri operasyonlarda tespit edilen hedefin takip edilip koordinatlarının öğrenilmesinde, üstü açık bir otoparktaki araç yoğunluğunun belirlenip otoparka gelen araçların boş yerlere yönlendirilmesinde, bir kavşaktaki trafik yoğunluğunun hesaplanmasında yaygın olarak kullanılmaktadır. Son yıllarda, derin öğrenme mimarilerinin gelişimi ile birlikte bir derin öğrenme mimarisi olan evrişimsel sinir ağları kullanılarak fotoğraf ve video görüntüleri üzerinden nesne tespiti, hızlı ve doğru bir şekilde yapılabilmektedir. Google tarafından geliştirilen ve bir derin öğrenme kütüphanesi olan Tensorflow kütüphanesindeki Faster R-CNN, Mask R-CNN gibi popüler modeller ile nesne tespitinde başarılı sonuçların alınabildiği gösterilmiştir. Evrişimsel sinir ağları temelinde oluşturulan nesne tespitine yönelik modeller, belli bir eğitim sürecinden geçtikten sonra test aşamasında önce nesne tahmini yapar ve daha sonra belirlenmiş nesneyi bir çerçeve içine alarak nesneyi tespit eder. Bununla birlikte daha ileri düzeydeki modeller, tespit edilen nesneyi ayrıca renklendirerek görüntünün arka plan dokusundan ayrılmasını sağlar. Mask R-CNN, örnek bölütleme özelliği sayesinde, bir görüntüde bulunan tek bir kategoriye ait birden fazla görüntüyü farklı renkler ile renklendirerek diğer algoritmalardan ayrılmaktadır. Diğer yandan YOLO yapısı ise görüntüye tek bir sinir ağı uygulayarak nesne tespit etmedeki hızı ile ön plana çıkmaktadır. Bu çalışma ile araç tespiti, birer derin öğrenme modeli olan YOLO ve Mask R-CNN modeli ile yapılmış olup bahsi geçen çözümler örnek veriler üzerinde kıyaslama (benchmark) testlerine tabi tutularak en etkili çözümün ortaya konulması amaçlanmıştır. Modellerin eğitiminde görüntüler, insansız hava aracı kullanılarak farklı yükseklik ve lokasyonlardan alınmıştır. Today, images taken from unmanned aerial vehicles are widely used in military, commercial fields, agriculture, security, and many more fields. In recent years, with the development of artificial intelligence technologies, object detection in images can be done accurately and quickly. The most frequently detected object types in unmanned aerial vehicles are moving objects and vehicle images. Vehicle detection is widely used in tracking and learning the coordinates of the target detected in military operations, in determining the density of vehicles in an open car park and directing the vehicles to empty parking places, and in calculating the traffic density at an intersection. It has shown that successful results can be obtained in object detection with popular models, such as Faster R-CNN, Mask R-CNN in Tensorflow library developed by Google. Models created on the basis of convolutional neural networks for object detection, firstly estimate the object in the test phase after training period, and then detect the object by enclosing the specified object in a frame. However, more advanced models let the image to be separated from the background texture by coloring the detected object. Mask R-CNN, thanks to its sample segmentation feature, differs from other algorithms by coloring multiple images with different colors, belonging to a single category in an image. On the other hand, the YOLO structure stands out with its speed in object detection by applying a single neural network to the image. In this study, vehicle detection has been done with YOLO and Mask R-CNN models, which are deep learning models, and it is aimed to reveal the most effective solution by subjecting the mentioned solutions to benchmark tests on sample data. In the training of the models, images were taken from different heights and locations using an unmanned aerial vehicle.