Derin evrişimsel sinir ağlarında kısıtlı ağırlık başlatımı için sezgisel optimizasyon tabanlı yeni ağ mimarilerinin sınıflandırma başarımlarının incelenmesi
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Bu tez kapsamında, derin öğrenme modellerinin eğitim aşamasında parametrelerin rastgele başlatılmasından kaynaklanan performans kayıpları ele alınmıştır. Bu olumsuz etkileri azaltmaya yönelik yeni derin öğrenme yaklaşımları geliştirilmiştir. Çalışmanın temel hedefi, derin öğrenme ağlarında sıkça karşılaşılan yavaş yakınsama, yerel minimuma sıkışma ve dengesiz başlatılan ağırlıklar gibi sorunların en aza indirilmesidir. Bu doğrultuda, “kısıtlı ağırlık üretici” adı verilen yeni bir katman geliştirilmiş, bu katman CNN mimarisinde özellik çıkarım katmanı ile tam bağlantılı katman arasında konumlandırılarak tam bağlantılı katmanın daha uygun bir başlangıç noktasından eğitime başlamasını sağlamıştır. Çalışmanın ilk aşamasında D-CNN, C-CNN, S-CNN, RS-CNN ve M-CNN olmak üzere beş farklı kısıtlı CNN modeli önerilmiş; bu modeller MNIST, Fashion-MNIST ve CIFAR-10 veri kümeleri eğitilip test edilmiştir. MNIST veri kümesinde %99,16 doğruluk ile C-CNN, MNIST Fashion veri kümesinde %92,11 doğruluk ile D-CNN, CIFAR-10 veri kümesinde %71,69 doğruluk ile D-CNN en yüksek doğruluk elde etmiştir. Bu sonuçlara göre fark vektörü kullanan D-CNN ve C-CNN modellerinin diğer yaklaşımlara kıyasla daha yüksek doğruluk elde ettiği görülmüştür. Bu modellerdeki vektör seçim süreci SCO algoritması ile optimize edilip oluşturulan yeni karma modele OptiConNet adı verilmiştir. Literatürdeki benzer çalışmalardan farklı olarak, OptiConNet modelinde SCO algoritması ise doğrudan CNN parametrelerini optimize etmek yerine kısıtlı ağırlık üreticinin vektör seçimi optimize edilmiştir. OptiConNet modeli Fashion-MNIST ve Brain Tumor MRI veri kümeleri üzerinde test edilmiş ve özellikle Brain Tumor MRI veri kümesi üzerinde %96,56 doğruluk değerine ulaşılması modelin gerçek hayat problemlerine uygulanabilirliğini göstermiştir. OptiConNet modelinin tek aday tabanlı yapısının yerine, sürü temelli bir optimizasyon yaklaşımının benimseyen ABC algoritması modele entegre edilerek HyBee-CNN adı verilen yeni bir karma model geşliştirilmiştir. HyBee-CNN modeli Fashion-MNIST veri kümesinde test edilmiş ve %92,75 doğruluk elde edilmiştir. Sonuç olarak, önerilen modellerin literatürdeki çalışmalarla karşılaştırıldığında üstün başarım göstermesi, kısıtlı ağırlık üretici yaklaşımı ile sezgisel optimizasyon algoritmalarının bir arada kullanıldığı karma mimarinin özgünlüğünü ortaya koymaktadır. Bu yönüyle çalışma, derin öğrenme modellerinin eğitimine alternatif ve etkili bir başlangıç stratejisi sunarak literatüre katkı sağlamıştır.
In this thesis, the performance degradation caused by random parameter initialization during the training phase of deep learning models is thoroughly investigated. The primary objective of the study is to minimize common challenges encountered in deep neural networks, such as slow convergence, entrapment in local minima, and instability arising from poorly initialized weights.To address these issues, a novel layer referred to as the “constrained weight generator” is introduced. This layer is positioned between the feature extraction layer and the fully connected layer within a CNN architecture, enabling the fully connected layer to commence training from a more suitable and stable initialization point. In the initial phase of the study, five distinct constrained CNN models namely D-CNN, C-CNN, S-CNN, RS-CNN, and M-CNN are proposed and evaluated on the MNIST, Fashion-MNIST, and CIFAR-10 datasets. The results demonstrate that C-CNN achieves the highest accuracy of 99.16% on the MNIST dataset, while D-CNN attains 92.11% accuracy on Fashion-MNIST and 71.69% accuracy on CIFAR-10. These findings indicate that the D-CNN and C-CNN models, which utilize difference vectors, outperform the other approaches in terms of classification accuracy. The vector selection process of these models is optimized using the SCO algorithm, leading to the development of a new hybrid model named OptiConNet. Unlike existing studies in the literature, where optimization algorithms are typically employed to directly tune CNN parameters, the SCO algorithm in OptiConNet is utilized to optimize the vector selection of the constrained weight generator. OptiConNet achieves 96.56% accuracy on the Brain Tumor MRI dataset, demonstrating real-world applicability. Furthermore, to overcome the limitations of the single candidate based structure of OptiConNet, a swarm-based optimization strategy is adopted by integrating the Artificial Bee Colony (ABC) algorithm into the model. This integration results in a new hybrid architecture termed HyBee-CNN. The HyBee-CNN achieves 92.75% accuracy on Fashion-MNIST. In conclusion, the superior performance of the proposed models compared to existing approaches in the literature highlights the originality and effectiveness of the hybrid architecture that combines the constrained weight generator with heuristic optimization algorithms. In this respect, the study contributes to the literature by offering an alternative and effective initialization strategy for training deep learning models.












