Endüstriyel ortamlarda güvensiz davranışların video üzerinden tespiti için yeni bir derin öğrenme modeli geliştirilmesi
Citation
Önal, Oğuzhan. (2024). Endüstriyel Ortamlarda Güvensiz Davranışların Video Üzerinden Tespiti İçin Yeni bir Derin Öğrenme Modeli Geliştirilmesi. (Yayımlanmamış doktora tezi). Bilecik Şeyh Edebali Üniversitesi, Fen Bilimleri Enstitüsü, Bilecik.Abstract
Üretim sahalarında, işletmelerde, fabrikalarda ve dolayısıyla insanın olduğu her yerde ihmal ve yeterince önemsememe nedeniyle güvenli olmayan davranışlar ortaya çıkabilmektedir. Bu tür alanlarda, güvenli olmayan tehlikeli davranışlar, birçok kaza da dahil olmak üzere ölüm veya yaralanmaların başlıca sebeplerindendir. İşyerlerinde geleneksel iş güvenliği uygulamaları ve düzenli güvenlik denetimleri yapılmasına rağmen, iş sağlığı ve güvenliği protokollerinin ihlal edilmesi sonucu birçok kaza meydana gelmektedir. Bu kazalar işyerlerinde, çalışma ortamının dinamikleri ve zorlukları ile beraber mevcut güvenlik izleme prosedürlerinin yeterince uygulanamadığını göstermektedir. Tehlikeli ortamlarda kazaların ve kayıpların önlenmesine yönelik çözümler, yıllar boyunca olay sayısını azaltmış olsa da insan davranışlarına bağlı olarak tamamen ortadan kaldırılamamaktadır. Ayrıca, bu tür üretim ortamları oldukça karmaşıktır, aydınlatma sorunları vardır ve aşırı dinamiktir. Çalışma ortamlarındaki tehlikeleri kontrol etmek için çeşitli sistemler olmasına rağmen, gerçek zamanlı yaklaşımların çok az olduğu açıktır. Özellikle, birçok bilgisayar tabanlı otomatik çözüm olmasına rağmen, bu sistemlerin eğitim ve tespit süreci düşük doğruluğa sahiptir, çok maliyetlidir ve fazla zaman gerektirir. Diğer taraftan, endüstriyel işyerlerinde, iş sağlığı ve güvenliğinin en önemli unsurlarından birisi olan Kişisel Koruyucu Donanım (KKD) kullanımı büyük önem arz etmektedir.
Bu tez çalışmasında, öncelikle, çoklu sınıflar belirleyerek, YOLO (You Only Look Once) öğrenme algoritması kullanılarak KKD’lerin uygun kullanılıp kullanılmadığı tespit edilmiştir. Bu aşamada, KKD’lere yönelik olarak yedi sınıf belirlenmiş ve bu sınıflara ilişkin özgün veriseti oluşturulmuştur. KKD’lerin tespiti için yürütülen deneysel çalışmalarda, YOLO mimarisi kullanılarak ortalama doğruluk (mean average precision, mAP) değeri %91.18 olarak başarılmıştır. Ayrıca, diğer ölçüm metrikleri Kesinlik (Precision), Duyarlılık (Recall), F1-skoru, kesiştirilmiş bölgeler (Intersection over Union, IoU) ve ortalama kayıp (Loss) için sırasıyla 0.89, 0.91, 0.90, 70.35 ve 1.1147 sonuçları elde edilmiştir. Tez çalışmasının ikinci aşamasında, işyerlerindeki güvensiz hareketlerin gerçek zamanlı sınıflandırılması için derin öğrenme modelleri destekli, hibrit bir bilgisayarla görme yaklaşımı Unsafe-Net (Önal & Dandıl, 2024a) geliştirilmiştir. Unsafe-Net altyapısı için öncelikle bir fabrikadan 39 günlük video görüntüsü toplanarak bir veriseti oluşturulmuştur. Oluşturulan bu veriseti 2024 yılında Data in Brief dergisinde yayınlanarak kullanıma sunulmuştur (Önal & Dandıl, 2024b). Çalışma için özel olarak oluşturulan veriseti kullanılarak, hızlı ve doğru sonuçlar elde etmek için nesne algılama ve video anlamlandırılmasında YOLOv4 ve Evrişimsel Uzun Kısa Süreli Bellek (Convolutional Long Short-Term Memory, ConvLSTM) derin öğrenme mimarileri birleştirilmiştir. Tez çalışmasının bu aşamadaki deneysel çalışmalarında, önerilen Unsafe-Net mimarisi kullanılarak çalışma sahalarında güvensiz davranışların sınıflandırma doğruluğu %95.81 olarak başarılmıştır ve videolardan eylem tanıma için ortalama süre 0.14 saniye olarak hesaplanmıştır. Ayrıca Unsafe-Net mimarisinin altyapısında kullanılan YOLO algoritması sayesinde, ortalama video süresi 1.87 saniyeye düşürülerek gerçek zamanlı tespit hızı da artırılmıştır. Geliştirilen sistem Eskişehir’de faaliyet gösteren bir fabrika ortamında kurulmuş olup, güvensiz davranış gerçekleştiğinde, gerçek zamanlı olarak çalışanların sistem tarafından hem sesli hem de görsel olarak anında uyarılması sağlanmıştır. Ayrıca, sistemin fabrika ortamına kurulması ile çalışanlar belirli bir süre izlenmiş ve güvensiz davranışların tekrarlanma oranının kısa sürede yaklaşık olarak %75 oranında azaldığı tespit edilmiştir. Unsafe behaviour can occur as a result of negligence and lack of due caution in production plants, businesses, factories and other places where people are present. In such areas, unsafe hazardous behaviour is a major cause of death or injury, including many accidents. Despite traditional occupational safety practices and regular safety inspections of workplaces, many accidents occur as a result of violations of occupational health and safety protocols. These accidents show that existing safety control procedures are not adequately implemented in workplaces, and that the dynamics and challenges of the work environment are not adequately addressed. Although solutions to prevent accidents and losses in hazardous environments have reduced the number of incidents over the years, they cannot be completely eliminated due to human behaviour. In addition, such production environments are highly complex, have lighting problems and are extremely dynamic. Although various systems exist to control hazards in work environments, it is clear that there are very few real-time approaches. In particular, although there are many computer-aided automated solutions, the training and detection process of these systems has low accuracy, is very costly and time consuming. On the other hand, the use of personal protective equipment (PPE), which is one of the most important elements of occupational health and safety, is of great importance in industrial workplaces.
In this thesis, the appropriate use of PPEs was first determined by identifying multiple classes using the YOLO (You Only Look Once) learning algorithm. At this stage, seven classes of PPEs were identified and a unique dataset was created for these classes. In the experimental studies carried out to detect PPEs, the mean average precision (mAP) value achieved using the YOLO architecture was 91.18%. Furthermore, for the other metrics, precision, recall, F1 score, intersection over union (IoU) and average loss, the results obtained were 0.89, 0.91, 0.90, 70.35 and 1.1147 respectively. In the second phase of the thesis, Unsafe-Net (Önal & Dandıl, 2024a), a hybrid computer vision approach supported by deep learning models, was developed for real-time classification of unsafe movements in workplaces. For the Unsafe-Net infrastructure, a dataset was created by collecting 39 days of video footage from a factory. This dataset was published in the journal Data in Brief in 2024 and made available for available (Önal & Dandıl, 2024b). Using the database created specifically for the study, YOLOv4 and Convolutional Long Short-Term Memory (ConvLSTM) deep learning architectures were combined in object recognition and video interpretation to achieve fast and accurate results. In the experimental studies at this stage of the thesis, the classification accuracy of unsafe behaviours in workplaces using the proposed Unsafe-Net architecture was achieved as 95.81% and the average time for action recognition from videos was calculated as 0.14 seconds. In addition, thanks to the YOLO algorithm used in the infrastructure of the Unsafe-Net architecture, the average video duration was reduced to 1.87 seconds, thus increasing the real-time detection speed. The developed system has been installed in a factory environment operating in Eskisehir, and when unsafe behaviour occurs, employees are immediately alerted by the system both audibly and visually in real time. In addition, with the installation of the system in the factory environment, employees were monitored for a period of time and it was observed that the recurrence rate of unsafe behaviour decreased by approximately 75% in a short period of time.