Metin madenciliği ve duygu analizi üzerine bir çalışma: Deprem uygulamaları kullanıcı yorumları
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Türkiye, jeolojik yapısı itibarıyla deprem riski yüksek bir ülkedir. Özellikle 2023 Kahramanmaraş Depremleri gibi büyük felaketler, toplumda deprem bilincinin arttırılması gerektiğini açıkça ortaya koymuştur. Depremler hem can hem de mal kaybına yol açabilecek potansiyele sahip doğal afetlerdir ve insanlar hayat kurtarma, maddi zararları azaltma, psikolojik olarak hazırlıklı olmak gibi nedenlerle depremleri önceden bilmek isterler. Telefonlardaki deprem uygulamaları da hem erken uyarı sağlamak hem de depremle ilgili bilgileri hızlı ve güvenilir bir şekilde kullanıcılara iletmek için önemli araçlar haline gelmiştir. Kullanıcıların, kullandıkları deprem uygulamaları hakkındaki geri bildirimleri, geri bildirimin taşıdığı duygunun analiz edilerek yorumlanabilmesi için önemli bir veridir. Bu veriler analiz edilerek elde edilen bilgiler ise uygulamanın geliştirilmesi ve kullanıcı deneyiminin iyileştirilmesi açısından uygulama geliştiricileri için oldukça önemlidir. Bu çalışmada, denetimli makine öğrenmesi yaklaşımı kullanılarak en çok yorum alan deprem uygulamalarına yapılan kullanıcı yorumlarının duygu analizi yapılmıştır. Duygu analizi için denetimli makine öğrenmesi sınıflandırma algoritmalarından Naive Bayes, Sıralı Minimal Optimizasyon ve k-en yakın komşu algoritmaları kullanılmıştır. Google Play ve App Store üzerinden Instant Data Scraper veri çıkarma aracı kullanılarak toplanan veriler olumlu, olumsuz ve nötr olarak etiketlenerek sınıflandırılmıştır. Bu çalışmada “veri dağılımının” ve “öznitelik seçiminin” sınıflandırma üzerindeki etkileri WEKA 3.8.6 yazılımı kullanılarak incelenmiştir. Çalışma sonucunda veri kümeleri arasında dengesiz veri kümesinin, dengeli veri kümesinden daha iyi performans sağladığı gözlemlenmiştir. Dengeli veri kümesinde analiz yapılırken öznitelik seçiminin yapılmasının, öznitelik seçiminin yapılmadığı modellere göre kayda değer bir performans değişikliğine neden olmadığı ve dengesiz veri kümesinde analiz yapılırken öznitelik seçiminin yapılmasının, öznitelik seçiminin yapılmadığı modellere göre daha iyi performans gösterdiği gözlemlenmiştir. Dengesiz veri kümesinde öznitelik seçimi yapılarak elde edilen %94,9 sınıflandırma doğruluğu oranı ile en iyi performans gösteren algoritma Sıralı Minimal Optimizasyon olmuştur. Ayrıca elde edilen bulgular, kullanıcıların büyük çoğunluğunun deprem uygulamalarına yönelik memnuniyet düzeyinin görece yüksek olduğunu ve genel kullanıcı deneyiminin pozitif bir eğilim sergilediğini ortaya koymaktadır.
Turkey, due to its geological structure, is a country at high risk of earthquakes. Major disasters such as the 2023 Kahramanmaraş Earthquake have clearly demonstrated the need to increase public awareness of earthquakes. Earthquakes are natural disasters with the potential to cause both loss of life and property, and people want to know about earthquakes in advance for reasons such as saving lives, reducing material damage, and being psychologically prepared. Earthquake apps on phones have become important tools for both providing early warnings and delivering earthquake-related information to users quickly and reliably. User feedback on earthquake apps they use provides crucial data for analyzing and interpreting the sentiment conveyed in the feedback. The information obtained by analyzing this data is crucial for app developers in developing apps and improving the user experience. In this study, sentiment analysis of user comments on the most commented earthquake apps was conducted using a supervised machine learning approach. Supervised machine learning classification algorithms such as Naive Bayes, Sequential Minimal Optimization, and k-nearest neighbor algorithms were used for sentiment analysis. Data collected using the Instant Data Scraper data extraction tool available on Google Play and the App Store were classified as positive, negative, and neutral. In this study, the effects of "data distribution" and "feature selection" on classification were investigated using WEKA 3.8.6 software. The study observed that an imbalanced dataset performed better than a balanced dataset. It was observed that performing feature selection while analyzing a balanced dataset did not cause a significant performance change compared to models without feature selection, and performing feature selection while analyzing an imbalanced dataset performed better than models without feature selection. The best-performing algorithm, with a classification accuracy rate of 94.9% achieved by performing feature selection on an imbalanced dataset, was Sequential Minimal Optimization. Furthermore, the findings reveal that the majority of users' satisfaction with earthquake applications is relatively high and the overall user experience exhibits a positive trend.












