Bu öğeden alıntı yapmak, öğeye bağlanmak için bu tanımlayıcıyı kullanınız: http://hdl.handle.net/11452/25123
Başlık: Dengesiz veri setlerinde sınıflandırma problemlerinin çözümünde melez yöntem uygulaması
Diğer Başlıklar: Hybrid method application to solve clasification problems in imbalanced datasets
Yazarlar: Eroğlu, Duygu Yılmaz
Pir, Mestan Şahin
Bursa Uludağ Üniversitesi/Fen Bilimleri Enstitüsü/Endüstri Mühendisliği Anabilim Dalı.
0000-0001-8248-0738
Anahtar kelimeler: Veri madenciliği
Dengesiz veri setleri
Sınıflandırma
Karar destek sistemleri
Data mining
Imbalanced datasets
Classification
Decision support
Yayın Tarihi: 8-Mar-2022
Yayıncı: Bursa Uludağ Üniversitesi
Atıf: Pir, M. Ş. (2022). Dengesiz veri setlerinde sınıflandırma problemlerinin çözümünde melez yöntem uygulaması. Yayınlanmamış yüksek lisans tezi. Bursa Uludağ Üniversitesi Fen Bilimleri Enstitüsü.
Özet: Günümüzde veri toplama teknolojilerinde yaşanan gelişmeler ile veriye bağlı karar destek yöntemlerine olan ilgi ve dolayısıyla veri madenciliğine ilgi arttı. Bu ilgi beraberinde farklı veri türlerinde veri madenciliği çalışmalarının yapılmasını sağladı. Günümüzde numerik ve kategorik verilerin yanında, görüntü tanıma, ses tanıma ve metin madenciliği gibi alanlarda yapılan çalışmalar ile çok sayıda bilimsel ve gerçek hayat çalışması gerçekleşti. Biyomedikal bilişim, örüntü tanıma, dolandırıcılık algılama, doğal dil işleme, tıbbi teşhis, yüz tanıma, metin sınıflandırma, arıza teşhis, anomali tespiti gibi başlıca gerçek hayat uygulama alanlarının yanında, otomom araçlar, Endüstri 4.0, insansız hava araçları gibi yeni teknolijilerde de çalışmaların sayısı arttı. Bu çalışmaların bir kısmında veri setlerinin dengesiz olması, diğer bir deyişle bir sınıf etiketinin belirgin oranda diğer sınıf/sınıflara baskın olması durumu ile karşılaşılmıştır. Bu durumda sınıflandırıcılar çoğunluk sınıfını doğru tahmin ettiği halde, azınlık verilerinde doğru tahminde bulunamamaktadır. Bu da kalite kontrol, tıbbi teşhis gibi çalışma alanlarında ciddi sorunlara yol açmaktadır. Çalışma kapsamında önerilen melez yöntem ile dengesiz verilerde sınıflandırma problemine çözüm önerilmiştir. Amaç dengesiz verilerde, aşırı örneklemenin yol açtığı aşırı uyum sorunun ve örnek azaltmanın yol açtığı değerli veri kaybının önüne geçilmesi ve başarılı sınıflandırma sonucu almaktır. İlk olarak dengesiz verinin sınıflandırılması ile ilgili yapılan çalışmalar incelendi. Sonrasında yapılan bu çalışmaların avantaj ve dezavantajlarından yararlanan yeni bir yöntem önerildi. Melez Yöntemin uygulandığı 8 veri seti farklı tip sınıflandırıcılar ile sınıflandırmış, sonuçlar dengesiz veri sınıflandırma problemlerinde sıkça kullanılan SMOTE yöntemi ile dengelenmiş veri setinin sonuçları ile karşılaştırılmıştır. Alınan sonuçlar önerilen yöntemin başarısını doğrulamıştır. Gerçek hayat verilerinde giriş kalite ve proses parametrelerinin iplik kopuşlarının tahmininde kullanılması ile yüksek doğru tahmin oranı ile ipliklerin dokumaya girmesini engelleyebilecek bir karar destek sistemi sunmuştur.
Today, the improvements of collecting data technologies and decisions depending on the data-based consequently increased the interest of data mining recently. This interest lead to studies in different data types. These days, besides of numeric and categorical data, visual recognition, voice recognition, text mining etc. has developed many real life and science study. In addition to the main real-life application areas such as biomedical informatics, pattern recognition, fraud detection, natural language processing, medical diagnosis, face recognition, text classification, fault diagnosis, anomaly detection, the number of studies in new technologies such as autonomous vehicles, Industry 4.0, unmanned aerial vehicles it increased. In some of these studies, it was encountered that the data sets were unbalanced, in other words, one class label was significantly dominant over the other class/classes. In this case, although the classifiers predict the majority class correctly but they cannot predict the minority class correctly. This makes serious problem on quality check, medical diagnossis etc. In this study, hybrid method proposed a solution the classification problem in imbalanced datasets. The aim is to prevent the overfitting problem caused by oversampling and valuable data loss caused by undersampling in imbalanced data, and to obtain successful classification results. Firstly, the studies on the classification of imbalanced data were examined. Then another method was proposed considering all the studies advantages and disadvantages. Hybrid method was applied to eight datasets, then these datasets were classified with different types of classifiers, and the results were compared with the results of the balanced data set with the SMOTE method, which is frequently used in imbalanced data classification problems. The obtained results confirmed the success of the proposed method. By using the input quality and process parameters in the real yarn data to predict yarn breaks, has presented a decision support system that can prevent yarns from entering the weaving with a high correct prediction rate.
URI: http://hdl.handle.net/11452/25123
Koleksiyonlarda Görünür:Fen Bilimleri Yüksek Lisans Tezleri / Master Degree

Bu öğenin dosyaları:
Dosya Açıklama BoyutBiçim 
Mestan_Şahin_Pir.pdf1.01 MBAdobe PDFKüçük resim
Göster/Aç


Bu öğe kapsamında lisanslı Creative Commons License Creative Commons