Please use this identifier to cite or link to this item: http://hdl.handle.net/11452/25123
Title: Dengesiz veri setlerinde sınıflandırma problemlerinin çözümünde melez yöntem uygulaması
Other Titles: Hybrid method application to solve clasification problems in imbalanced datasets
Authors: Eroğlu, Duygu Yılmaz
Pir, Mestan Şahin
Bursa Uludağ Üniversitesi/Fen Bilimleri Enstitüsü/Endüstri Mühendisliği Anabilim Dalı.
0000-0001-8248-0738
Keywords: Veri madenciliği
Dengesiz veri setleri
Sınıflandırma
Karar destek sistemleri
Data mining
Imbalanced datasets
Classification
Decision support
Issue Date: 8-Mar-2022
Publisher: Bursa Uludağ Üniversitesi
Citation: Pir, M. Ş. (2022). Dengesiz veri setlerinde sınıflandırma problemlerinin çözümünde melez yöntem uygulaması. Yayınlanmamış yüksek lisans tezi. Bursa Uludağ Üniversitesi Fen Bilimleri Enstitüsü.
Abstract: Günümüzde veri toplama teknolojilerinde yaşanan gelişmeler ile veriye bağlı karar destek yöntemlerine olan ilgi ve dolayısıyla veri madenciliğine ilgi arttı. Bu ilgi beraberinde farklı veri türlerinde veri madenciliği çalışmalarının yapılmasını sağladı. Günümüzde numerik ve kategorik verilerin yanında, görüntü tanıma, ses tanıma ve metin madenciliği gibi alanlarda yapılan çalışmalar ile çok sayıda bilimsel ve gerçek hayat çalışması gerçekleşti. Biyomedikal bilişim, örüntü tanıma, dolandırıcılık algılama, doğal dil işleme, tıbbi teşhis, yüz tanıma, metin sınıflandırma, arıza teşhis, anomali tespiti gibi başlıca gerçek hayat uygulama alanlarının yanında, otomom araçlar, Endüstri 4.0, insansız hava araçları gibi yeni teknolijilerde de çalışmaların sayısı arttı. Bu çalışmaların bir kısmında veri setlerinin dengesiz olması, diğer bir deyişle bir sınıf etiketinin belirgin oranda diğer sınıf/sınıflara baskın olması durumu ile karşılaşılmıştır. Bu durumda sınıflandırıcılar çoğunluk sınıfını doğru tahmin ettiği halde, azınlık verilerinde doğru tahminde bulunamamaktadır. Bu da kalite kontrol, tıbbi teşhis gibi çalışma alanlarında ciddi sorunlara yol açmaktadır. Çalışma kapsamında önerilen melez yöntem ile dengesiz verilerde sınıflandırma problemine çözüm önerilmiştir. Amaç dengesiz verilerde, aşırı örneklemenin yol açtığı aşırı uyum sorunun ve örnek azaltmanın yol açtığı değerli veri kaybının önüne geçilmesi ve başarılı sınıflandırma sonucu almaktır. İlk olarak dengesiz verinin sınıflandırılması ile ilgili yapılan çalışmalar incelendi. Sonrasında yapılan bu çalışmaların avantaj ve dezavantajlarından yararlanan yeni bir yöntem önerildi. Melez Yöntemin uygulandığı 8 veri seti farklı tip sınıflandırıcılar ile sınıflandırmış, sonuçlar dengesiz veri sınıflandırma problemlerinde sıkça kullanılan SMOTE yöntemi ile dengelenmiş veri setinin sonuçları ile karşılaştırılmıştır. Alınan sonuçlar önerilen yöntemin başarısını doğrulamıştır. Gerçek hayat verilerinde giriş kalite ve proses parametrelerinin iplik kopuşlarının tahmininde kullanılması ile yüksek doğru tahmin oranı ile ipliklerin dokumaya girmesini engelleyebilecek bir karar destek sistemi sunmuştur.
Today, the improvements of collecting data technologies and decisions depending on the data-based consequently increased the interest of data mining recently. This interest lead to studies in different data types. These days, besides of numeric and categorical data, visual recognition, voice recognition, text mining etc. has developed many real life and science study. In addition to the main real-life application areas such as biomedical informatics, pattern recognition, fraud detection, natural language processing, medical diagnosis, face recognition, text classification, fault diagnosis, anomaly detection, the number of studies in new technologies such as autonomous vehicles, Industry 4.0, unmanned aerial vehicles it increased. In some of these studies, it was encountered that the data sets were unbalanced, in other words, one class label was significantly dominant over the other class/classes. In this case, although the classifiers predict the majority class correctly but they cannot predict the minority class correctly. This makes serious problem on quality check, medical diagnossis etc. In this study, hybrid method proposed a solution the classification problem in imbalanced datasets. The aim is to prevent the overfitting problem caused by oversampling and valuable data loss caused by undersampling in imbalanced data, and to obtain successful classification results. Firstly, the studies on the classification of imbalanced data were examined. Then another method was proposed considering all the studies advantages and disadvantages. Hybrid method was applied to eight datasets, then these datasets were classified with different types of classifiers, and the results were compared with the results of the balanced data set with the SMOTE method, which is frequently used in imbalanced data classification problems. The obtained results confirmed the success of the proposed method. By using the input quality and process parameters in the real yarn data to predict yarn breaks, has presented a decision support system that can prevent yarns from entering the weaving with a high correct prediction rate.
URI: http://hdl.handle.net/11452/25123
Appears in Collections:Fen Bilimleri Yüksek Lisans Tezleri / Master Degree

Files in This Item:
File Description SizeFormat 
Mestan_Şahin_Pir.pdf1.01 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons