Bürünsel özelliklerin konuşmacı tanıma performansına etkisi

Bu öğeden alıntı yapmak, öğeye bağlanmak için bu tanımlayıcıyı kullanınız: http://hdl.handle.net/11452/11953

Başlık:	Bürünsel özelliklerin konuşmacı tanıma performansına etkisi
Diğer Başlıklar:	The effect of prosodic features on performance speaker identification
Yazarlar:	Uludağ Üniversitesi/Teknik Bilimler Meslek Yüksek Okulu/Mekatronik Programı. Uludağ Üniversitesi/Mühendislik-Mimarlık Fakültesi/Elektronik Mühendisliği Bölümü. Eskidere, Ömer Ertaş, Figen
Anahtar kelimeler:	Bürünsel özellikler Formant frekansı Enerji Perde frekansı Konuşmacı tanıma Gauss karışım modeli Prosodic features Formant frequency Energy Pitch frequency Speaker identification and Gaussian mixture model
Yayın Tarihi:	2009
Yayıncı:	Uludağ Üniversitesi
Atıf:	Eskidere, Ö. ve Ertaş, F. (2009). "Bürünsel özelliklerin konuşmacı tanıma performansına etkisi". Uludağ Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 14(2), 111-129.
Özet:	Bu makalede, bürünsel özniteliklerin gürültü içeren ortamlarda konuşmacı tanıma başarımına etkileri incelenmiştir. Bunun için, formant frekansı, sinyal enerjisi ve perde frekansı bürünsel özellikleri ve mel frekansı kepstrum katsayıları (MFCC) konuşma sinyalinden elde edilmiştir. Daha sonra her bir konuşmacı için özniteliklerin dağılımı Gauss karışım modeli ile modellenmiştir. Konuşmacı tanıma başarımı TIMIT ve NTIMIT veritabanları ile test edilmiştir. Gürültü ortamı NOISEX veritabanı kullanılarak oluşturulmuştur. Deneysel sonuçlar, enerjinin birinci türevi ve formant frekansları oranının (F3/F2), öznitelik vektörleriyle birlikte kullanılmasının konuşmacı tanıma hata oranını azalttığını göstermiştir. Ayrıca perde frekansının, gürültü ve telefon ortamının oluşturduğu bozulmalara karşı gürbüz bir öznitelik olduğu bulunmuştur. In this paper, the effect of the prosodic features on the performance of the speaker identification system in the noisy environment is investigated. For this purpose, the prosodic features, formant frequency, signal energy and pitch frequency, and mel frequency cepstrum coefficients (MFCC) are extracted from the speech signal. And then the distribution of the features for each speaker is modeled by Gaussian Mixture Model (GMM). The speaker recognition is performed on the TIMIT and NTIMIT databases. The noisy environment is created using the NOISEX database. The experimental results showed that when first derivative of the energy and the ratio of the formant frequencies (F3/F2) are used in feature vector, the speaker identification error rate decreases. It is also founded particularly that the pitch frequency is the robust feature against noise and distortion in the phone lines.
URI:	https://dergipark.org.tr/tr/download/article-file/202720 http://hdl.handle.net/11452/11953
ISSN:	2148-4147
Koleksiyonlarda Görünür:	2009 Cilt 14 Sayı 2

Bu öğenin dosyaları:

Dosya	Açıklama	Boyut	Biçim
14_2_9.pdf		1.01 MB	Adobe PDF	Göster/Aç

Tüm Öğe Kaydını Göster İstatistikler

Bu öğe kapsamında lisanslı Creative Commons License

Bursa Uludağ Üniversitesi Açık Erişim Sistemi

Bursa Uludağ Üniversitesinin araştırma çıktılarının yer aldığı açık erişim sistemidir.