Please use this identifier to cite or link to this item:
http://hdl.handle.net/11452/6416
Title: | Yazılım tabanlı söz sentezleyici tasarımı |
Other Titles: | Software based speech synthesiser |
Authors: | Ertaş, Figen Eskidere, Ömer Uludağ Üniversitesi/Fen Bilimleri Enstitüsü/Elektronik Anabilim Dalı. |
Keywords: | Ses yolu modeli Yapay ses üretimi Formant sentezleyici Vocal tract model Synthetic speech production Formant synthesiser |
Issue Date: | 5-Sep-2000 |
Publisher: | Uludağ Üniversitesi |
Citation: | Eskidere, Ö. (2000). Yazılım tabanlı söz sentezleyici tasarımı. Yayınlanmamış yüksek lisans tezi. Uludağ Üniversitesi Fen Bilimleri Enstitüsü. |
Abstract: | İnsanın ses üretme mekanizmasının modellenmesi, konuşma işaretlerinin doğasını anlamaya yardımcı olduğu kadar ses üretiminde de doğrudan gereklidir. Elektronik olarak modellenebilen konuşma üretim işlemi pratikte ses sentezleyici olarak kullanılabilir. Rezonans sistemini ses yolu benzetimi ile modelleyen sistemler, formant frekansları için ayrı ayrı rezonatörler kullanır. Bu rezonatörlerin bağlanış şekillerine göre sentezleyici kaskat yada paralel formant sentezleyici olarak adlandırılır. Bu tezde formant sentezleme tekniğine dayanan bir Türkçe sözcük sentezleyici geliştirilmiştir. Sentezleyici normalde kaskat/paralel modunda çalışmasına rağmen, sadece bir anahtar yardımı ile, alternatif olarak gerektiğinde paralel modda kullanılabilir. Kullandığımız sözcük sentezleyicinin en önemli özelliği önceden kaydedilmiş konuşma örneklerine ihtiyaç duymadan doğrudan ses yolu modeli ile yapay insan sesi üretmesidir. Her bir ses, 20'si değişken ve 19'u sabit olmak üzere 39 parametre ile karakterize edilmiştir. Programdaki formant frekansları, formant band genişlikleri, temel frekans, vb. gibi değişken kontrol parametreleri kullanıcı tarafından belirlenir. Bu projedeki sabit parametreler belirli bir erkek sesi için uygun olarak seçilmiştir, farklı erkek veya kadın sesleri parametrelerde değişiklikler yapılarak elde edilebilir. Yeterli hafıza ve donanıma sahip kişisel bir bilgisayar ortamında çalışabilen esnek bir yazılım tabanlı sentezleyici tanıtılmıştır. Sentezleyici ile elde edilen değişik kelimelerin, yapay konuşmaya alışkın olmayan eğitilmemiş kişiler ile gerçeklenen anlaşılabilirlik testi göstermiştir ki, sesli harfler sesiz harflere göre daha doğru olarak belirlenmişlerdir. Models of human speech production help understanding of the nature of speech signals as well as being directly useful for speech generation. The speech production process can be modelled electronically, and such models are used as practical speech synthesisers. Speech synthesis can, in principle, use vocal tract models for the resonant system, but these are mostly too complicated to control. More practical models use explicit separate resonators for the formants. The resonators can be connected either in cascade, called a cascade formant synthesiser,- or in parallel, called a parallel formant synthesiser. A software for implementing a Turkish speech synthesiser has been developed which is based on formant synthesis method. The synthesiser is normally used in a cascade/parallel configuration, or alternatively in a parallel configuration depending on a single switch. Most important feature of the formant synthesiser used in this project is that the algorithm does not use previously recorded speech sounds, but rather generates synthetic speech using human vocal tract model. Each of speech sounds is characterised with 39 parameters in the software formant synthesiser. 20 of 39 parameters are variable and the others are constant. A control program lets the user specify variable control parameter data such as formant frequencies, formant bandwidths, fundamental frequency, etc. The constant parameters in this project have been used values appropriate for a particular male voice, and would have to be adjusted slightly to approximate the speech of other male or female talkers. A flexible software synthesiser that can run on any personal computer having sufficient core and peripheral equipment have been described. Intelligibility tests of different words produced by synthesiser indicate that vowels are identified correctly better than consonants by untrained people who are unfamiliar with synthetic speech. |
URI: | http://hdl.handle.net/11452/6416 |
Appears in Collections: | Fen Bilimleri Yüksek Lisans Tezleri / Master Degree |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
095250.pdf Until 2099-12-31 | 3.21 MB | Adobe PDF | View/Open Request a copy |
This item is licensed under a Creative Commons License