Порівняння трансформерів і GAN у системах TTS

Федорук, Н. С.; Плахтій, Євген Георгійович

Порівняння трансформерів і GAN у системах TTS

Федорук, Н. С.; Плахтій, Євген Георгійович

URI: http://srd.pgasa.dp.ua:8080/xmlui/handle/123456789/16637

Date: 2025-04-17

Abstract:

UK: Синтез мовлення (TTS, text-to-speech) – технологія, що переводить текст у штучно згенерований голос, наближений до природного. Сучасні TTS використовуються в голосових асистентах (Siri, Alexa, Google Assistant) та доступних технологіях для користувачів із вадами зору. Завдяки розвитку глибокого навчання з’явилися два основні підходи: трансформери та генеративні змагальні мережі (GAN). Трансформери, спочатку успішні в NLP, зараз використовують для моделювання послідовностей символів або фонем з довготерміновими залежностями. GAN, що здобули популярність у генерації зображень, тепер адаптовані для аудіо – генератор створює сигнал, а дискримінатор перевіряє його реалістичність. Обидва підходи важливі для досягнення натурального і виразного синтезованого мовлення, хоча кожен має свої сильні та слабкі сторони.

Show full item record