Порівняння трансформерів і GAN у системах TTS

Федорук, Н. С.; Плахтій, Євген Георгійович

Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: http://srd.pgasa.dp.ua:8080/xmlui/handle/123456789/16637

Назва:	Порівняння трансформерів і GAN у системах TTS
Автори:	Федорук, Н. С. Плахтій, Євген Георгійович
Ключові слова:	синтез мовлення
Дата публікації:	17-кві-2025
Видавництво:	Український державний університет науки і технологій ННІ "Придніпровська державна академія будівництва та архітектури"
Бібліографічний опис:	Федорук Н. С. Порівняння трансформерів і GAN у системах TTS / Н. С. Федорук, Є. Г. Плахтій // Матеріали VІ наук.-практ. конф. студ., аспірантів і молодих вчених (Дніпро, 17 квіт. 2025 р.) : зб. тез. – Дніпро, 2025. – С. 261-263.
Короткий огляд (реферат):	UK: Синтез мовлення (TTS, text-to-speech) – технологія, що переводить текст у штучно згенерований голос, наближений до природного. Сучасні TTS використовуються в голосових асистентах (Siri, Alexa, Google Assistant) та доступних технологіях для користувачів із вадами зору. Завдяки розвитку глибокого навчання з’явилися два основні підходи: трансформери та генеративні змагальні мережі (GAN). Трансформери, спочатку успішні в NLP, зараз використовують для моделювання послідовностей символів або фонем з довготерміновими залежностями. GAN, що здобули популярність у генерації зображень, тепер адаптовані для аудіо – генератор створює сигнал, а дискримінатор перевіряє його реалістичність. Обидва підходи важливі для досягнення натурального і виразного синтезованого мовлення, хоча кожен має свої сильні та слабкі сторони.
URI (Уніфікований ідентифікатор ресурсу):	http://srd.pgasa.dp.ua:8080/xmlui/handle/123456789/16637
Розташовується у зібраннях:	Наукові статті

Файли цього матеріалу:

Файл	Опис	Розмір	Формат
Fedoruk.pdf		404,86 kB	Adobe PDF	Переглянути/Відкрити

Показати повний опис матеріалу Перегляд статистики

Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.

DSpace JSPUI

DSpace зберігає і дозволяє легкий і відкритий доступ до всіх видів цифрового контенту, включаючи текст, зображення, анімовані зображення, MPEG і набори даних