Abstract:
UK: Синтез мовлення (TTS, text-to-speech) – технологія, що
переводить текст у штучно згенерований голос, наближений до природного. Сучасні TTS
використовуються в голосових асистентах (Siri, Alexa, Google Assistant) та доступних
технологіях для користувачів із вадами зору. Завдяки розвитку глибокого навчання з’явилися
два основні підходи: трансформери та генеративні змагальні мережі (GAN). Трансформери,
спочатку успішні в NLP, зараз використовують для моделювання послідовностей символів
або фонем з довготерміновими залежностями. GAN, що здобули популярність у генерації
зображень, тепер адаптовані для аудіо – генератор створює сигнал, а дискримінатор перевіряє
його реалістичність. Обидва підходи важливі для досягнення натурального і виразного
синтезованого мовлення, хоча кожен має свої сильні та слабкі сторони.