Лінгвістичні студії: Збірник наукових праць.

Ілля Данилюк – СИНТЕЗ МОВЛЕННЯ В КОМП’ЮТЕРНИХ СИСТЕМАХ

У статті розглядається історія, сучасний стан і перспективи проблеми синтезу українського мовлення.
З’ясовуються методи синтезу, описується механізм створення мовленнєвих баз даних, аналізуються сучасні
системи синтезу мовлення. Визначено основні досягнення і песпективи галузі в контексті розвитку
апаратного забезпечення.
Ключові слова: синтез мовлення, лінгвістичний процесор, фонема.

Важливим елементом лінгвістичного процесора є система синтезу мовлення, тобто перетворення
текстового ланцюжка на звукові коливання, близькі, а в ідеалі ідентичні до людського голосу. Ця проблема
розглядається в галузі прикладної та експериментальної фонетики [1]. На сьогодні найвищого розвитку досягли
програмні засоби породження англійського, німецького, японського мовлення [7, с. 34], поступово
поширюються системи російськомовного синтезу [6, с. 265]. Досі невирішеною залишається проблема зняття
одноманітності звучання створеного автоматизованими системами мовлення. Для української мови
перешкодою розвитку подібних програмних комплексів є загальна нерозвиненість ринку інформаційних
технологій, поширення піратства та інших видів порушень у галузі авторського права, відсутність послідовної
мовної політики держави.
Метою статті є розгляд сучасного стану розвитку галузі породження мовлення, а також огляд систем
синтезу українського мовлення за останні 15 років, починаючи з перших подібних систем [2], оскільки за цей
час у світі відбувся суттєвий прорив у галузі мовленнєвого синтезу, пов’язаний із розповсюдженням і
здешевленням мобільних технологій. Новизною робота завдячує простеженню розвитку систем породження у
діахронічному і синхронічному зрізах.
У синтезу мовлення тривала історія, що обросла легендами. Ще в Х столітті Герберту Аврілакському
приписували володіння мистецтвом виготовлення терафима – мертвої голови, здатної розмовляти. Зроблена із
бронзи, ця голова відповідала на питання словами «так» і «ні». У середині XIII століття чернець-домініканець
Альберт фон Больштедт і англійський філософ і натураліст Роджер Бекон також намагалися створювати перші
зразки таких голів.
Наприкінці XVIII століття датський учений Крістіан Кратценштейн, дійсний член Російської Академії
Наук, створив модель мовного тракту людини, здатну вимовляти п’ять довгих голосних звуків (а, е, і, о, у).
Модель являла собою систему акустичних резонаторів різної форми, що видавала голосні звуки за допомогою
вібруючих язичків, збуджуваних повітряним потоком. У 1778 австрійський учений Вольфганг фон Кампелен
доповнив модель Кратценштейна моделями язика й губ і представив акустично-механічну машину, здатну
відтворювати певні звуки і їхні комбінації. Шиплячі й свистячі видувалися за допомогою спеціального хутра з
ручним управлінням. У 1837 учений Чарльз Уїтстоун (Charles Wheatstone) представив поліпшений варіант
машини, здатний відтворювати голосні й більшість приголосних звуків. А в 1846 році Джозеф Фабер (Joseph
Faber) продемонстрував свій здатний розмовляти орган Euphonia, у якому була реалізована спроба
синтезування не тільки мовлення, але й співу.

Наприкінці XIX століття знаменитий учений Олександр Белл створив власну механічну модель, дуже
схожу за конструкцією до машини Уїтстоуна. З початку XX століття розпочалася ера електричних машин, і
вчені одержали можливість використовувати генератори звукових хвиль і на їхній базі будувати алгоритмічні
моделі.
У 1930-х роках працівник Bell Labs Хомер Дадлі (Homer Dudley), працюючи над проблемою пошуку
шляхів для збільшення передавальної здатності телефонії розробляє VOCODER (скорочено від англ. voice –
голос, англ. coder – кодувальник) – керований за допомогою клавіатури електронний аналізатор і синтезатор
мовлення. Ідея Дадлі полягала в тому, щоб проаналізувати голосовий сигнал, розібрати його на частини й
© Данилюк І.Г., 2009 Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

237
пересинтезувати у менш вимогливий до пропускної здатності лінії. Удосконалений варіант вокодера Дадлі,
VODER, був представлений на Нью-Йоркській всесвітній виставці 1939 року [5, с. 27].
Синтез мовлення може використовуватися у техніці зв’язку, в інформаційно-довідкових системах, для
допомоги сліпим і німим, для інформування про перебіг технологічних процесів, у військовій і космічній
техніці, у робототехніці, в акустичному діалозі людини з комп’ютером – в усіх випадках, коли одержувачем
інформації є людина.
Схема системи синтезу мовлення має такий узагальнений вигляд:
Аналізатор тексту → Інтерпретатор + База даних правил і фонем → апаратний синтезатор → динамік
Структура ідеалізованої системи автоматичного синтезу мовлення складається з декількох блоків [6,
с. 270]:
• Визначення мови тексту;
• Нормалізація тексту;
• Лінгвістичний аналіз: синтаксичний, морфологічний, морфемний аналіз;
• Фонемний транскриптор;
• Формування просодичних характеристик.

Модуль лінгвістичної обробки
Насамперед текст надходить до модуля лінгвістичної обробки. У ньому здійснюється визначення мови (у
багатомовній системі синтезу), а також відсіюються символи, які не підлягають вимовлянню. У деяких
випадках використовуються модулі виправлення орфографічних і пунктуаційних помилок. Далі відбувається
нормалізація тексту, тобто здійснюється поділ уведеного тексту на слова й інші послідовності символів. До
символів належать, зокрема, розділові знаки й символи початку абзацу. Всі знаки пунктуації є дуже
інформативними й використовуються для розпізнавання просодичної інформації на наступних етапах. Для
озвучування цифр розробляються спеціальні підблоки. Пильну увагу потрібно приділити правильній
ідентифікації й озвучуванню цифр, що позначають числа місяця, роки, час, телефонні номери, грошові суми
тощо.
Лінгвістичний аналіз
Після процедури нормалізації кожному слову тексту необхідно приписати відомості про його вимову,
тобто перетворити на ланцюжок фонем або, інакше кажучи, створити його фонемну транскрипцію. У багатьох
мовах існують досить регулярні правила читання – правила відповідності між літерами й фонемами (звуками),
які, однак, можуть вимагати попереднього розміщення словесних наголосів. Просто зберігати транскрипцію
для всіх слів мови не видається можливим через великий обсяг словника й контекстних змін вимови того
самого слова у фразі.
Крім того, слід коректно розглядати випадки омографії: та сама послідовність буквених символів у
різних контекстах часом представляє два різних слова/словоформи й читається по-різному (Замок замок на
замок, щоби замок не замок). Часто вдається вирішити проблему неоднозначності шляхом граматичного
аналізу, однак іноді допомагає тільки використання ширшої семантичної інформації.
Для мов з досить регулярними правилами читання одним із продуктивних підходів до переведення слів у
фонеми є система контекстних правил, що ставлять у відповідність тій чи іншій букві / буквосполуці ту чи іншу
(певну) фонему, тобто автоматичний фонемний транскриптор (“слово-літера-фонема”). Однак чим більше у
мові винятків із правил читання, тим гірше працює цей метод. Стандартний спосіб поліпшення вимови системи
полягає в занесенні декількох тисяч найбільш уживаних винятків до словника.
Альтернативний підхід рішення припускає морфемний аналіз слова й переведення у фонеми морфів
(тобто значущих частин слова: префіксів, коренів, суфіксів і закінчень). Однак у зв’язку з різними звуковими
явищами на стиках морфів розкладання на ці елементи являє собою значні труднощі. Морфемний аналіз
зручний ще й тому, що за його допомогою можна визначати належність слів до частин мови, що дуже важливо
для граматичного аналізу тексту й завдання встановленн його просодичних характеристик.
Формування просодичних характеристик
До просодичних характеристик висловлення належать його тональні, акцентні й ритмічні
характеристики. Їхніми фізичними аналогами є частота основного тону, енергія й тривалість. У мовленні
просодичні характеристики висловлення визначаються не тільки словами, що входять до його складу, але також
тим, яке значення воно несе й для якого слухача призначене, емоційним і фізичним станом мовця й багатьма
іншими факторами. Від системи синтезу максимально слід очікувати того, що вона зможе розуміти наявний у
неї на вході текст, використовуючи методи штучного інтелекту, й підібрати відповідну інтонацію. Однак цей
рівень розвитку комп’ютерної технології ще не досягнутий, і більшість сучасних систем автоматичного синтезу
намагаються коректно синтезувати мовлення з емоційно нейтральною інтонацією.
Формування просодичних характеристик, необхідних для озвучування тексту, здійснюється трьома
основними блоками, а саме: блоком розміщення синтагматичних меж (паузи), блоком приписування ритмічних
і акцентних характеристик (тривалості й енергії), блоком приписування тональних характеристик (частота
основного тону) – жіночий /чоловічий голос. ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 18

238
3. Методи озвучування
Всі способи синтезу мовлення можна розділити на три групи:
параметричний синтез;
конкатенативний, або компіляційний (компілятивний) синтез;
синтез за правилами.
Параметричний синтез
Параметричний синтез мовлення є кінцевою операцією у вокодерних системах, де мовний сигнал
представляється набором невеликої кількості постійно змінюваних параметрів. Параметричний синтез доцільно
застосовувати в тих випадках, коли набір повідомлень обмежений і змінюється не занадто часто. Перевагою
такого способу є можливість записати мовлення для будь-якої мови й будь-якого диктора. Якість
параметричного синтезу може бути дуже високою (залежно від ступеня стискання інформації в
параметричному представленні). Однак параметричний синтез не може застосовуватися для довільних,
заздалегідь не заданих повідомлень.
Компілятивний синтез
Компілятивний синтез зводиться до складання повідомлення з попередньо записаного словника вихідних
елементів синтезу. Розмір елементів синтезу становить не менше слова. Очевидно, що зміст синтезованих
повідомлень зумовлений обсягом словника. Як правило, кількість одиниць словника не перевищує декількох
сотень слів. Основна проблема в компілятивному синтезі — обсяги пам’яті для зберігання словника. У цьому
зв’язку використовуються різноманітні методи стискання/кодування мовного сигналу. Компілятивний синтез
має широке практичне застосування. За рубежем різноманітні пристрої (від військових літаків до побутових
пристроїв) оснащуються системами мовної відповіді. У нашій країні системи мовної відповіді донедавна
використовувалися в основному у військовій техніці, зараз вони знаходять все більше застосування в
повсякденному житті, наприклад, у довідкових службах операторів стільникового зв’язку при одержанні
інформації про стан рахунку абонента.
Повний синтез мовлення за правилами (конкатенативний синтез).
Цей метод на сьогодні є найбільш поширеним методом синтезу мовлення, він полягає в поєднанні
(склеюванні) відрізків мовленнєвих сигналів, що зберігаються у мовленнєвих базах даних (МБД). Елементами
МБД найчастіше бувають відрізки мовленнєвих сигналів, що відповідають таким фонетичним одиницям як
фонеми (звуки), дифони (відрізки мовленнєвого сигналу від середини однієї фонеми до середини наступної) та
напівфони (половини дифонів).
Повний синтез мовлення за правилами (або синтез за друкованим текстом) забезпечує управління всіма
параметрами мовного сигналу й, таким чином, може генерувати мовлення за заздалегідь не відомим текстом. У
цьому випадку параметри, отримані при аналізі мовного сигналу, зберігаються в пам’яті так само, як і правила
з’єднання звуків у слова й фрази. Синтез реалізується шляхом моделювання мовного тракту через застосування
аналогової або цифрової техніки. При цьому в процесі синтезу значення параметрів і правила з’єднання фонем
уводять послідовно через певний часовий інтервал, наприклад 5-10 мс. Метод синтезу мовлення за друкованим
текстом (синтез за правилами) базується на запрограмованому знанні акустичних і лінгвістичних обмежень і не
використовує безпосередньо елементів людського мовлення.
У системах, що ґрунтуються на цьому способі синтезу, виділяють два підходи. Перший підхід
спрямований на побудову моделі мовленнєвої системи людини, він відомий під назвою артикуляторного
синтезу. Другий підхід – формантний синтез за правилами. Тут використовують відомі параметри: формантні
частоти для голосних і сонорних, періодичний і турбулентний шуми.
Синтез мовлення за правилами з використанням попередньо зафіксованих відрізків природної мови – це
різновид синтезу мовлення за правилами, що одержав поширення у зв’язку з появою можливостей
маніпулювання мовним сигналом в цифровій формі. Залежно від розміру вихідних елементів синтезу
виділяються такі види синтезу:
• мікросегментний (мікрохвильовий);
• алофонічний;
• дифонний;
• напівскладовий;
• складовий;
• синтез із одиниць довільного розміру.
Найчастіше використовують напівсклади – сегменти, що містять половину приголосного й половину
голосного, який прилягає до нього. При цьому можна синтезувати мовлення за заздалегідь не заданим текстом,
але важко керувати інтонаційними характеристиками. Якість такого синтезу не відповідає якості природного
мовлення, оскільки у місцях зшивання дифонів часто виникають викривлення. Компіляція мовлення із
заздалегідь записаних словоформ також не вирішує проблеми високоякісного синтезу довільних повідомлень,
оскільки акустичні й просодичні (тривалість і інтонація) характеристики слів змінюються залежно від типу
фрази й місця слова у фразі. Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

239
Мовленнєві бази даних, що використовуються у системах синтезу мовлення, не є спільними для носіїв
тієї чи іншої мови, вони завжди індивідуальні та містять інформацію про особливості голосу та вимови окремих
дикторів-донорів. Що більший обсяг МБД, то повніше представлено у ній фонемну (звукову), темпоральну та
інтонаційну варіативність мовлення диктора. Як наслідок, синтезоване мовлення звучить більш натурально.
Крім того, що більшим є обсяг МБД, то меншими є спотворення мовленнєвих відрізків у місцях конкатенації
внаслідок необхідної просодичної модифікації [3, с. 78].
Як одиниці конкатенації обирають відрізки мовленнєвих сигналів, що відповідають одиницям мови –
фонемам. На акустичному рівні фонеми спостерігаються не ізольовано, а у поєднанні з сусідніми фонемами. У
мовленні фонеми зазнають змін акустичних характеристик унаслідок впливу артикуляції сусідніх фонем. З
метою відображення в одиницях конкатенації змін акустичних характеристик, яких зазнають фонеми у
мовленні внаслідок впливу артикуляції сусідних фонем, елементами мовленнєвих баз даних було обрано
фонеми-трифони [3, с. 79], тобто фонеми у контексті. Наприклад, у вигляді послідовності фонем-трифонів
слово „люди” буде виглядати так: #-л’-У л’-У-д У-д-и д-и-#, де # – пауза.
Розрізняються МБД невеликого (до 3000 фонем-трифонів), середнього (від 3000 до 50000 фонем-
трифонів) та великого (понад 50000 фонем-трифонів) обсягу.
Мовленнєві бази даних розробляють за таким планом:
• визначення алфавіту фонем;
• вибір навчальних текстів;
• створення мовленнєвих корпусів;
• фонемне транскрибування мовленнєвих корпусів;
• створення МБД на підставі мовленнєвих корпусів;
• ручна/автоматична сегментація МБД на фонеми-трифони [3, с. 80].
Щодо розвитку ринку синтезу українського мовлення слід зауважити, що великих компаній, які
займаються створенням програмних продуктів немає. Існують наукові заклади, які займаються дослідженнями
в галузі розпізнавання та синтезу, або поодинокі розробники. Серед першої категорії можна виділити відділ
розпізнавання та синтезу звукових образів Міжнародного науково-навчального центру інформаційних
технологій та систем (МННЦІТС), м. Київ, та Українську асоціацію з оброблення інформації та розпізнавання
образів (УАСОІРО) при ньому. Також активно діє відділ розпізнавання мовних образів Державного інституту
штучного інтелекту (ДІШІ), м. Донецьк.
Друга категорія, або розробники-ентузіасти, представлена насамперед Анатолієм Чорним, який є
ініціатором Проекту альтернативного інтелекту, в межах якого розвивається програма синтезу українського
мовлення «Розмовлялька» (http://www.proekt-ai.kh.ua/syntez.htm).
У програмі “Вимова плюс”, яка вголос читає різноманітні тексти з Інтернету, використовується
синтезатор української мови, створений Тетяною Людовік та Миколою Сажком (МННЦТС)
(http://cybermova.com/products/vymovaplus.htm).
Влад Савченко на основі голосового движка Digalo Russian та SAPI розробив програму Базікало (у
програми немає постійної адреси в Інтернеті).
У Львові Ярослав Козак створив систему озвучення українських текстів UkrVox на платформі SAPI.
Також є синтезатори російської та української мови “Vikno” (автори: Г.В. Юсим та В.Б. Кон), які
дозволяють озвучувати довільні тексти, написані російською або українською мовами, з можливими
англомовними або німецькомовними вкрапленнями.
Нарешті, існує програма для озвучення українських текстів Декламатор (http://declamator.ho.com.ua/). У
ній передбачено три види використання: читання електронних книжок спеціального формату, проведення
диктанту, вибраного зі збірника диктантів або окремого тексту, редагування текстів з прослуховуванням.
Системи розпізнавання мови можуть застосовуватися і застосовуються у різних галуззях: суди,
переговори операторів сall-центрів, автоматизовані служби замовлень, технічної підтримки, інформаційно-
довідковий сервіс і багато чого іншого, включаючи антитерористичний моніторинг мовних переговорів (у
США такий моніторинг телефонних мереж давно узаконений), мовний інтерфейс із бойовими, а також
побутовими роботами (Японія в такий спосіб налагоджує обслуговування самотніх людей похилого віку) і
соціалізацію людей з обмеженими фізичними здатностями.
Перспективи розпізнавання українського мовлення, на жаль, більшою мірою залежать від мовної
політики держави, а не бажання розробників інвестувати у галузь з неочевидним миттєвим прибутком.
Розширення меж функціонування української мови й дотримання вимог законодавства щодо її державного
статусу – ось основний, на нашу думку, рушій розвитку технологій синтезу українського мовлення.

Література
1. Бас-Кононенко О. Породження мовлення як об’єкт експериментальної фонетики, фонології,
психолінгвістики у зв’язку з психолінгвістичною діяльністю механізмів мозку (спроба інтерпретації окремих
проблем) // Українське мовознавство. – Вип. 29-30. – К., 2004. – С. 136-140.
2. Вінцюк Т. Комп’ютерні автоматичні системи розпізнавання та синтезу українського мовлення //
Проблеми українізації комп’ютерів. – К., 1993. ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 18

240
3. Вінцюк Т., Людовик Т., Сажок М., Селюх Р. Автоматичний озвучувач українських текстів на основі
фонемно-трифонної моделі з використанням природного мовного сигналу // Праці 6-ї Всеукраїнської
міжнародної конференції “Оброблення сигналів і зображень та розпізнавання образів” – УкрОбраз’2002. – К.,
2002. – С. 79–84.
4. Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового общения // НЗЛ.
Вып.XXIV. М., 1989. С.5-31.
5. Данилюк І.Г. Автоматичне опрацювання природного мовлення. Навчально-методичний посібник із
курсу «Автоматичне опрацювання природного мовлення» для студентів спеціальності 6.020303 «Прикладна
лінгвістика» / За ред. А.П.Загнітка. – Донецьк: ДонНУ, 2008. – 55 с.
6. Лобанов Б.М., Карневская Е.Б., Левковская Т.В. “Синтезатор речи по тексту как компьютерное
средство «клонирования» персонального голоса” // Труды Международной конференции Диалог-2001. – М.,
2001. – С. 265-272.
7. Речь и ЭВМ. – М., 1989. – 47 с.

The article examines the history, current state and prospects of the problem of speech synthesis. It’s found the
methods of synthesis, the mechanism described creating language databases, modern speech synthesis system are
analyzed. The main achievements and perspectives in the context of hardware.
Keywords: speech synthesis, linguistic processing, phoneme.
Надійшла до редакції 4 жовтня 2008 року.

Літературне місто - Онлайн-бібліотека української літератури. Освітній онлайн-ресурс.