Лінгвістичні студії: Збірник наукових праць.

Соломія Бук — ЧАСТОТНИЙ СЛОВНИК ОФІЦІЙНО-ДІЛОВОГО СТИЛЮ: ПРИНЦИПИ УКЛАДАННЯ ТА СТАТИСТИЧНІ ХАРАКТЕРИСТИКИ ЛЕКСИКИ

У статті викладено результати створення першого частотного словника офіційно-ділового стилю
української мови. Зокрема, обґрунтовано джерела укладання та величину вибірки, обчислено основні
статистичні характеристики лексики цього функціонального стилю: обсяг словника лексем, обсяг словника
словоформ, індекси різноманітності, винятковості та концентрації. Також подано розподіл слів і словоформ
за частотою і залежність між рангом слова та величиною покриття тексту.
Ключові слова: частотний словник, частота слова, слововживання, лематизація, статистичні
характеристики лексики.

Частота вживання слова у тексті поряд з лексичним значенням є невід’ємною характеристикою його
функціонування в мові. Опис будь-якої мови не може вважатися всебічним і повним без аналізу її кількісних
показників.
Частотність слова прямо залежить від стилю, в якому воно функціонує, тому комплексний частотний
опис мови мусить здійснюватися відповідно до функціональних стилів, а частотний словник усієї мови повинен
укладатися на базі частотних словників конкретних стилів. Такий підхід до вирішення поставленого завдання
© Бук С.Н., 2006 Розділ IV. Функціональна семантика лексичних і фразеологічних одиниць

185
має свою традицію як в зарубіжному [Leech et al. 2001; Saloni 1990; Алексеева и др. 1983; Штейнфельд 1963;
Засорина 1977], так і в українському мовознавстві. Зокрема, для української мови створено частотні словники
художнього [Перебийніс 1981] та поетичного [Дарчук 2003б], публіцистичного [Дарчук 2003а, 1996], наукового
[Бук 2005а] і розмовно-побутового [Бук 2005б] стилів. На часі створення частотного словника й офіційно-
ділового стилю української мови, який має суттєві особливості у порівнянні з усіма іншими.
Ця робота — перша в українському мовознавстві спроба проаналізувати статистичним методом
лексичний склад офіційно-ділового мовлення та подати основні характеристики вживаності кожного слова з
реєстру.
Джерела словника. При відборі джерел для укладання ЧС офіційно-ділового стилю ми відштовхувалися
від класифікації самих документів. У підручниках сучасного ділового мовлення [Діденко 1998;
Молдованов та ін. 1992; Шевчук 2001] та інших офіційно-діловий стиль найчастіше представлений системою
управлінсько-адміністративних (адміністративно-канцелярських) документів. Це можна пояснити тим, що
згадані документи задовольняють потреби писемного спілкування в державних установах, суспільному,
політичному, господарському житті, в ділових стосунках між інституціями й установами, в громадській,
виробничій та іншій діяльності окремих членів суспільства, проте з офіційно-діловим стилем маємо справу і “в
текстах указів, законів, наказів, розпоряджень, звітів, ухвал, в діловому листуванні” [Пономарів 1992, с. 6]. Як
слушно зазначають автори Універсального довідника-практикуму з ділових паперів [Бибик та ін. 1999],
“специфіку різних сфер діяльності суспільства відтворюють специфічні (галузеві) документаційні системи, як
от: банківська, дипломатична, зовнішньоекономічна, юридична тощо”. Таким чином, при створенні частотного
словника офіційно-ділового стилю ми притримувались можливості виділення таких груп документів:
1. Законодавчі (Конституція України, кодекси, українські та міжнарожні закони)
2. Дипломатичні (міжнародні угоди, конвенції, декларації, меморандуми, виступи, комюніке, звернення
тощо)
3. Зовнішньоекономічні (контракти, документи зі створення спільних підприємств з іноземним
партнером)
4. Банківські (договори на здійснення кредитно-розрахункового обслуговування, про депозитний вклад,
про спільну діяльність, лізинг, про пайовий внесок тощо)
5. Адміністративно-канцелярські:
• щодо особового складу (заява, характеристика, резюме, біографія, облік кадрів, трудова книжка
тощо);
• інформаційні документи (службовий лист, прес-реліз, стаття, коментар, рецензія, відгук, реферат,
телеграма, довідка, пояснювальна записка, протокол, резолюція, звіт, оголошення тощо);
• документи господарсько-договірної діяльності (договір, дозвіл, контракт, трудова угода тощо);
• обліково-фінансові документи (список, перелік, накладна, акт, доручення, розписка, претензія тощо).
При відборі джерел до словника ми намагалися врахувати якнайбільшу кількість видавників і типів
документів. Тексти для його укладання було відібрано із прикладів підручника з ділового мовлення
[Шевчук 2001] та електронного ресурсу Верховної Ради України (www.rada.kiev.ua). Повний перелік документів
подано в [Бук 2004, с. 217–224].
Величина вибірки. “Обсяг вибірки свідчить про достовірність даних, але залежить від фізичних
можливостей укладача” [Фрумкина 1964, с. 16]. З іншого боку, існують об’єктивні критерії визначення обсягу
досліджуваного матеріалу. “Обсяг вибірки для частотного словника повинен бути таким, щоб слова із
вірогідними статистичними характеристиками покривали 80–90% тексту. Такій вимозі відповідає вибірка у 300
тис. слововживань” [Дарчук, Грязнухіна 1996, с. 16], тому словник укладено на основі машиночитаного корпусу
тексту такої величини. Окрім цього, на корпусах тексту 300 000 слововживань укладено згадані ЧС
публіцистики, поетичного мовлення, наукового та розмовно-побутового стилів, що дозволяє їх порівнювати.
Підтвердженням репрезентативності корпусу текстів такого обсягу може слугувати якісно однакова
поведінка його залежності “ранґ–частота” порівняно з аналогічною характеристикою Британського
національного корпусу [British National Corpus 2003], що налічує понад 30 млн слововживань [Buk,
Rovenchak 2004, с. 166; Бук 2004, с. 47].
Етапи укладання словника. Словник укладено на основі лінгвостатистичного аналізу текстів за такими
ж принципами, як і в частотному словнику розмовно-побутового стилю [Бук 2003а]. ЧС становить собою
впорядкований список слів, забезпечений даними про частоту їх вживаності в тексті. Як і всі попередні ЧС
української мови, словник подає інформацію про словникові одиниці (леми) і про словоформи. Окремим
словом ми вважали послідовність літер між двома пропусками чи розділовими знаками, тому складні
числівники розглядали як різні слова, а написання через дефіс — як одне слово.
Формування частотного словника здійснено за графічним збігом лем, і кожна частина мови мала свою
схему об’єднання словоформ під лемою (аналогічну до вказаних словників).
Словник укладено атоматичним способом у декілька етапів:
1. Створення електронного корпусу текстів документів шляхом сканування та подальшого детального
вичитування, а також з електронного ресурсу Верховної Ради України (www.rada.kiev.ua). ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 14

186
2. Усунення омонімії шляхом додавання до одного слова із омонімічної пари умовної позначки. Таким
чином ці слова ставали графічно різними, і програма рахувала частоту вживання кожного з них окремо.
3. Автоматичний підрахунок абсолютної частоти кожної словоформи за допомогою спеціально написаної
комп’ютерної програми (автор — А. Ровенчак, доцент кафедри теоретичної фізики Львівського національного
університету імені Івана Франка). Результатом цієї процедури стали ЧС словоформ офіційно-ділового стилю
за спадом частот.
4. Розташування словоформ в алфавітному порядку. Результатом цієї операції став ЧС словоформ
офіційно-ділового стилю за алфавітом.
5. Автоматична лематизація, тобто зведення словоформ до словникової форми (початкової форми, леми),
наприклад словоформи методом, методу, методи, методами — до леми метод; роблю, робиш, роблять,
робитиму, роблячи — до леми робити (виконано в Українському мовно-інформаційному фонді НАНУ).
Результатом цієї операції став ЧС офіційно-ділового стилю за спадом частот.
6. Розташування всіх зведених лем в алфавітному порядку. Результатом цієї операції став ЧС слів
наукового стилю за алфавітом.
Деякі результати статистичних підрахунків.
1. У корпусі текстів офіційно-ділового стилю української мови довжиною 300 000 слововживань (N)
зафіксовано 9 045 різних слів (V, це обсяг словника лексем, тобто слів, зведених до початкової форми) та 24 263
словоформ (Vф).
2. Багатство словника (Б) офіційно-ділового стилю, тобто індекс різноманітності (відношення обсягу
словника лексем (V) до обсягу тексту (N)) становить 0,030.
3. Середня повторюваність слова в тексті (А), тобто відношення обсягу тексту (N) до обсягу словника
лексем (V) становить для ЧС офіційно-ділового стилю 33,17. Іншими словами, кожне слово в середньому
зустрілося в досліджуваному корпусі текстів 33 рази.
4. Кількість hapax legomena, тобто слів із частотою 1 (V1), складає 2 536.
5. Індекс винятковості для тексту (Ет), тобто відношення кількості слів із частотою 1 (V1) до обсягу
тексту (N), для офіційно-ділового стилю становить 0,0085, а індекс винятковості для словника (тобто
відношення кількості слів із частотою 1 (V1) до обсягу словника (V)) — 0,280. Ці числа — показники
варіативності лексики.
6. Протилежним до індексу винятковості є індекс концентрації. Індекс концентрації у тексті (V10Т/N) — це
відношення кількості найчастотніших слів у тексті (з частотою 10 і вище — 280 673) до загального обсягу
тексту (300 000), це дорівнює 0,935; а індекс концентрації у словнику (V10/V) — відношення кількості
найчастотніших слів у словнику (з частотою 10 і вище — 2 738) до загального обсягу словника (9 045), це
дорівнює 0,303.
Наводимо результати розподілу слів і словоформ за частотою у Таблиці 1, обчисленого за даними ЧС
офіційно-ділового стилю за спадом частот.
Таблиця 1.
Розподіл слів і словоформ за частотою
(за даними ЧС офіційно-ділового стилю)

атотсаЧКількість Кількість
слів словоформ
Частота
слів словоформ
Більше 2000 16 14 40–49 177 215
1500–1999 2 1 30–39 264 437
1000–1499 11 4 20–29 447 691
500–999 48 25 10–19 856 1823
400–499 29 17 9 151 220
300–399 44 28 8 225 452
200–299 100 66 7 267 576
100–199 301 250 6 309 745
90–99 66 75 5 331 908
80–89 54 68 4 519 1402
70–79 89 100 3 687 1923
60–69 103 134 2 1282 4069
50–59 131 191 1 2536 9829

Дані таблиці слід інтерпретувати так: у корпусі офіційно-ділового стилю зафіксовано 16 слів і 14
словоформ із частотністю вищою за 2 000; 2 слова і 1 словоформу із частотністю від 1500 до 1999; 11 слів і
4 словоформи із частотністю від 1000 до 1499 і т.д. Розділ IV. Функціональна семантика лексичних і фразеологічних одиниць

187
Далі доцільно підрахувати співвідношення між ранґом слів (R) та величиною тексту, який вони
покривають (П). Це покаже мінімальну частоту, потрібну для покриття певної частини тексту. Обчислення
велися так: в ЧС за спадом частот бралося послідовно перших за ранґом (тобто найчастотніших) декілька (n)
позицій, сума (F) їхніх абсолютних частот (Fi) ділилася на загальну кількість слововживань у корпусі ЧС
розмовно-побутового стилю (N = 300 000) і множилася на 100% (оскільки нам зручно оперувати результатом у
відсотках):
П = F / N Ч 100%
F = F1 + F2 + … + Fn =
1
n
i
i
F
=

Наприклад, для перших за ранґом 25 слів сума абсолютних частот становить 78 421 (визначено за
Списком слів за спадом частот), тоді формула набуває вигляду:

П = 78 421 / 300 000 Ч 100% = 26,14%

Результати обчислень для слів усіх ранґів подано в таблиці 2.
Таблиця 2.
Співвідношення між ранґом слова та величиною покриття тексту
(за даними ЧС офіційно-ділового стилю)
Ранґ Покриття,% Ранґ Покриття,% Ранґ Покриття,%
1 3.87 200 52.23 3000 94.30
5 11.58 300 58.97 4000 96.57
10 17.10 400 64.10 5000 97.87
25 26.14 500 68.14 6000 798.69
50 33.20 1000 80.44 7000 99.25
75 38.33 1500 86.49 8000 99.62
100 42.17 2000 90.12 9045 100.00

Із Таблиці 2 видно, що перших за частотністю 25 слів покривають 26% тексту, перших 100 слів — 42%,
1000 слів — 80% тексту офіційно-ділового стилю. Далі збільшення кількості слів дуже повільно збільшує
покриття тексту. Такі результати є цінними для укладання лексичного мінімуму та лексичної основи
української мови.
Описаний та проаналізований у статті ЧС офіційно-ділового стилю створений у рамках комплексного
статистичного дослідження функціональних стилів української мови (див. [Бук 2004, с. 13–56]). Під час його
укладання ми намагалися враховувати всі чинники, від яких залежать основні статистичні характеристики
тексту (величина вибірки, принципи лематизації слів тощо) так, щоб можна було їх порівняти із ЧС всіх інших
стилів української мови. Порівняння статистичних характеристик ЧС, укладених за одною методикою, може
слугувати методом перевірки достовірності корпусів частотних словників і є цікавим предметом окремого
дослідження у майбутньому.

Література
1. Алексеева и др. 1983: Частотный словарь общенаучной лексики немецкого языка. / Составители
Алексеева М. М., Березина И. П., Борхсениус Е. В. и др.–– М.: Наука, 1983.— 184 с.
2. Бибик та ін. 1999: Універсальний довідник-практикум з ділових паперів / Бибик С. П., Лихно І. М.,
Пустовіт Л. О., Сюта Г. М. / 2-ге видання, доп. і виправл.— К.: Довіра: УНВЦ “Рідна мова”, 1999.— 507 с.—
(Б-ка держ. службовця. Деж. мова і діловодство).
3. Бук 2004: Бук С. Н. Лексична основа української мови: виділення та системно-структурна
організація.— Рукопис. Дис… канд. філол. наук: 10.02.01 / Львівський національний університет імені Івана
Франка.— Львів, 2004.— 281 с.
4. Бук 2005а: Бук С. 3 000 найчастотніших слів наукового стилю української мови.— Львів: Львівський
національний університет імені Івана Франка, 2005.—192 c.
5. Бук 2005б: Бук С. 3 000 найчастотніших слів розмовно-побутового стилю української мови.— Львів:
Львівський національний університет імені Івана Франка, 2005.— 180 c.
6. Дарчук 2003а: Частотний словник сучасної української публіцистики / Дарчук та ін. // Лінгвістичний
портал MOVA.info.— 2003.— [Цит. 02 жовтня 2003].— Доступно з
<http://www.mova.info/freqcard.aspx?l1=98&sl=publicist>; <http://www.mova.info/Page2.aspx?l1=91>.
7. Дарчук 2003б: Дарчук Н. П. Частотний словник сучасної поетичної української мови.— [Цит. 02
жовтня 2003].— Доступно з www.philolog.univ.kiev.ua/wins/ chast/chast.htm. ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 14

188
8. Дарчук, Грязнухіна 1996: Дарчук Н. П., Грязнухіна Т. О. Частотний словник сучасної української
публіцистики // Мовознавстово.— 1996.— №4–5.— С. 15–19.
9. Діденко 1998: Діденко А. Н. Сучасне діловодство: Навчальний посібник.— К.: Либідь, 1998.— 256 с.
10. Засорина 1977: Частотный словарь русского языка / Под ред Л.Н.Засориной.– М.: Рус. яз., 1977. – 935 с.
11. Молдованов, Сидорова 1992: Молдованов М. І., Сидорова Г. М. Сучасний діловий документ: зразки
найважливіших документів українською мовою.— К.: Техніка, 1992.— 400 с.
12. Пономарів 1992: Пономарів О. Д. Стилістика сучасної української літературної мови.–– К.: Либідь,
1992.— 248 с.
13. Фрумкина 1964: Фрумкина Р. М. Статистические методы изучения лексики.– М.: Наука, 1964.– 115 с.
14. Штейнфельд 1963: Штейнфельд Э. А. Частотный словарь современного русского литературного
языка. 2500 наиболее употребительных слов.— Таллин, 1963.— 316 с.
15. Buk, Rovenchak 2004: Buk, S. N., Rovenchak, A. A. Rank–Frequency Analysis for Functional Style Corpora
of Ukrainian // Journal of Quantitative Linguistics.— 2004.— V. 11, No. 3.— P. 161–171.
16. Leech et al. 2001: Leech G., Raygon P., Wilson A. Word Frequency in Written and Spoken English. Based
on the British National Corpus.— Pearson Educational Ltd., 2001.— 304 p.
17. Saloni 1990: Słownik frekwencyjny polszczyzny wspуłczesnej / red. Zygmunt Saloni.— Krakуw: Uniw.
Jagell., 1990.— T. 1.— 552 s., T. 2.— 980 s.

In the article, the process of Official Genre Frequency Dictionary of Modern Ukrainian Language compilation
is described. The selection of the sources and the volume of sampling for the research is grounded. The lists of main
statistical characteristics, such as the variety, exclusiveness, concentration indices are given. The word and wordform
frequency distribution as well as the relation between the word rank and text coverage is calculated.
Key words: frequency dictionary, word frequency, word occurence, sampling, lemmatization, absolute and
relative word frequency, statistical description of vocabulary.
Надійшла до редакції 21 вересня 2005 року.

Категорія: Лінгвістичні студії: Збірник наукових праць.

Літературне місто - Онлайн-бібліотека української літератури. Освітній онлайн-ресурс.