Лінгвістичні студії: Збірник наукових праць.

Алексей Кретов, Инна Меркулова, Юлия Суворова — ДЛИНА СЛОВА КАК ФУНКЦИОНАЛЬНЫЙ ПАРАМЕТР СЛАВЯНСКОЙ ЛЕКСИКИ

У статті проаналізовано функційне ядро лексики слов’янських літературних мов на підставі
словникових даних. Визначено індекс унікальності слів як своєрідний показник динамічності лексико-
семантичних систем слов’янських мов. Установлено індекс зв’язку між лексиконами, що дає змогу кількісно
оцінити близькість лексиконів слов’янських мов.
Ключові слова: індекс унікальності, індекс зв’язку між лексиконами, слов’янські мови.

МЕТОД ИССЛЕДОВАНИЯ
Функциональный аспект лексики принято оценивать по (абсолютной или относительной) частоте
появления слова в тексте. Эта оценка лукава: она очень сильно зависит от содержания текста, которое, в свою
очередь, через создателя и адресатов привязано ко времени и месту.
Есть способ более объективно оценить функциональную активность слова.
Суть его состоит в следующем. Традиционным способом выявления тематически маркированной
лексики является частота словоформ (или их множеств, относящихся к одному слову-лемме). При этом
предполагается, что чем чаще употребляется слово в тексте, тем важнее оно для содержания данного текста.
Это справедливо только отчасти: так, например, самым употребительным словом русского языка является союз
и. Очевидно, что специфики текста он не отражает.
Исключив из рассмотрения служебные и дискурсивные слова, мы тем самым уже освободим частотную
верхушку словаря от информационного шума.
Но есть и ещё одно обстоятельство. Ещё в первой половине ХХ века американский лингвист
Дж. К. Ципф установил зависимость, существующую между частотой слова (словоформы) и его длиной: чем
чаще употребляется слово, тем оно короче и наоборот [Zipf 1949; 1965]. Можно сказать, что от частого
употребления слова «снашиваются» – уменьшаются в размере (длине). Но для этого требуется, чтобы слова
были частотными устойчиво и продолжительно.
История лексикографии свидетельствует о том, что частотный словарь появляется в национальной
лексикографии, как правило, после толкового словаря, тогда как первым в любой национальной лексикографии
появляется двуязычный словарь. Это обстоятельство представляется немаловажным, если мы имеем в виду
перспективу сопоставления лексико-семантических систем славянских языков с лексико-семантическим
системами других индоевропейских языков. Для большей части иранских и индийских языков не существует не

1 Исследование осуществлено при поддержке Российского гуманитарного научного фонда (РГНФ) проект
07-04-00036а.
© Кретов О.О., Меркулова І.О., Суворова Ю.А., 2009 Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

241
только частотных словарей, но и одноязычных толковых. Подавляющее большинство их (и всех языков мира)
представлено двуязычными словарями.
Это обстоятельство делает насущным обращение к методу извлечения лексико-семантической системы
из двуязычных словарей (в идеале) без обращения к другим источникам информации.
Таким методом является косвенная оценка функциональной активности слова по его длине,
предложенная В. Т. Титовым [Титов 2002; 2004], основывающаяся на зависимости длины слова от его
частотности, выявленной Дж. К. Ципфом [Zipf 1949; 1965].
У этого метода два недостатка: (1) краткость может быть обусловлена фонетическими процессами, не
связанными с частотностью слова и (2) кратким может оказаться редкое заимствованное (например, ст.-сл.<
греч. иа ‘фиалки’; частота 1 – Супр 495, 16 [1:245]; русск. < франц. ас ‘первоклассный лётчик (вообще
профессионал)’; русск. < англ. гол; русск. < тюрк. хан), стилистически или тематически (русск. муз.< итал. до,
ре, ми, фа, ля, си) маркированное слово.
Слова второй группы могут и должны отсеиваться с учётом соответствующих помет. Даже если
краткость слова не будет связана с его высокой употребительностью, случайность его вхождения в
параметрическое ядро словаря в итоге будет скорректирована остальными параметрами – синтагматическим,
парадигматическим и эпидигматическим, что оттеснит слово на его законное место – в периферию словаря.
Исходя из изложенных выше соображений, мы проанализируем функциональное ядро лексики
славянских литературных языков, ориентируясь прежде всего на данные славянско-русских словарей. Для
русского языка – по необходимости – это будут одноязычные или русско-иноязычные словари.
ЗАВИСИМОСТЬ РЕЗУЛЬТАТА ИССЛЕДОВАНИЯ ОТ СЛОВАРЯ-ИСТОЧНИКА.
Прежде, чем обратиться к анализу малых словарей, убедимся, что они дают информацию, не
противоречащую данным больших словарей.
Для этого обратимся к наиболее доступным для нас русским источникам.

0
10000
20000
30000
40000
50000
60000
70000
80000
90000
100000
Ряд1 88172 38196 22970 11327 7016 4182
123456

Рис. 1. Соотношение величин словников анализируемых словарей русского языка.
1 – «Толковый словарь русского языка» в 4-х тт. /Под ред. Д.Н.Ушакова, М.: ОГИЗ, 1935-1940;
2 – «Словарь русского языка» С.И.Ожегова (Электронная версия, используемая в компьютерной системе
СтарЛинг С.А.Старостина); ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 18

242
3 – «Словарь языка Пушкина» в 4-х тт. (по данным словаря А.А.Кретова и Л.Н.Матыциной «Морфемно-
морфонологический словарь языка А.С.Пушкина». — Воронеж, ЦЧКИ, 1999);
4 – «Русской-финский словарь» Арнольда Хилтунена и Уллы-Лийсы Хейно (SUOMI VENДJД SUOMI
Laatineet ARNOLD HILTUNEN JA ULLA-LIISA HEINO APN:n muun henkilцkunnan avustamina WERNER
SЦDERSTRЦM OSAKEYHTIЦ Porvoo, 1968. (“PUNAISET SANAKIRJAT”).);
5 – Словник словоформ поэзии А.В.Кольцова;
6 – Словник лемм поэзии А.В.Кольцова (по «Обратному частотному словарю поэтических произведений
А.В.Кольцова Р.К.Кавецкой и А.А.Кретова, Воронеж: Воронежский государственный университет, 1996).
Сравним распределение слов по длине в этих словарях. Для сопоставимости представим данные не в
абсолютных, а в относительных (делёных на общее число единиц в словнике) величинах.
0,00000
0,05000
0,10000
0,15000
0,20000
0,25000
1 2 3 4 5 6 7 8 910111213141516171819202122232425262728
длина в звуках
Д
о
л
я

с
л
о
в

т
а
к
о
й

д
л
и
н
ы
Рус_Ушаков РУС_ОжСт РУС_Пушкин РУС_Фин Кольцов _СФ Кольцов_Л

Рис.2. Зависимость доли слов от их длины в русских словарях.
На Рис.2 хорошо видно, что прирост слов осуществляется, главным образом, за счёт слов большой
(больше оптимальной) длины. Это сглаживает распределение и смещает его максимум в сторону бОльших
значений. Так, если у малых (5-15.000 слов) и средних (20-40.000 слов) максимум в русском языке приходится
на слова длиной в семь звуков, то в большом (60-100.000 слов) словаре, а именно – в словаре Ушакова с его
88.172 словами максимум смещается в бОльшую сторону и равен уже не семи, а восьми звукам. Этот
максимум, видимо, и следует считать оптимальной длиной слова в том или ином языке. Таким образом, мы
получили одну из величин для типологической характеристики лексики – Оптимальную длину слова.
Следует обратить внимание на высокую устойчивость распределения: Словарь поэзии А.В.Кольцова
меньше Словаря Ожегова в 9,5 раз. И тем не менее оба указывают одну и ту же максимальную долю – 7 звуков.
Весьма показательно и то, что распределение лемматизированных слов и распределение словоформ (текстовых
слов) не противоречат друг другу. Различие состоит лишь в том, что в словаре словоформ ярче выражен
оптимум: больше разрыв между словоформами длиной 5-7 звуков и всеми остальными словоформами,
распределёнными, фактически одинаково.
В итоге мы получаем парадоксальный вывод: большие словари смазывают, растушовывают, скрывают и
искажают типологическую характеристику языка. Это – по большому счёту – естественно: ведь разрастаются
словари главным образом за счёт иносистемных (по преимуществу – заимствованных слов или за счёт
словосочетаний, оформленных как одно слово).
Таким образом, для типологической характеристики лексики более пригодны малые и средние словари, а
не большие. В них специфика лексико-семантической системы данного языка представлена в более чистом,
незасорённом и незамутнённом виде. Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

243
Постараемся показать, что с точки зрения выделения исконного ядра лексики большие словари содержат
больше «шума», чем информации.
Для этого рассмотрим состав слов длиной в один-два звука (Таблица 1).

Таблица 1.
Звуков Рус_Ушаков РУС_ОжСт РУС_Пушкин РУС_Фин Кольцов _СФ Кольцов_Л
1 65 15 18 6 19 24
2 194 330 70 29 38 43

Из слов длиной в 1 звук информативными с точки зрения (пусть не лексической, а грамматической)
типологии являются 6 слов: а, и, к, о, с, у. Словоформы ж < же , б < бы и ль < ли в этом интервале учитываться
не должны в силу своей вторичности и меньшей частотности (это же относится и к более редким вариантам ко,
со, которые не должны фигурировать при анализе слов длиной в два звука). Разделив 6 на 65, мы получим
величину, характеризующую информативность Словаря Ушакова в интервале слов длиной в 1 звук.
А что в интервале двузвучных даёт нам Частотный словарь русского языка, содержащий 5000 наиболее
употребительных слов русского языка? (С.А.Шаров, http://www.artint.ru/projects/frqlist.asp).
Среди этих 5000 двузвучных полнозначных слов лишь 10, и все они – существительные (Таблица 2):
Таблица 2.

Ранг
слова
Частота
ipm
Слово
604 169,37 ум
1712 65,56 ус
2159 50,56 цк
2259 48,23 др
2411 44,81 мк
3283 32,14 ад
3725 27,85 ир
4389 23,20 па
4451 22,71 рф
4668 21,49 ля

Из этих 10-ти 5 слов – аббревиатуры, которые мы принципиально не рассматриваем: (и не только
потому, что они читаются, т.е. произносятся, как «цэка», «эмка» «эрэф») это не столько слова, сколько
сокращённые обозначения слов и словосочетаний, т.е. знаки знаков. В четвёртую тысячу входит религиозный
термин ад, заимствованный из греческого языка. В пятую тысячу употребительных слов входят также не
рассматриваемые нами культурные заимствования: балетный термин па (из франц.) и музыкальный термин ля –
из итальянского.
В первой тысяче встречаем слово ум, во второй – слово ус. Существительные уж и щи в первые пять
тысяч наиболее частотных слов не попали слова: ось — 13.22 на миллион словоупотреблений, щи – 12.06, уж –
1.96 на миллион Ч(астотный словарь русского языка С.А. Шарова; адрес в Интернете:
http://www.artint.ru/projects/frqlist.asp). Размер Корпуса – 16.336.972 словоформ.
Вывод: длина слова позволяет обнаружить не только употребительные ныне слова, но и те слова,
которые долго и устойчиво были употребительными в прошлом.
Показательно, что все полнозначные исконные слова прежде были длиннее: ось < *ak^sis [Mann 1987:12],
ум < *aum-, ус < *(w)ans-, щи < *ski-, а уж < *angis и укоротились под действием фонетических процессов. Из
этого следует, что закон Ципфа начинает действовать с оптимума длины слова, аномальная же краткость
полнозначного слова носит случайный (вызванный фонетическими, а не функциональными причинами)
характер.
Из слов длиной в 2 звука для лексико-семантической типологии русского языка информативны лишь 4
полнозначных исконных слова, не являющихся аббревиатурами: ось, ум, уж и щи. (Словоформу ус словари
русского языка не включают в число лемм, считая её маркированной и отдавая предпочтение словоформе усы).
А разделив 4 на 194 мы получим индекс информативности (ИндИнф) этого словаря в интервале слов
длиной в 2 звука. Аналогично можно вычислить ИндИнф (информативности для соответствующих интервалов
остальных словарей).
Динамика ИндИнф1-2 представлена на Рис.3. ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 18

244
0,00
0,20
0,40
0,60
0,80
1,00
1,20
словари
Д
о
л
я

и
н
ф
о
р
м
а
т
и
в
н
ы
х

с
л
о
в

в

о
б
щ
е
м

ч
и
с
л
е
с
л
о
в

д
а
н
н
о
й

д
л
и
н
ы
Ряд1 0,09 0,40 0,33 1,00 0,32 0,25
Ряд2 0,02 0,01 0,06 0,14 0,11 0,09
Рус_Ушаков РУС_ОжСт РУС_Пушкин РУС_Фин Кольцов _СФ Кольцов_Л

Рис. 3. Динамика индексов информативности в интервалах слов длиной в 1-2 звука
(по данным словарей русского языка)
Сложив значения ИндИнф1 и ИндИнф2, мы получим суммарный ИндИнф для анализируемых словарей,
который позволит выбрать из имеющегося набора словарей наиболее информативный.
0,00
0,20
0,40
0,60
0,80
1,00
1,20
Ряд1 1,14 0,42 0,41 0,39 0,34 0,11
РУС_Фин Кольцов _СФ РУС_ОжСт РУС_Пушкин Кольцов_ЛР_уУсшаков

Рис. 4. Значения индекса информативности русских словарей для слов длиной 1-2 звука. Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

245
Одного взгляда на Рис.4 достаточно, чтобы выбрать наиболее информативный словарь. Это Русско-
финский словарь размером около 11.000 слов. Минимальна информативность у большого словаря – словаря
Ушакова.
Таким образом, для характеристики словаря по функциональному параметру оптимальными являются
малые словари объёмом в 8.000-12.000 слов и наименее информативными – большие.
Проверим полученные результаты на украинском материале, сравнив данные малого и среднего
словарей украинского языка.
0,00000
0,02000
0,04000
0,06000
0,08000
0,10000
0,12000
0,14000
0,16000
0,18000
1 2 3 4 5 6 7 8 910111213141516171819202122232425
Укр_Мал УКР_Дон

Рис.5. Распределение слов по длине (в звуках) в украинско-русских словарях.
Укр_Мал — Ганич Д.И., Олейник И.С. Русско-украинский и украинско-русский словарь. — 6-е стер. изд. — К.: МП
«Феникс», 1992 — 560 с. (12.467 слов)
УКР_Дон — Загнітко А.П., Вінтонів М.О., Данилюк І.Г. Великий українсько-російський і російсько-український словник. –
Донецьк: ТОВ ВКФ «БАО», 2007. – 949 с. (23.286 слов)2

Как мы видим на Рис.5, украинские словари дают ту же картину: в среднем словаре распределение
сдвинуто в сторону бОльших значений по сравнению с малым словарём, в среднем словаре типологически
значимый максимум выражен не так явно и демонстрирует тенденцию к смещению с 8 на 9 звуков.
Следовательно, и тут малый словарь оказывается предпочтительнее.
Исходя из этих соображений, мы и осуществили отбор словарей для сопоставительного анализа.
Соотношение их объёмов представлено на Рис. 6.
Как следует из Рис.6, за двумя исключениями, привлекаемые словари относятся к малым (между 5 и 15
тыс. слов).
Македонский язык представлен Словарём среднего типа, а полабский – словарём сверхмалого типа. В
обоих случаях – по необходимости. При этом естественно было бы воспользоваться более новым Македонско-
русским словарём 2003 года (Македонско-русский словарь / Под общ. ред. Р.П. Усиковой и
Е.В. Верижниковой; сост. Р.П. Усикова, З.К. Шанова, Е.В. Верижникова, М.А. Поварницына. М.: ООО
«Издательство Астрель»; ООО «Издательство АСТ», 2003. 848 с.) вместо морально устаревшего словаря 1963
года, но и этот выбор вынужден: авторам пока что не удалось получить электронной версии новейшего
македонско-русского словаря. Электронная же версия македонско-русского словаря 1963 была создана ими до
выхода в свет новейших македонско-русских словарей.

2 Авторы данного исследования выражают глубокую признательность А.А. Загнитко, М.А.Винтониву и
И.Г.Данилюку за предоставление электронной версии их словаря. ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 18

246
0
5000
10000
15000
20000
25000
30000
35000
М
А
К
Е
Д
Б
Е
Л
О
Р
С
Л
О
В
Е
Н
.
У
кр

ал
Р
У
С

и
н
Ч
Е
Ш
С
Л
О
В
А
Ц
С
Е
Р
Б
С
К
П
О
Л
Ь
С
К
Б
О
Л
ГА
Р
С
Т

Л
А
В
П
О
Л
А
Б

Рис.6. Соотношение размеров (в тыс. слов) привлекаемых к исследованию
славянско-русских словарей.

Распределение слов по длине (в сопоставимых относительных величинах) представлено в таблице 3.

Таблица 3. Распределение слов по длине в словарях славянских языков
Макед. Белор. Словен. Укр Рус. Чеш. Словац. Серб. Польск. Болг. СтСлав. Полаб.
1 0,000 0,000 0,000 0,000 0,001 0,001 0,001 0,001 0,000 0,001 0,000 0,000
2 0,003 0,001 0,001 0,000 0,003 0,008 0,003 0,004 0,003 0,005 0,000 0,001
3 0,017 0,008 0,020 0,012 0,025 0,030 0,025 0,033 0,022 0,028 0,004 0,038
4 0,054 0,027 0,050 0,040 0,055 0,065 0,055 0,069 0,058 0,079 0,045 0,148
5 0,120 0,080 0,103 0,085 0,116 0,138 0,127 0,130 0,109 0,143 0,069 0,246
6 0,158 0,119 0,136 0,117 0,139 0,155 0,152 0,147 0,140 0,155 0,115 0,211
7 0,173 0,158 0,158 0,141 0,156 0,179 0,175 0,160 0,156 0,168 0,145 0,149
8 0,165 0,159 0,169 0,161 0,134 0,153 0,161 0,158 0,154 0,149 0,174 0,111
9 0,135 0,147 0,137 0,142 0,112 0,114 0,120 0,122 0,118 0,108 0,164 0,058
10 0,086 0,117 0,105 0,117 0,084 0,079 0,087 0,082 0,088 0,077 0,120 0,028
11 0,050 0,080 0,061 0,087 0,066 0,040 0,046 0,053 0,065 0,041 0,077 0,007
12 0,023 0,050 0,036 0,049 0,044 0,020 0,026 0,023 0,038 0,024 0,040 0,003
13 0,009 0,029 0,016 0,028 0,028 0,010 0,011 0,011 0,022 0,009 0,022 0,001
14 0,004 0,016 0,006 0,014 0,018 0,006 0,006 0,005 0,013 0,006 0,011 0,000
15 0,002 0,007 0,002 0,005 0,010 0,002 0,003 0,002 0,007 0,002 0,007 0,000
16 0,000 0,002 0,000 0,002 0,005 0,001 0,001 0,001 0,004 0,001 0,003 0,000
17 0,000 0,001 0,000 0,001 0,002 0,000 0,000 0,000 0,001 0,000 0,002 0,000
18 0,000 0,000 0,000 0,000 0,001 0,000 0,000 0,000 0,000 0,000 0,001 0,000
19 0,000 0,000 0,000 0,000 0,001 0,000 0,000 0,000 0,000 0,000 0,001 0,000

Как видим, лишь в полабском максимум приходится на слова длиной в 5 звуков. В остальных языках он
приходится на 7 звуков (македонский, русский, чешский, словацкий, сербо-хорватский, польский, болгарский) Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

247
или на 8 звуков (белорусский, словенский, украинский, старославянский). Как свидетельствует анализ русских
словарей, различие между двумя соседними величинами не следует абсолютизировать.
Графически распределение слов по длине в славянских словарях представлено на Рис. 7.
0
0,05
0,1
0,15
0,2
0,25
0,3
1 2 3 4 5 6 7 8 91011121314151617181920212223
МАКЕД БЕЛОР СЛОВЕН УКР. РУС ЧЕШ
СЛОВАЦ СЕРБСК ПОЛЬСК БОЛГАР СТ-СЛАВ ПОЛАБ
Рис.7. Распределение слов по длине (в звуках) в славянских словарях.
Как мы видим, в целом, распределения (принимая во внимание расхождения в размерах словарей) в
славянских словарях сходны. Выделяется лишь полабский материал в силу своей малочисленности и
разговорной природы.
Рассмотрим другую интегральную и типологически значимую величину – Среднюю длину слова в
словаре данного языка. Для анализируемых славянских языков эта величина представлена ниже на Рис. 8.
0,00
1,00
2,00
3,00
4,00
5,00
6,00
7,00
8,00
9,00
С
р
е
д
н
я
я

д
л
и
н
а

с
л
о
в
а

(
в

з
в
у
к
а
х
)
Ряд1 8,35 8,30 8,27 7,91 7,81 7,77 7,47 7,44 7,33 7,21 7,19 6,06
БелоР СтСлав Укр Рус Польск Словен Макед Словац Серб Чеш Болг Полаб

Рис. 8. Средняя длина слова в славянских языках (по данным словарей). ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 18

248

Прежде, чем интерпретировать полученные данные, проверим на материале русских словарей, насколько
устойчив этот параметр – средняя длина слова, определяемая по словарям (Рис. 9).
0
1
2
3
4
5
6
7
8
9
10
Ряд1 988877
Рус_Ушаков РУС_ОжСт РУС_Пушкин РУС_Фин РусКольцов _СФ РусКольцов_Л

Рис. 9. Средняя длина русского слова по данным русских словарей.

Как видим, Большой словарь (Ушакова) завышает среднюю длину слова – 9 звуков, сверхмалый словарь
(Кольцов) – занижает её, а средние и малые словари согласно указывают на 8 звуков как на среднюю длину
русского слова. Кроме того, при прочих равных в словаре словоформ средняя длина слова меньше, чем в
лемматизированном словаре.
Из этого следует, что средней длине слова в полабском языке не следует особо доверять в силу бедности
материала.
Особо красноречивы показания словарей старославянского и македонского языков. Несмотря на малый
объём словаря, средняя длина старославянского слова больше, чем средняя длина македонского слова по
данным самого большого из рассмотренных словарей. Это – самое надёжное свидетельство того, что
македонское слово в среднем уменьшилось в длине по сравнению со старославянским периодом.
Интересно и то, что, кроме старославянского языка, в числе языков с максимальной средней длиной
слова оказались все восточнославянские. Расхождение в размерах всех словарей, кроме македонского и
полабского не столь велики, чтобы этот параметр мог влиять на среднюю длину слова.
Средняя длина слова уверенно делит живые славянские языки на северные восточнославянские с
польским и южные – южнославянские с чешским и словацким. Такое деление имеет под собой серьёзное
историко-лингвистическое основание. Кроме того, если сделать поправку на объём словаря, можно утверждать,
что за последнее тысячелетие (по сравнению со старославянским языком) средняя длина слова в славянских
языках сократилась.
Если (в значительной степени условно) принять старославянский язык за точку отсчёта, можно
проследить, в каком направлении и в какой степени эволюционировала средняя длина слова в славянских
языках (Рис. 10). Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

249
-2,5
-2
-1,5
-1
-0,5
0
0,5
Ряд1 0,05 0 -0,03 -0,39 -0,5 -0,53 -0,83 -0,87 -0,97 -1,09 -1,11 -2,24
БелоР СтСлав Укр Рус Польск Словен Макед Словац Серб Чеш Болг Полаб

Рис. 10. Динамика средней длины слов в славянских языках относительно старославянского языка.
Учитывая различия в объёмах словарей-источников, рост средней длины белорусского слова по
сравнению со старославянским представляется эфемерным, тогда как сокращение длины славянских и
особенно – южнославянских языков (с примыкающими к ним чешским и словацким) представляется
несомненной реальностью. При этом словенский язык представляется своего рода промежуточным звеном,
соединяющим северно- и южнославянские языки. Контраст между средней длиной слова в старославянском и
полабском словарях, кроме указанных выше причин, обусловлен ещё и контрастом между письменным
литературным языком и устным языком повседневного общения, каким и являлся полабский на момент его
фиксации.
Исследуем устойчивость и изменчивость лексико-семантических систем славянских языков на материале
слов длиной в 2 и 3 звука.
Объектом нашего анализа будут существительные, прилагательные и глаголы. Прочие части речи из
рассмотрения исключаются. Отсеиваются также онимы – этнонимы и прочие. Отсеиваются поздние,
проникшие в славянские языки после распада славянской общности заимствования (преимущественного нового
времени): англизмы, галлицизмы и прочие романизмы, германизмы, тюркизмы, эллинизмы и т.д.
Для того, чтобы обеспечить сопоставимость материала современных славянских языков и
старославянского из старославянского взяты слова длиной в 4 звука (но не все, а лишь такие, которые содержат
редуцированные (Ъ, Ь). Слова типа поле или рЪка нами не рассматривались. Общее количество анализируемых
слов в 11 славянских языках (материал полабского языка в силу его специфичности не рассматривается) – 2014.
Поскольку объектом нашего исследования является устойчивость лексико-семантических систем,
выделим те случаи, когда форма и значение слов остались неизменными. При этом неизменность формы
определяется как генетическое тождество морфемного состава слова, а неизменность содержания – тождеством
или близостью дефиниций этих слов в славянско-русском словаре. Изменение значения у слова или передача
того же значения другим словом (синонимом) считается проявлением динамики лексико-семантической
системы. Динамика же фонетической системы при анализе лексико-семантических процессов во внимание не
принимается.
В рассматриваемом интервале одно и то же слово может встретиться не более 11 раз (по числу
анализируемых языков). Самые устойчивые слова рассматриваемого интервала – дом и рог. ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 18

250
Таблица 4.
Язык Слово Значение Слово Значение
1. белор дом м дом рог I м рог
2. болг дом м дом рог м рог
3. макед дом м дом рог м рог
4. польск dom m дом rуg рог
5. рус дом м дом рог м рог
6. серб дом м дом рог м рог
7. словац dom m дом roh m рог
8. словен dom m дом rog m рог
9. СтСлав домъ м дом рогъ рог
10. укр дім м дом ріг м рог
11. чешск ůdm m дом roh m рог

Относительная устойчивость слов может измеряться числом языков, в которых представлено то или иное
слово. В нашем материале оно изменяется в интервале от 11 до 1.
Приведём список остальных дву-, трёхзвучных слов, встречающихся в 6 и более языках (в качестве
примера даются слова русские слова, в противном случае – язык слова-примера указывается).
В 9 словарях-источниках: ряд I ряд, дым м дым, день м день, бог м бог, око с глаз, зуб м зуб, болг. ида I
гл идти (в данном и некоторых других случаях сказался формальный подход к выделению корпуса кратких
слов: в русском языке словоформа идти состоит из четырёх звуков), нож м нож; в 8 словарях-источниках: бой
м бой, белор. рэч вещь, лед м лёд, лук м лук (оружие) , мак м мак, мед м мёд, ночь ж ночь, печь ж печь,
печка, сон м сон, суд м суд, сын I м сын; в 7 словарях-источниках: бег II м бег, бить гл бить, бок м бок, бык
м бык, вид I м вид, вол м вол, дно с дно, дух м дух, зло с зло, имя с имя, белор. кош м корзина, лес м лес,
меч м меч, мыть гл мыть, нос м нос, пол III неизм пол, половина, пот м пот, рак I м рак зоол., сол ж соль,
белор. кут угол, шво шов, шум м шум; в 6 словарях-источниках: бич м бич, боб м боб, век м век, дать гл
дать, дуб м дуб, еж м ёж, кус м кусок, лев м лев, лен I м лён, мех мех; мешок, мышь ж мышь, ось ж ось,
пить гл пить, раб м раб, речь ж речь, род м род, макед. лаг м роща, сад сад, сок м сок, макед. тек II м
течение, ухо с ухо, шить II гл шить, юг м юг.
Полагаем, что аналогичное исследование, предпринятое на всём корпусе славянских словарей могло бы
дать полезную для лексикостатистики и компаративистики информацию об относительной устойчивости
значений.
Отношение количества слов, встретившихся в материалах одного языка, к общему числу слов данного
языка в рассматриваемом материале можно принять за Индекс уникальности (ИндУ) лексики данного словаря
источника в данной пробной выборке.
Значения индекса уникальности представлены на Рис.11.
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
Языки
Д
о
л
я

у
н
и
к
а
л
ь
н
ы
х

с
л
о
в
Ряд1 0,48 0,46 0,36 0,36 0,35 0,33 0,31 0,28 0,21 0,19 0,17
СтСлав макед рус польск белор серб словен словац чешск болг укр
Рис. 11. Значения Индекса уникальности в славянских словах длиной 2-3 звука*.

* Для старославянского языка сделано оговоренное выше исключение. Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

251
Индекс уникальности может рассматриваться как своего рода показатель динамичности лексико-
семантической системы. Отличие старославянского от живых славянских языков в особом комментарии не
нуждается. Большой ИндУ македонского языка вызван объёмом словника, в три раза превышающим словники
остальных словарей. Минимальные значения ИндУ украинского, болгарского и чешского материала косвенным
образом свидетельствуют о высокой устойчивости славянского ядра в этих языках.
Однако особый интерес представляет Индекс связи между лексиконами, поскольку он позволяет
количественно оценить близость лексиконов славянских языков.
Таблица 5. Сила связи между лексиконами славянских словарей (слова длиной в 2-3 звука*).
Язык макед рус СтСлав серб польск болг словац укр чешск словен белор
макед 1,000 0,334 0,320 0,552 0,276 0,681 0,361 0,357 0,379 0,440 0,154
рус 0,334 1,000 0,320 0,321 0,489 0,506 0,440 0,675 0,421 0,280 0,404
СтСлав 0,320 0,320 1,000 0,288 0,270 0,416 0,295 0,279 0,368 0,240 0,173
серб 0,552 0,321 0,288 1,000 0,282 0,440 0,325 0,273 0,337 0,427 0,115
польск 0,276 0,489 0,270 0,282 1,000 0,271 0,386 0,344 0,411 0,267 0,365
болг 0,681 0,506 0,416 0,440 0,271 1,000 0,277 0,292 0,284 0,333 0,154
словац 0,361 0,440 0,295 0,325 0,386 0,277 1,000 0,292 0,621 0,200 0,154
укр 0,357 0,675 0,279 0,273 0,344 0,292 0,292 1,000 0,295 0,200 0,346
чешск 0,379 0,421 0,368 0,337 0,411 0,284 0,621 0,295 1,000 0,133 0,096
словен 0,440 0,280 0,240 0,427 0,267 0,333 0,200 0,200 0,133 1,000 0,058
белор 0,154 0,404 0,173 0,115 0,365 0,154 0,154 0,346 0,096 0,058 1,000
Слов 359 311 250 212 174 166 166 154 95 75 52

Как получены приведённые выше индексы? Мы исходим из того, что если, например, нам встречаются
рус. тын ‘тын, плетень, забор’ и укр. тин м ‘тын, плетень, забор’, то это свидетельствует о наличии связи
одной связи между лексиконами русского и украинского языков. Если же нам встречаются рус. мах ‘мах,
размах’, укр. мах ‘мах, размах’, макед. мав ‘мах, размах’, то это уже свидетельствует о наличии связи в трёх
парах языков: русского с украинским, русского с македонским и македонского с украинским. Аналогичным
образом можно определить наличие связей для слов, встречающихся в 4 и более языках. Сложив все связи
между парами языков и разделив их на число слов в меньшем множестве, мы получаем Индекс связи
лексиконов (разумеется, только на привлекаемом к анализу множестве лексем). Последняя оговорка должна
предостеречь читателя от соблазна распространить полученные результаты на отношения словарей и языков в
целом.
Между тем, даже значения индекса связи, полученные на ограниченном множестве выглядят довольно
правдоподобно.
Македонская лексика теснее всего связана с болгарской, сербской и словенской, а слабее всего – с
белорусской и польской.
Русская лексика имеет тесно связана с украинской и болгарской и слабее всего – со словенской.
Старославянская лексика теснее всего связана с болгарской, македонской и русской и менее всего с
лексикой белорусского литературного языка, созданного на народной, а не на церковнославянской основе и
словенского языка, носители которого не связаны через православие со старославянским языком. Особенно
интересен факт отмеченности связи старославянской лексики с чешской, что на фоне ярко выраженных связей
чешского языка с южнославянскими заставляет вспомнить о «южнославянском поведении» чешского языка в
группах tort-tоlt.
Сербский язык тесно связан с македонским, болгарским, словенским и чешским (!) и слабо – с
белорусским, украинским и польским.
Польский лексикон самую сильную связь имеет с русским, а не с чешским (второе место), как следовало
бы ожидать. Полагаем, что это вполне коррелирует с принадлежностью русского языка севернославянской
группе, а чешского – южнославянской группе языков. То, что мы сознательно устранили из рассмотрения
поздние заимствования, позволило обнаружить относительно ранние отношения славянских языков,
коррелирующие со свидетельствами фонетического уровня. После русского следуют вполне ожидаемые связи:
с чешским, словацким, белорусским и украинским.
Для болгарского лексикона самая сильная связь – с македонским, на втором месте – с русским, и лишь
затем – с сербским и старославянским. Следует сказать, что болгарский – один из двух литературных языков,
для которого лексическая связь со старославянским является отмеченной. Вторым таким языком является
чешский. ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 18

252
Словацкая лексика ближе всего к чешской, на втором месте – русская, на третьем – польская, а на
четвёртом – несколько неожиданно – македонская.
Украинский лексикон близок к русскому, за которым следует… не белорусский и не польский, а –
македонский.
Чешский язык ближе всего со словацким, что понятно и ожидаемо, а на втором месте по близости
оказывается не польский (он на третьем), а русский. Следующие места занимают южнославянские языки:
македонский, старославянский и чешский. Наличие старославянского языка среди лексически близких языков
указывает не только на южнославянские связи чешского языка, но и на наличие исторической преемственности
между старославянским и литературным чешским языком.
Самые сильные связи у словенского языка с македонским, сербским и болгарским, но в числе
отмеченных также связи с севернославянскими языками: русским и польским.
Белорусская лексика ближе всего к русской, польской и украинской. Знающие историю белорусского
народа и географическое расположение Белоруссии, такому набору связей не удивятся.
Графический эквивалент проанализированной таблицы представлен на Рис.12.
0,000
0,100
0,200
0,300
0,400
0,500
0,600
0,700
0,800
макед рус СтСлав серб польск болг словац укр чешск словен белор
языки
Д
о
л
я

с
о
в
п
а
д
е
н
и
й
рус макед болг польск серб укр словац
чешск СтСлав словен белор

Рис. 12. Сила связи славянских лексиконов (слова длиной 2-3 звука).

В нашем изложении к отмеченным мы относили связи со значением выше среднего для данного языка.
Поскольку среднее значение индекса связи для языка указывает силу его интегральной лексической близости
для данного набора языков, целесообразно рассмотреть его отдельно (Рис. 13).
Среднее значение СреднИндСвязи для славянских языков – 0, 32757. К нему близки польский, сербский,
украинский, словацкий и чешский. Ниже этой границы, относящей языки к периферии, располагаются
словенский и белорусский. Причём низкий индекс белорусской лексики, по-видимому, характеризует не
столько сам язык, сколько словарь-источник в исследованном интервале лексики. Выше среднего имеют индекс
болгарский, македонский и русский языки. Учитывая восточно-южнославянскую двуприродность русского
литературного языка, его максимальный индекс, обеспечивающий широкие связи, как северно-, так и с
южнославянским языками, представляется закономерным.
Повторим ещё раз, что полученные на ограниченном лексическом материале результаты носят, хотя и
правдоподобный, но всё же предварительный и частный характер, в силу чего ни в коей мере не могут
трактоваться как характеристики ни каждого отдельно взятого словаря, ни лексики каждого отдельно взятого
языка, ни, тем более, каждого славянского языка в целом.
Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

253
0,00000
0,05000
0,10000
0,15000
0,20000
0,25000
0,30000
0,35000
0,40000
0,45000
Ряд1 0,41897 0,38543 0,36540 0,33595 0,33587 0,33539 0,33514 0,33453 0,29694 0,25777 0,20192
рус макед болг польск серб укр словац чешск СтСлав словен белор

Рис. 13. Среднее значение индекса связи для славянских языков

Литература
1. Титов В.Т. Общая квантитативная лексикология романских языков (Монография) / В.Т. Титов . —
Воронеж: Изд-во Воронеж. гос. ун-та, 2002. — 240 с.
2. Титов В.Т. Частная квантитативная лексикология романских языков: Монография / В.Т.Титов. –
Воронеж: Изд-во Воронеж. гос. ун-та, 2004.–552 с.
3. Mann Stuart E. An Indo-European Comparative Dictionary / by Stuart E. Mann. – Hamburg: Buske, 1984-
1989. – 1683 p.
4. Zipf G.K. Human Behavior and the Principle of Least Effort / Zipf G.K. – Cambridge: Addison-Wesley
Press, 1949. – 573 p.
5. Zipf G.K. The Psycho-Biology of Language an introduction to dynamic philology / Zipf G.K. – Cambridge:
Mass. MIT Press, 1965. – 336 p.
Словари-источники
1. Polański K., Sehnert J. Polabian-English Dictionary. – The Hague; Paris, 1967.
2. Sever, Joћe, Plotnikova, Olga Sergejevna. Rusko-slovenski in slovensko-ruski moderni slovar = Russko-
slovenskij i slovensko-russkij sovremennyi slovar’ / 1. nespremenjena izd., 4. natis. – Ljubljana: Cankarjeva zaloћba,
2006. – (Zbirka Moderni slovarji)
3. Благова Э., Цейтлин Р.М., Геродес С., Панцерова Л., Бауэрова М. Старославянский словарь (по
рукописям X–XI веков): около 10 000 слов. – М.: Рус.яз., 1994. – 842 с.
4. Ганич Д.И., Олейник И.С. Русско-украинский и украинско-русский словарь. – 6-е стер. изд. – К.: МП
«Феникс», 1992. – 560 с.
5. Грабчиков С.М. Белорусско-русский словарь. Для сред. школы. Под ред. А. Е. Баханькова. 2-е изд.,
переработанное. Мн., «Нар. асвета», 1975. — 240 с.
6. Гудков, В.П. Сербско-русский и русско-сербский словарь / В.П. Гудков, С. Иванович.- 5-е изд.,
стереотип. – М.: Рус. Яз.- Медиа, 2006.- 438 с.
7. Длуги Д.А., Раевский Б.Г., Буравцева Н.Р. Чешско-русский словарь / Издание 2-ое, стереотип. – М.:
«Советская энциклопедия», 1973.
8. Загнітко А.П., Вінтонів М.О., Данилюк І.Г. Великий українсько-російський і російсько-український
словник. – Донецьк: ТОВ ВКФ «БАО», 2007. – 949 с.
9. Коллар Д., Доротьякова В., Филкусова М., Марушиакова Я. Карманный словацко-русский словарь:
10 000 слов. / — Изд. 4-ое, испр. и доп. – М.: Русский язык, 1982.
10. Леонидова. М.А. Карманный болгарско-русский словарь. Джобен българско-русски речник: 10.000
слов. — 9-е изд., испр. и доп., М.: Русский язык, 1986. – 468 с.
11. Митронова И.Н., Синицына Г.В. Карманный польско-русский словарь и русско-польский словарь /
16-е изд., стереотип. — М.: Рус.яз., 1983. – 592 с. ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 18

254
12. Толовски Д., Иллич-Свитыч В.М. Македонско-русский словарь: с приложением краткого
грамматического справочника. – М., 1963.

The article analyzed the functional core vocabulary Slavic literary language based on language data. Detected
unique code words as a dynamic figure lexical-semantic system of Slavic languages. Index set of communication
between leksykonamy that allows quantitative estimate proximity vocabulary of Slavic languages.
Keywords: unique index, index of communication between lexicons, Slavic languages.
Надійшла до редакції 16 жовтня 2008 року.

Категорія: Лінгвістичні студії: Збірник наукових праць.

Літературне місто - Онлайн-бібліотека української літератури. Освітній онлайн-ресурс.