Лінгвістичні студії: Збірник наукових праць.

Ірина Волошиновська — МОДИФІКАЦІЯ ФУНКЦІЇ РОЗПОДІЛУ ЛАВАЛЕТТІ ЯК АДАПТАЦІЯ РАНГОВО-ЧАСТОТНОГО ЗАКОНУ ЗІПФА ДЛЯ ТЕКСТОВОГО КОРПУСУ ПРИРОДНОЇ МОВИ

У даній роботі проводиться пошук оптимальної функції для апроксимації розподілу ймовірностей слів у
природній мові. Проаналізовано рангово-частотну функцію розподілу Зіпфа та її модифікації. На основі
функції Лавалетті запропоновано модифіковану рангово-частотну залежність для апроксимації рангово-
ймовірнісного розподілу слів у текстовому корпусі природної мови. Здійснено спробу семантичної
інтерпретації параметрів запропонованої апроксимаційної функції.
Ключові слова: закон Зіпфа, закон Лавалетті, рангово-частотний розподіл слів, корпус текстів
природної мови.

Рангово-частотний закон Зіпфа та його модифікації
На початку 1930-их рр. лінгвіст Гарвардського університету Джордж К. Зіпф запропонував емпіричний
закон розподілу слів природної мови [Zipf 1949]. Згідно з рангово-частотним законом Зіпфа, ймовірність f
появи слова в тексті є обернено пропорційною до рангу слова k у списку n окремих слів, впорядкованих у
спадному порядку відносно частоти їх появи:
(;,)fks nks =i−∑ = −n si1, (1)
де показник степеня s дорівнює 1 у випадку класичного рангово-частотного розподілу Зіпфа. Насправді, важко
визначити авторство ідеї, яка лягла в основу емпіричного закону Зіпфа.
Закономірними є спроби науковців розвинути та удосконалити вже існуючі закони [Simkin 2006]. Так,
початки рангово-частотного розподілу Зіпфа були закладені ще до 1912 року Есту (Jean-Baptiste Estoup), який
аналізував частоту появи графем у стенографії [Estoup 1912]. Незважаючи на велику кількість модифікацій
рангово-частотного закону Зіпфа, важко підібрати оптимальну функцію для опису розподілу слів у текстовому
корпусі природної мови. Більшість із запропонованих функцій розподілу передбачають 2 і більше
апроксимаційних параметри. Однак поряд із труднощами в інтерпретації фізичного змісту апроксимаційних
параметрів, покращення якості відтворення рангово-частотного розподілу слів у природній мові все ще
залишається бажаним [Montemurro 2001].
Рангово-ймовірнісний закон Зіпфа (1) відображається прямолінійним спадом в координатній системі
двох відповідних логарифмічних шкал (Рис. 1), який не може забезпечити точного відтворення розподілу слів у
природній мові. Суцільна лінія на Рис. 1 відображає розподіл Зіпфа f(k;1.06,12682) для художнього твору
Ш. Бронте “Джейн Ейр”. Апроксимована залежність задовільно узгоджується з ймовірнісним розподілом слів із
середнім рангом k, проте значні відхилення спостерігаються для малих та великих значень рангу k. Єдиний
апроксимаційний параметр показника степеня s у функції розподілу Зіпфа (1) дозволяє адаптувати лише кут
нахилу кривої підгонки в логарифмічній системі координат.
© Волошиновська І.А., 2008 Розділ IХ. Прикладна лінгвістика: напрями й аспекти дослідження

335

Рис. 1. Результати апроксимації рангово-ймовірнісного розподілу слів (Ш. Бронте «Джейн Ейр») з
використанням базового закону Зіпфа та його модифікацій, запропонованих Мандельбротом, Юла та
Саймоном.
Математик Бенуа Мандельброт узагальнив закон Зіпфа та вдосконалив функцію опису рангово-
частотного розподілу слів
(;,,)()fkq snkqs= +i− ∑ =−+n (i sq1 ), (2)
ввівши додатковий параметр q, що покращує результати апроксимації для природної мови в діапазоні малих
значень рангу k [Mandelbrot 1953]. Штрихова лінія на Рис. 1 представляє результат підгонки f(k;2.35,1.06,12682)
з використанням розподілу Мандельброта. Функція Мандельброта (2) добре описує розподіл слів в діапазоні
малих та середніх значень рангу k, однак, не забезпечує можливості відтворення розподілу слів з високим
рангом k (Рис. 1, штрихова лінія).
Функція розподілу, запропонована Адні Юла та Гербертом Саймоном [Simon 1955]:
fkkρρ ρ= Β+ (; )(,1) (3)
передбачає підгонку параметра ρ (ρ>0) і дозволяє покращити результати відтворення в області великих значень
рангу k (Рис. 1, пунктирна лінія). Для діапазону малих значень рангу запропоновано двопараметричне
узагальнення розподілу Юла-Саймона:
(,1)
1
(; Β,)1 +

= − ρ
α
ρ
fkρα ρ α k
, (4)
де бета-функція замінена неповною бета-функцією, 0≤α<1.
Можливість застосування розподілу Юла-Саймона для аналізу роботи програм електронної пошти
обговорено в [Kuperman 2006]. Автори роботи [Zanette 2006] показали, що моделі Зіпфа та Юла-Саймона добре
описують частоту використань нот в музичних творах.
Як видно з Рис. 1, розглянуті функції Зіпфа (1), Мадельброта (2), Юла-Саймона (3, 4) не дозволяють
відтворити рангово-частотний розподіл слів у текстовому корпусі природної мови. Кожен з попередньо
розглянутих розподілів забезпечує задовільний результат апроксимації лише в обмеженому діапазоні значень
рангу слова (k). У даній роботі проведено детальний аналіз апроксимаційних показникових функцій з метою
пошуку оптимальної функції розподілу для опису частотних характеристик слів у текстовому корпусі
природної мови.
Функція рангово-частотного розподілу Лавалетті
У 1996 році французький біофізик Даніель Лавалетті запропонував показникову функцію
( ;,)=fk−+s n C k n [ ( nk )]s−1, (5)
яка незначно відрізняється від функції Зіпфа і забезпечує чудовий результат апроксимації для реальних значень
імпакт-фактора журналів [Popescu 2003]. Підгонка масштабувального множника С та показника степеня s
базової функції Лавалетті (5) дозволяє отримати апроксимаційну криву, яка відмінно описує рангово- ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 16

336
ймовірнісний розподіл слів в діапазоні середніх та високих рангів (Рис. 2. пунктир). Складнощі виникають з
базовою функцією Лавалетті при спробі її використання для опису частотного розподілу слів у діапазоні малих
значень рангового числа k.

Рис. 2. Результати апроксимації рангово-ймовірнісного розподілу слів (Ш. Бронте «Джейн Ейр») з
використанням базової та модифікованої функцій Лавалетті
Провівши аналіз кривих рангово-частотного розподілу слів у текстах англійської, німецької та угорської
мов, автори роботи [Nemeth 2002] показали, що закони Зіпфа та Лавалетті не дозволяють повною мірою
відтворити ймовірнісний розподіл слів для розглянутих мов. Подібні дослідження проводились і до текстів
українською мовою [Головач 2007]. У роботі [Ferrere Cancho 2001] для покращення якості апроксимації
запропоновано використання функції розподілу у вигляді комбінації двох функції Зіпфа з різними показниками
степеня.
Звичайно, використання комбінованих функцій з багатьма апроксимаційними параметрами дає
можливість досягнути відмінної якості відтворення рангово-частотного розподілу слів. Проте велика кількість
параметрів ускладнює інтерпретацію їх фізичного змісту. Метою ж даної роботи є пошук апроксимаційної
функції, значення параметрів якої корелюють з реальними характеристиками текстового корпусу. Для
практичного застосування показникових апроксимаційних функцій в системах аналізу текстового корпусу
важливою є коректна інтерпретація їх параметрів.
Базова функція Лавалетті передбачає підгонку лише показника степеня s, який визначає нахил
апроксимаційної кривої в діапазоні малих та середніх значень рангового числа k. Апроксимація розподілу слів з
великим значенням рангу (Рис. 2) не потребує додаткового параметру, а забезпечується наявністю відношення
nk/(n-k+1) у випадку функції Лавалетті (5). Наведені вище характеристики показникової функції розподілу
Лавалетті стали вирішальними у виборі її як базової для подальших модифікацій. Вибрана базова функція
Лаваллетті (5) все-таки не передбачає гнучкості апроксимаційної кривої в діапазоні малих значень рангового
числа k. Пунктирна крива на Рис. 2 відображає функцію Лавалетті f(k;1.06,12682).
Результати детального аналізу етапів модифікації показникових функцій рангово-частотного розподілу
дозволили вибрати шлях вдосконалення базової функції Лавалетті (5) з метою її адаптації для апроксимації
розподілу слів у текстовому корпусі природної мови. Запропонована нами модифікація функції Лавалетті
(;,,)()(fk)1 qsnn k q nk=+− [+∑( +q −s i=i)]+q −ns1( ) (6)
передбачає додатковий параметр q для забезпечення гнучкості апроксимаційної кривої в діапазоні малих
значень рангового числа k. Показник степеня s визначає кут нахилу кривої.
Суцільна лінія на Рис. 2 відображає результат апроксимації f(k;2.35,1.06,12682), отриманий з
використанням модифікованої функції розподілу Лавалетті (6). Тестування запропонованої апроксимаційної
функції (6) було проведено на текстових корпусах художнього та наукового стилів. Текстовий корпус
художньої літератури загальною кількістю слів N=2895547 включав 17 творів різного жанру англійською
мовою. До корпусу наукової літератури ввійшли 6 книг та 6 дисертаційних робіт англійською мовою різної
тематики та загальною кількістю слів N=1287323. Розділ IХ. Прикладна лінгвістика: напрями й аспекти дослідження

337
Виявлене відхилення між кривими рангово-частотного розподілу слів у споріднених за тематикою
текстах було пояснено авторами роботи [Le Quan Ha 2003] різними значеннями кількості окремих слів (n) в
досліджуваних публікаціях. Розрахунки в даній роботі ми проводили, оперуючи нормованою частотою слів у
рангово-ймовірнісній системі координат, щоби уникнути впливу кількості окремих слів (n) на значення
апроксимаційних параметрів.
У процесі аналізу статистичних параметрів досліджуваних текстових корпусів художньої та наукової
літератури виявлено, що нахил кривої розподілу слів у рангово-ймовірнісній системі координат не залежить
суттєво від значення n, однак є відмінним для текстів різного стилю (Рис. 3). Така відмінність чітко
прослідковується в розбіжності оптимального значення показника степеня s (6), яке виявляється близьким для
текстів одного стилю. У випадку наукової літератури показник степеня s проявляє схильність до менших
значень, що прослідковується у меншій швидкості спаду у відповідних кривих рангово-ймовірнісного
розподілу (Рис. 3, криві 1, 1’). Розподіл слів у текстах художньої літератури (Рис. 3, криві 2, 2’)
характеризується більш різким зменшенням ймовірності вживання слова при збільшенні значення рангового
числа k, що відтворюється більшими значеннями показника степеня s.

Рис. 3. Залежність кривої рангово-ймовірнісного розподілу слів від стилю та об’єму текстового
корпусу.
Відмінність нахилу кривих рангово-частотного розподілу слів у текстових корпусах точних та
гуманітарних наук також було виявлено в роботі [Wyllys 1974]. Як видно з Рис. 3, відмінність у нахилі кривих
рангово-ймовірнісного розподілу слів для художньої та наукової літератури краще проявляється для текстів з
більшою кількістю окремих слів (Рис. 3, криві 1, 2). Тому для перевірки достовірності виявленої відмінності
кута нахилу кривих рангово-ймовірнісного розподілу слів (показника степеня s) для художньої та наукової
літератури, нами проаналізовано сумарні текстові корпуси, які містили приблизно однакову кількість (≈40000)
окремих слів.
На Рис. 4 представлені рангово-ймовірнісні розподіли слів у сумарних текстових корпусах та відповідні
їм апроксимаційні криві, що описуються модифікованою функцією Лавалетті (6). Розподіл слів для сумарного
корпусу наукової літератури (Рис. 4, трикутники) відтворюється функцією f(k;0.97,1.003,43688) (Рис. 4,
штрихова лінія), а функція f(k;2.56,1.152,42653) (Рис. 4, суцільна лінія) добре узгоджується з розподілом слів у
сумарному корпусі художньої літератури (Рис. 4, кружечки). Таким чином, підтверджено існування
характеристичної відмінності показника степеня s для рангово-ймовірністного розподілу слів (6) у текстових
корпусах художньої (s=1.152) та наукової (s=1.003) літератури. ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 16

338

Рис. 4. Результати апроксимації рангово-ймовірнісного розподілу слів у сумарних текстових корпусах
художньої та наукової літератури з використанням модифікованої функцій Лавалетті.
Параметр q набуває відмінних оптимальних значень для художньої (q=2.56) та наукової (q=0.97)
літератури, забезпечуючи відтворення кривих розподілу в діапазоні малих значень рангового числа k. Наявність
параметра q в запропонованій апроксимаційній функції (6) дозволяє однозначно відтворити значення параметра
s, що відображає кут нахилу кривої рангово-ймовірнісного розподілу слів у текстовому корпусі. Значення
параметрів s та q модифікованої апроксимаційної функції Лавалетті (6) можуть відтворювати окремі
характеристики текстового корпусу.

Висновки
Запропонована модифікація показникової функції Лавалетті дозволяє відтворити розподіл слів у
текстовому корпусі природної мови.
Модифікована в даній роботі функція Лавалетті передбачає два апроксимаційні параметри (q, s), які
забезпечують однозначне відтворення рангово-ймовірнісного розподілу слів. Апроксимація рангово-
ймовірнісного розподілу слів з великим значенням рангу (k) забезпечується відношенням nk/(n-k+1) і не
потребує додаткового параметру у випадку функції Лавалетті. Для практичного застосування показникових
апроксимаційних функцій в системах аналізу текстового корпусу важливою є коректна інтерпретація фізичного
змісту їх параметрів.
В процесі аналізу статистичних параметрів досліджуваних текстових корпусів виявлена відмінність кута
нахилу кривих рангово-ймовірнісного розподілу слів для художньої та наукової літератури. Показано, що у
випадку наукової літератури показник степеня s в модифікованій функції Лавалетті набуває менших значень
порівняно з випадком художньої літератури.

Література
Головач 2007: Ю.Головач, В.Пальчиков, Лис Микита і мережі мови, Журнал фізичних досліджень, Том 11
№1, с.22-33, 2007.
Estoup 1912: J.-B. Estoup, Gammes stйnographique. Recueil de textes choisis pour l’acquisition mуthodique de la
vitesse, (Paris, Institut stenographique) 1912, 142 p., http://torvald.aksis.uib.no/corpora/2002-2/0070.html
Ferrere Cancho 2001: Ferrere Cancho, Ramon, and Sole Ricard V., Two regimes in the frequency of words and
the origins of complex lexicons: Zipf’s law revisited, Journal of Quantitative Linguistics, Vol. 8, No. 3, pp. 165-173,
2001.
Kuperman 2006: V. Kuperman, Productivity in the Internet Mailing List: A Bibliometric analysis, Journal of the
American Society for Information Science and Technology, Vol. 57, No. 1, pp. 51-59, 2006.
Le Quan Ha 2003: Le Quan Ha, E. I. Sicilia-Garcia, Ji Ming and F. J. Smith, Extension of Zipf’s Law to Word
and Character N-grams for English and Chinese, Computational Linguistics and Chinese Language Processing, Vol. 8,
No. 1, pp. 77-102, 2003. Розділ IХ. Прикладна лінгвістика: напрями й аспекти дослідження

339
Montemurro 2001: Marcelo A Montemurro, Beyond the Zipf-Mandelbrot law in quantitative linguistics, Physica
A, Vol. 300, No.3-4, pp. 567-578, 2001.
Mandelbrot 1953: B. Mandelbrot, An Informational ‘Theory of the Statistical Structure of Language. In
Communication Theory: Papers Read at a Symposium on «Applications of Communication Theory,» edited by Willis
Jackson, London: Butterworths, 1953, pp. 486-502.
Nemeth 2002: Geza Nemeth, Csaba Zainko, Multilingual statistical text analysis, Zipf’s law and Hungarian
speech Generation. Acta Linguistica Hungarica, Vol. 49, No. 3-4, pp. 385-405, 2002.
Popescu 2003: Ioan-Iovitz Popescu, On a Zipf’s law Extension to Impact Factors, Glottometrics Vol. 6, pp. 83-
93, 2003.
Simkin 2006: M.V. Si mkin, V.P. Ro ychowdhury, Re-inventing Willis, 2006,
http://arxiv.org/abs/physics/0601192
Simon 1955: Herbert A. Simon, On a Class of Skew Distribution Functions, Biometrika Vol. 42, No. 3-4,
pp. 425-440, 1955.
Wyllys 1974: Ronald E. Wyllys, The measurements of jargon standardization in scientific writing using rank-
frequency Zipf’s curves. PhD. thesis, University of Wisconsin-Madison, 1974.
Zanette 2006: Damian H. Zanette, Zipf’s law and the creation of musical context, Musicae Scientiae, Vol. 10,
pp. 3-18, 2006.
Zipf 1949: G. K. Zipf, Human Behavior and the Principle of Least Effort. Cambridge, Mass.: Addison-Wesley,
1949.

In present work the optimal function for the approximation of word probability distribution in natural language
is under a tentative search. The analysis of Zipf’s rank-frequency distribution and its modifications is performed. The
original Lavalette’s law is modified to get the most accurate approximation for the natural language corpus. The latent
semantic of fitting parameters in the modified Lavalette distribution function is suggested.
Keywords: Zipf’s law, Lavalette’s law, rank-frequency word distribution, text corpora of natural language.
Надійшла до редакції 14 вересня 2007 року.

Категорія: Лінгвістичні студії: Збірник наукових праць.

Літературне місто - Онлайн-бібліотека української літератури. Освітній онлайн-ресурс.