Закон Ципфа

George К. Zipf (Дж. Ципф, или в некоторых современных переводах - Г. Зипф) в начале 30-х гг. XX в. на основе статистических исследований получил следующую закономерност ь2.

Пусть есть текст длиной N слов и словарь объемом т слов с указанием частоты появления слова в тексте Слова в словаре расположе- [1]

ны в порядке убывания их но частоте и проранжированы от 1 до т. Ранг, равный 1 присваивается слову, частота появления которого наибольшая, ранг, равный т, - наименее употребимому слову. Тогда

где р - относительная частота появления слова в тексте;

/,, - абсолютная частота р,. появления слова г, ранга в тексте

определенной длины;

N- число слов в тексте; г, - ранг слова, где 1

Если умножить вероятность или относительную частоту обнаружения слова в тексте на ранг г, слова, то получим:

где к - константа; 1 < г, < т.

Если преобразовать формулу, то получим т.е. функцию типа у = к/х, .график которой - равносторонняя гипербола.

Таким образом, на основе анализа полученных зависимостей Цииф предложил эмпирическую формулу, устанавливающую связь между частотой появления слов в тексте и его рангом в словаре:

где к - эмпирически определяемая константа, изменяющаяся для разных текстов.

Рис. 4.1

При этом

р - частота наиболее унотре- бимого слова;

рт - частота наименее употрс- бимого слова;

- «гиперболическая лестница», поскольку ранговое распределение имеет ступенчатый характер (ряд слов появляется с одинаковой частотой), но при аппроксимации можно считать распределение Цинфа гиперболой (рис. 4.1).

Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текст мы ни взяли. Так, имеются исследования, показывающие, что, например, для английских текстов константа Ципфа равна приблизительно 0,1; а для русского языка - примерно 0,06-0,7.

Поэтому Ципф приводил также запись этой закономерности в форме

где к = 0,1 (для естественных языков).

Опираясь на экспериментальные данные, собранные в результате статистического исследования многих текстов на различных языках, Ципф обнаружил также, что распределение слов естественного языка подчиняется единому простому закону, который он назвал «принципом наименьшего усилия»: выражая мысли с помощью языка, мы подвергаемся действию двух противоположных сил - силе унификации и силе диверсификации, проявляющихся, с одной стороны, в необходимости быт ь понятыми, а с другой - желанием выразить мысль покороче.

Ципф установил, что частота и количество слов, входящих в текст с этой частотой, связаны между собой. Если построить зависимость количества слов в данной частоте от частоты вхождения слова, то получится кривая аналогичная рис. 1 (рис. 4.2), которая будет сохранят ь свои параметры для всех без исключения созданных человеком текстов (с некоторыми отклонениями для разных естественных языков (рис. 4.2).

Эту закономерность считают иногда вторым законом Ципфа.

Рис.4.2

Исследования показали, что наиболее значимые слова лежат в средней части гиперболы (см. рис. 1.1). Слова, которые попадаются слишком часто, в основном оказываются предлогами, местоимениями, в английском - артиклями и т.п. Редко встречающиеся слова тоже в большинстве случаев не имеют решающего смыслового значения.

От того, как будет выставлен диапазон значимых слов, зависят свойства информационно-поисковой системы.

Если поставить широко - нужные термины потонут в море вспомогательных слов; если установить узкий диапазон - можно потерять смысловые термины. В каждой поисковой системе эта проблема решается по-своему, с учетом общею объема текста, специальных словарей и т.п.

Таким образом, закономерности Ципфа отражает некоторое общее свойство, присущее разным языкам. Это свойство заключается в том, что в каждом тексте на любом естественном языке имеется некоторое количество наиболее унотребимых слов. Причем число этих слов значительно меньше общею числа слов, используемых в тексте.

Законы Ципфа универсальны. В принципе, они применимы не только к текстам.

В аналогичную форму выливается, например, зависимость количества городов от числа проживающих в них жителей. Характеристики популярности узлов в сети Интернет - тоже отвечают законам Ципфа.

Закономерность Ципфа проявляется и при исследовании документальных информационных потоков (ДИП). В этом случае закон Ципфа представляют через абсолютную частоту появления слов:

где f - абсолютная частота появления слова в текстах документального потока; г, - ранг слова в ранговом распределении; С - частота появления слова 1-го ранга, которая для данного ДИП можно считать эмпирической константой.

  • [1] BonitzM. Scientometrie, Bibliometrie, Informetrie // Zbl. Biblioteksw. 1982. -Vol. 86, № l.-S. 19-24. •> - Zipf G.K. Human behaviory and principle of ieast effort, - Cambridge (Mass.):Addisson - Wesiey, 1949. - Vol. XI. - 573 p.; 35.Zipf G.K. Selected studies of theprinciple of relative frequency in language. - Cambridge (Mass.): Harvard Univ.Press., 1932.-51 p.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >