Закон Хипса
В компьютерной лингвистике эмпирический закон Г. С. Хипса (Н. S. Heaps) связывает объем документа с объемом словаря уникальных слов, которые входят в этот документ. Казалось бы, словарь уникальных слов должен насыщаться, а его объем стабилизироваться при увеличении объемов текста. Оказывается, это не так! Для всех известных сегодня текстов в соответствии с законом Хипса, эти значения связаны соотношением v( п) = arP где v — это объем словаря уникальных слов, составленный из текста, который состоит из п уникальных слов, аир — определенные эмпирически параметры (рис. 4.4). Для европейских языков а принимает значение от 10 до 100, а Р — от 0.4 до 0.6.

Рис. 4.4. Закон Хипса: по оси абсцисс - количество слов в тексте, по оси ординат -
объем словаря
При больших объемах текста становится видно, что график закона Хипса идет не плавно, а ступенчато. Такая особенность связана с тем, что с некоторого момента тексты, относящиеся к какой-то узкой предметной области, заканчиваются, следующий текст относится уже к другой предметной области, а для нее характерна другая лексика. Если при добавлении в коллекцию нового текста наблюдаются отклонения от закона Хипса, например, число слов в словаре не возрастает, это может свидетельствовать о наличии плагиата.