Обратный словарь

В обратном словаре словарные единицы расположены в алфавитном порядке «задом наперед». Может быть полезен, например, для нахождения рифм. Четыре фрагмента обратного словаря приведены в табл. 2.1.

Таблица 2.1. Фрагмент обратного словаря

жаба

приправа

юнга

дымка

раба

оправа

тревога

рюмка

полнеба

справа

синагога

ямка

треба

расправа

изжога

лямка

Идеографический словарь Таблица 2.2. Фрагмент идеографического словаря

ПРИРОДА

ЯВЛЕНИЕ

ЯВЛЕНИЕ

ЯВЛЕНИЕ (феномен)

явление - природный объект; форма проявления сущности феномен - необычное явление.

СОВЕРШАТЬСЯ

происходить с кем- чем, изменяться во времени; существовать динамически.

ПРОЦЕСС

динамическое состояние.

ВРЕМЯ

ПЕРИОД

ВРЕМЕНИ

промежуток времени; время (через какое-то #); дни, годы, эпоха.

ДЛИТЕЛЬНОСТЬ

протяженность существования.

МОМЕНТ

временная точка; элемент времени, связанный с чем-л; фаза существования.

РАНЬШЕ (чего)

до какого-л. момента, прежде.

ВЗАИМОДЕЙСТВИЕ

ВОЗДЕЙСТВИЕ

изменяющий фактор; активное непосредственное влияние на что-л.

ЭФФЕКТ

результат воздействия (давать #. потрясающий #).

ПЕРЕДАЧА (явление)

изменение принадлежности объекта.

МАТЕРИЯ

МАТЕРИЯ

ПРИРОДА

весь материальный мир в многообразии его форм, проявлений.

ЭФИР

первичная мировая несжимаемая среда; начало всех начал (разг.).

ИЗЛУЧЕНИЕ

излучать - выделять лучистую энергию.

ВЕЩЕСТВО

СОСТАВ

ВЕЩЕСТВА

МОЛЕКУЛА

наименьшая частица химического вещества.

ХИМИЧЕСКОЕ

СОЕДИНЕНИЕ

соединение химических элементов.

ХИМИЧЕСКАЯ

РЕАКЦИЯ

изменение химического состава; взаимодействие атомов, сопровождающееся качественной перестройкой их электронных оболочек.

Частотный словарь — вид словаря, в котором лексические единицы характеризуются с точки зрения степени их употребительности в совокупности текстов, представительных либо для языка в целом, либо для отдельного функционального стиля, либо для одного автора. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая) и т. д. Частотные словари могут строиться на основе словоформ, лемм (нормальных форм слова) или словосочетаний.

В связи с тем, что размеры корпусов, на основании которых составляется словарь, различны, обычно производится приведение частот встречаемости к относительным единицам ipm (частота на миллион словоформ, instances per million words).

Естественно, что практически в любом наборе текстов на первых местах по встречаемости будут служебные слова — союзы, предлоги и т. д. Самое частотное слово русского языка — союз и, имеющее частоту около 30000 ipm. Для Национального корпуса русского языка (НКРЯ, см. ниже раздел 2.3) наиболее частотные существительные, глаголы и прилагательные приведены в табл. 2.3.

Таблица 2.3. Частотные слова русского языка по НКРЯ

существительные

глаголы

прилагательные

частота

слово

частота

слово

частота

слово

2369

человек

8900

быть

876

новый

1529

время

2398

мочь

554

последний

1490

год

2053

сказать

473

русский

1195

дело

1492

говорить

456

хороший

1119

жизнь

1427

знать

429

большой

1024

рука

1291

есть

373

высокий

1005

день

1186

стать

362

российский

839

слово

849

хотеть

339

молодой

835

раз

793

иметь

339

великий

747

глаз

758

видеть

326

старый

Частотные словари широко применяются как в компьютерной лингвистике (например, для классификации текстов), так и в лингвистике традиционной (например, для сравнения лексики разных авторов, анализа изменения лексики с течением времени и т. п.). Так, например, в частотном словаре лексики Лермонтова среди существительных лидируют слова рука, душа, день среди глаголов на пятом месте идет любить (в НКРЯ — 21-е место).

Сравнивая лексику Лермонтова и Пушкина, исследователи отмечают, что у Пушкина больше слов разговорных, народных. Например (Лермонтов : Пушкин): девица— 38:108, баба— 4:44, батька— 0:5, попадья1:28, печка — 1:14.

Проблемы при создании частотных словарей заключаются в:

  • ? воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе);
  • ? всплесках частоты отдельных слов (частота слова в одном тексте может повлиять на его позицию в частотном списке);
  • ? сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20000 наиболее частотных слов, в то время как слово хрюкнуть находится за пределами списка первых 40 тысяч;
  • ? омонимичности многих словоформ (см. раздел 3.1) (стали =>сталь или стать, банку => банк или банка, вера => вера или Вера).

В словарях предшествующих поколений, составлявшихся в конце XX века, омонимия разрешалась вручную, так как объем обрабатываемого корпуса был незначителен. Очевидно, что для 100-миллионных корпусов такое решение не подходит. Поэтому задействуются системы компьютерного анализа текстов. Однако это порождает новую проблему: слова, отсутствующие в словаре анализатора. При составлении частотного словаря НКРЯ доля несловарных слов составляла 3% всех словоупотреблений и 45% списка словоформ корпуса. Автоматическая интерпретация несловарных форм в свою очередь может приводить к ошибкам, вызывая появление таких лемм как Янсный (от Янсен), Барклаивать (от Барклай).

Вопрос о способе лемматизации и ее необходимости вообще при автоматическом составлении частотных словарей нетривиален, и его решение зависит от целей работы. Рассмотрим для примера четыре фразы, представляющие собой ответы на один из вопросов социологической анкеты:

Демократы не варвары, они защищают себя.

Защитные свойства демократии.

Защищались они варварски.

Российская демократия не встала на защиту населения.

В таблице 2.4 приведены два варианта частотного словаря. В левой части — словарь с лемматизацией. В правой части словарь составлен без лемматизации, почти все словоформы одного слова, а также близких к ним слов, объединены в одну словарную единицу под названием той словоформы, которая встретилась в тексте первой. Близость слов определялась по специальным правилам сравнения слов.

С лемматизацией

Без лемматизации

2

ДЕМОКРАТИЯ

3

ДЕМОКРАТЫ

2

НЕ

2

ВАРВАРЫ

2

ОНИ

2

ЗАЩИТУ

1

ВАРВАР

2

НЕ

1

ВАРВАРСКИ

2

ОНИ

1

ВСТАТЬ

1

ВСТАЛА

1

ДЕМОКРАТ

1

ЗАЩИЩАЛИСЬ

1

ЗАЩИТА

1

ЗАЩИЩАЮТ

1

ЗАЩИТНЫЙ

1

НА

1

ЗАЩИЩАТЬ

1

НАСЕЛЕНИЯ

1

ЗАЩИЩАТЬСЯ

1

РОССИЙСКАЯ

1

НА

1

СВОЙСТВА

1

НАСЕЛЕНИЕ

1

СЕБЯ

1

РОССИЙСКИЙ

1

СВОЙСТВО

1

СЕБЯ

Безусловно, левый столбец выглядит более приятным. Однако легко заметить, что справа слова, близкие по значению, объединяются в одну словарную единицу, что может оказаться полезным при классификации. Кроме того, при составлении словаря без лемматизации снимаются проблемы омонимии и несловарных слов, а программа работает во много раз быстрее.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >