Лексическая семантика и ее модели

Московская семантическая школа, наряду с моделями формальной семантики «текст – смысл – текст» и дальнейшим ее развитием многими учеными и последователями (например, наряду с интегральными моделями Апресяна), активно развивает направление лексической семантики. Например, были заданы основы толково-комбинаторного словаря русского языка и предложено направление лексической семантики «лексико-графическое портретирование».

В лексической семантике давно существует несколько видов для представления модели «смысл–слово-смысл». Самая известная – модель тезаурус – совокупность терминов, описывающих данную предметную область с указанием семантических отношений и связей. В основном представляются родовидовые связи, синонимы, ассоциации (+ коллокационные сочетания). 

Также существует или задается отношение эквивалентности между терминами на разных языках.

Тезаурус применяет для автоматической классификации рубрики и поисковые информационные ресурсы.

Для представления тезаурусов существуют стандарты:

ISO – международные стандарты:
ISO 2788 – 1986 год (одноязычный)
ISO 5964 – 1985 год (многоязычный)
ANSI/NISO  z39.19 – 1993 год (расширенный и уточненный стандарт 1986 года).
В России 2 стандарта для тезаурусов:
ГОСТ 7.25 – 2001 год (одноязычный)
ГОСТ 7.24 – 1990 год

Под тезаурусом понимают:
1. полный систематизированный набор данных по какой-либо области знаний, позволяющий человеку или компьютеру в ней ориентироваться. Причем каждое слово стати тезауруса это лексикографическая модель семантических связей слова. (из компьютерной лингвистики)
2. словарь, в котором также полно представлены все слова языка с перечнем примеров их употребления в тексте, а также это идеографический словарь, в котором показаны все семантические отношения между лексическими единицами.

Полным тезаурусом в варианте идеографического словаря является тезаурус Роже.

Близкое к понятию тезаурус – понятие онтология, которое предлагается в направлении «Искусственный Интеллект», причем онтология – набор определений на искусственном формальном языке. Фрагменты декларативных знаний, где представлены термины, их типы и отношения, описания какого-то фрагмента знаний.


Новые модели

Лексическая семантика в словарях типа Word Net

Направление разработки Word Net появилось в рамках лексической семантики в 1985 году. Это когнитивный словарь. Разработана теоретическая база в США в Принстонском Университете Джорджем Миллером. Изначально он пытался разработать модель лексикона человека. Со временем она стала авторитетной и популярной для построения лексико-семантических баз данных.

Эта технология направлена на отображение состояния и структуры лексической системы языка в целом, а не отдельных тематических областей. Аналогом этой модели может служить интегральная модель языка Апресяна, в частности модель лексикографических портретов. В настоящее время охватывает общеупотребительную лексику современного английского языка и, кроме того, эта технология получила развитие в проекте EuroWord Net.

Word Net также является диалоговой, т.е. интерактивной лексической справочной системой, в которой все существительные, глаголы, прилагательные организованы в наборы синонимов, причем Word Net делит лексические ресурсы на 5 категорий : существительные, глаголы, прилагательные, наречия и слова-функции (и, или).

Word Net напоминает тезаурус по структуре.

Основой   Word Net являются наборы синонимов, их называют синсеты (sin sets), которые служат для выделения лексических концепций. Например, board (группа людей, доска)
                   Доска – board, plank
                   Группа людей – board, committee

Эти наборы синсетов служат для разграничения лексических значений, т.е. для отличия  оттенков значений. В   Word Net также представлены семантические отношения, например, синонимы, антонимы, гиперонимы. Связь обеспечивается  единством принципов построения модели и заданных набором общих понятий, которые связаны друг с другом через гипертекстовые ссылки (индексы).