Основные модели языка, базирующиеся на семантике

Большинство этих моделей относится как к моделям порождающей грамматики, так и к моделям типа «смысл - текст», т.е. модели интерлингвы (языка смысла). В отличие от порождающих грамматик, семантика, которая описывается с помощью синтаксиса, модели типа «смысл - текст» не являются порождающими, т.е. не являются генераторами текста, а являются трансляторами текста в «смысл» и обратно.
Рассмотрим 3 основные модели типа «смысл-текст-смысл». Они являются очень известными, 2 - на западе, 1 - в России:
1. Модель семантики предпочтения
2. Модель концептуальной зависимости
3. Модель «смысл - текст» Жолковского и Мельчука


Модель семантики предпочтения.

Разработки модели были начаты в Стэндфордском университете США Уилксом с 1964 года. Сама модель была представлена в 1972. он считает, что текст характеризуется следующими сущностями:
• Смыслами слов (word senses)
• Сообщениями (message)
• Фрагментами текста
• Семантической сочетаемостью (semantic compatibility)
Для выражения компонентов вводятся следующие понятия:
 Семантическая формула для представления смысла слова
 Образец для представления сообщения
 Правила следования для выражения правил совместимости предложений.

Семантическая формула похожа на язык символов логики, в нее входят не слова, а атомы смысла. Например: человек = субъект.
Образец: человек + быть + вид - (Вася милиционер).
Эта модель является аналитической, а не порождающей, предназначена для анализа текста. К модели подключаются модели сценариев и фреймов.


Модель концептуальной зависимости
1968 год, группа исследователей Йельского университета под руководством Роберта Шенка. Она была окончена в 1975 и представила новую теорию описания семантики языка.
Грамматика Шенка подчеркивала отрицание влияния синтаксиса и морфологии на семантику. Основой семантического представления модели является сеть концептуализаций. Сеть концептуализаций это объект, подобный графу, вершины которого помечены символами семантических единиц четырех классов:
РР (имена физического объекта) - существительное
АСТ (имена действий) - глагол
РА (характеристики объекта) - прилагательное
АА (характеристики действий) - наречие
State/lock -место
Т - время

-10 плохо 0 хорошо +10

дуги в основном были направлены и помечены и обозначали отношения между пластами, например:
РР АСТ → объект может действовать
АСТ LOC2 действие приводит
к изменению места объекта
LOC1

Основным в модели концептуальной зависимости является понятие концептуализации, что представляет собой основную единицу семантического уровня, из которого конструируется высказывание и смысл текста. Концептуализация включает в себя действие, множество его концептуальных падежей и участников действия или их состояние.


Модель «смысл - текст»
Основана А.К. Жолковским и И. Мельчуком.
Эта модель является наиболее детальной моделью русского языка, разработанная отечественными лингвистами и ориентирована на реализацию на ЭВМ (является кибернетической моделью языка). Для описания семантического сходства лексически различных слов авторами был представлен специальный язык семантических множителей. Существенными особенностями этого языка были следующие:
• «атомное» строение смысла, т.е. семантические примитивы
• высокая структурность значений, т.е. сильная взаимосвязь слов друг с другом
• наличие правил преобразования
В силу высокой сложности модели, она была развита только для отдельного уровня предложения, хотя предлагалось ее расширение.
В связи с распространением омонимии и синонимии в естественном языке, в модели представлен не одношаговый переход от смысла к тексту, а многошаговый. При этом используется уровневая структура по налоги с естественным языком. Например:
1. Семантический уровень реализуется в виде семантического предложения и изображает содержание высказывания без расчленения на фразы и слова, при этом он состоит из двух компонентов: семантического графа и сведений о коммуникативной организации смысла.
Семантические графы - узлы (атомарные примитивы) и дуги (логические связки, предикаты и т.д.)
Сведения о коммуникативной структуре = тема + рема.
2. Синтаксический уровень состоит из двух подуровней:
- глубинный синтаксис
- поверхностный синтаксис
При этом глубинная структура фразы - это дерево зависимостей, причем узлами являются только знаменательные словоформы, т.е. основные, а поверхностное построение включает все словоформы.
3. Морфологический уровень состоит из двух подуровней:
- глубинной морфологии
- поверхностной морфологии


Новые модели
Одним из вариантов семантических моделей является предложенный в последние десятилетия универсальный язык UNL (Universal Network Language). Это модель сетевой семантики. UNL - это универсальный семантико-синтаксический язык, представленный для описания, хранения и распространения информации в Internet в независимом от какого-либо естественного языка виде.
Проект UNL разработан многими научными институтами на Западе, и эта модель является упрощенной аналогией с моделью «смысл - текст», т.е. этот язык является своеобразным языком - посредником (интерлингва). С 1996 года существует несколько вариантов.

Назначение UNL - представление смысла исходных естественных языковых слов, словосочетаний, предложений и даже целых текстов. Для этого разработан целый аппарат записи смыслов. UNL имеет свой словарь, лексикон, который называется UW (Universal Word). Словарь UW составлен на основе английского языка, который является входом. Именно при помощи английских слов задаются смысловые ограничения. Ограничения смысла были разработаны для снятия проблем омонимии и уточнения значения слов.
Текст на UNL, как и на всех семантических языках и во всех семантических моделях, представляет собой графические узлы. Это универсальные слова и словари этих слов с приписанными атрибутами (синтаксическими и семантическими характеристиками), а дуги - семантические отношения.
В этом языке выделяют 40 бинарных отношений.
agt (run (icl > do), John (icl > person)), где
icl - отношения «вкл., содержит, определяет»
aoj - определяет, что объект находится в каком-то состоянии или имеет определенные атрибуты
Ball is red.
aoj (red (aoj >thing), ball (icl > thing))
rsn - обозначает причину какого-либо события
Because Mary arrived, John is happy.
agt: 01 (arrive (icl > occur), Mary (icl > person)
agt: 02 (happy (icl > do), John (icl > person).
rsn (:02, :01)

Смысловой **** в этом языке это цепочка символов, которые являются близкими по смыслу английским словом, за которым могут следовать ограничения и атрибуты. Список ограничений - это группа вспомогательных атрибутов, позволяющих уточнить семантику универсального слова или семантического концепта. Например, horse
horse (icl > animal)
horse (icl >male)
horse (icl > apparatus)

список атрибутов добавляется к универсальному слову или концептуальному элементу для приписывания вариантов употребления.
Например: для отражения категории времени: @ future present
@ pl
@ focus
@ possibility
Предложение на этом языке:
Monkey eats bananas.
1. Сначала нужно описать концептуальные элементы
eat (icl > do) @ present. @ entry 00 : 00
monkey (icl > animal). @ generic : 01
banana (icl > food) @ pl :02

2. Задать текст, отношения
agt (:00, :01)
obj (:00, :02)

этот язык был необходим для систем информационного поиска, т.е. определяет семантику информационных поисковых языков и для мультилингвистического поиска (на многих языках). Предполагается, что полная система UNL будет установлена на WWW серверах в Интернете, и пользователь, попавший на страницу, где информация дается в формате UNL - документа, будет вызывать специальное приложение для автоматического перевода содержания исходного UNL - документа на свой язык.