Базовая классификация лингвистических моделей

1. по охвату структуры языка:
* общие (глобальные) стремятся охватить весь язык: (vocabulary, grammar)
* частные: фонетическая модель русского языка, модель системы гласных

Частная модель обычно входит в набор частных моделей, описывающий определенный уровень языка:
• фонологический уровень
• морфологический уровень
• синтаксический
• лексико-семантический


2. по типологическому статусу:
* универсальные стремятся охватить все языки мира:
* специфические характерны для определенного языка или группы языков: мягкость - твердость согласных рус. языка (не действует в англ., франц.)


3. по гносеологическому статусу:
* модели языка
* модели лингвистических знаний (различные линг.школы)
* модели деятельности лингвиста


4. по конечной цели исследования
* теоретические
* описательные
* прикладные

5. по используемым методам
* математические модели
* психологические модели
* социологические модели

6. по функциональному статусу
* абстрактно обобщающие модели
* действующие

7. по используемым материальным средствам
* графические
* символьные
* компьютерные


8. В зависимости от предмета моделирования и того, какая сторона речевой деятельности является предметом моделирования, модели речевой деятельности делятся на модели анализа, модели синтеза, порождающие и исследовательские. Это базовая классификация в ФМЛ.

• Моделью анализа называется конечное число правил, способных проанализировать бесконечное число предложений данного языка. Синтаксические аналитические модели получают на «входе» текст, а на «выходе» выдают для каждого предложения запись его синтаксической структуры. Семантические аналитические модели получают на «входе» тот же материал, а на «выходе» выдают смысловую запись (изображение смысла) каждого предложения на специальном семантическом языке.

• Моделью синтеза называется конечное число правил, способных построить бесконечно большое число правильных предложений. Синтаксические синтетические модели используют в качестве исходной информации запись синтаксической структуры предложений, а на выходе выдают правильные предложения данного языка. Семантические синтетические модели получают на входе смысловую запись некоторого предложения на специальном семантическом языке и выдают на выходе множество предложений естественного языка, синонимичных данному предложению.

• Помимо моделей анализа и синтеза, существуют еще так называемые порождающие модели, в некотором смысле промежуточные между моделями анализа и синтеза. Порождающей моделью называется устройство, содержащее алфавит символов и конечное число правил образования (и преобразования) выражений из элементов этого алфавита, способное построить бесконечное множество правильных предложений данного языка и приписать каждому из них некоторую структурную», характеристику.

• Исследовательские модели можно подразделить на три класса в зависимости от того, какая информация используется в них в качестве исходной. В моделях первого класса в качестве исходной информации используется только текст, и все сведения о системе, т.е. языке, порождающем этот текст, извлекаются исключительно из текстовых данных. Это классические дешифровочные модели. В моделях второго класса считается заданным не только текст, но и множество правильных фраз данного языка. Практически это значит, что при разработке модели лингвист прибегает к помощи информанта, который по поводу каждой предъявляемой ему фразы должен говорить, правильна она или нет. Информантом может быть и сам лингвист, если он в совершенстве владеет изучаемым языком. Наконец, в моделях третьего класса считаются заданными не только текст и множество правильных фраз, но и множество семантических инвариантов. Практически это значит, что информант должен определять не только правильность каждой предъявляемой ему фразы, но и о любых двух фразах говорить, значат ли они одно и то же или нет. Модели этого класса близки традиционным описаниям. Их смысл сводится к тому, чтобы исследовать какое-либо лингвистическое явление на базе текстов, в результате получается, например, словарь или какая-либо грамматика или ее правила, или же результатом будет описание какого-либо лингвистического явления. Например, в переводе - описание какой-либо трансформации на базе трансформационной модели перевода. Исследовательские модели сейчас активно разрабатываются в корпусной лингвистике, когда исследуется какое-либо множество текстов и, например, строится модель словарной статьи для включения ее в словарь.


Рассмотрим эти модели на следующей схеме:

 

Признаки

 

Тип модели

Что известно лингвисту

ВХОД - Характер исходной информации

ВЫХОД-Характер конечной информации

Цель

Исследовательские

Текст (и множество правильных фраз)

Текст

Грамматика и/или словарь

Смоделировать деятельность лингвиста

Аналитические

Грамматика и словарь

Текст

Изображение структуры текста

Смоделировать понимание текста

Синтетические

Грамматика и словарь

Изображение структуры текста

Текст

Смоделировать производство -генерацию текста

Порождающие

Грамматика и словарь

Алфавит символов и правила образования и преобразования фраз

Множество правильных фраз и изображение их структуры

Смоделировать умение отличать правильное от неправильного в языке

 

9. Модели различаются не только по направленности на определенный объект, но и по используемым средствам моделирования (алгоритму или исчислению)!

Содержательно различие между ними можно пояснить следующим образом: исчисление - это система разрешений (позволений), а алгоритм - это последовательность приказов (команд), т.е. Алгоритм - строгая последовательность предписывающих правил, а Исчисление - множество разрешающих правил (порядок выполнения не важен).

Обычно исчисление имеет вид математической системы, включающей: 1) исходные (первичные, или неопределяемыe) понятия, имена которых образуют уже знакомый нам "алфавит символов"; 2) первичные (недоказываемые) утверждения о связях между этими понятиями (аксиомы); 3)правила вывода новых утверждений (теорем) из уже имеющихся. Вместо аксиом и правил вывода иногда используются правила образования и преобразования выражений из элементов алфавита. В исчислениях часто пользуются так называемые рекурсивные определения и правила. Рекурсивными называются определения и правила, которые строятся в два шага, причем первый шаг содержит определение простейшего частного случая, а второй - определение общего случая через частный. Примером рекурсивного определения может служить следующее определение натурального числа (т. е. любого целого положительного числа, начиная с единицы): (1)1 (единица) есть натуральное число; (2) если i - натуральное число, то и i + 1 - также натуральное число. Легко убедиться, что под это определение подойдут все натуральные числа, и только они.

Исчисление позволяет задать с помощью конечного аппарата все объекты некоторого множества, в том числе бесконечного (например, все предложения данного языка). Это свойство исчислений и должно быть использовано лингвистикой, имеющей дело с очень большими или бесконечными инвентарями единиц.

Перейдем теперь к понятию алгоритма. Алгоритмом называется последовательность команд, выполнение которых ведет к выделению (или построению) желаемого объекта. В качестве иллюстрации рассмотрим алгоритмы решения следующей простой задачи: сложить миллион заданных произвольных чисел, например чисел 12, 1, 102, 29, ..., 5. Простейшим алгоритмом решения этой задачи будет следующий: 1) возьми первое число (12), 2) прибавь к нему второе (1), 3) прибавь к сумме третье (102), 4) прибавь к сумме четвертое (29), ..., 1 000000) прибавь к сумме миллионное число (5) и выдай результат. Этот алгоритм, содержащий миллион команд, очень непрактичен: бессмысленно повторять миллион раз по существу одно и то же. В хорошем алгоритме стандартная команда должна быть обобщена с помощью одного рекурсивного правила. Мы и попытаемся это сделать. Перенумеруем все числа от первого до миллионного:
12 1 102 29 ... 5
1 2 3 4 ... 1000 000

Условимся обозначать буквой i номер произвольного числа (но не само число !). Наконец, уясним себе тот факт, что сумма миллиона чисел формируется постепенно и в начале процесса (до того, как мы взяли первое число) равна нулю. Алгоритм: (1) прими сумму равной нулю; (2) прими i равным единице; (3) прибавь i -е число к сумме; (4) проверь, имеет ли место i = 1 000 000; (5) да - выдай результат; (6) нет - прибавь к i единицу и делай (3). Этот алгоритм можно представить в виде так называемой блок-схемы, известной из программирования.

Алгоритм должен допускать совершенно автоматическую реализацию, т. е. реализацию, доступную электронной вычислительной машине; в этом отношении алгоритм можно сравнить с инструкцией для лаборанта, который точно выполняет предписания, проворен, никогда не делает ошибок, но не способен размышлять. Инструкция для такого лаборанта может содержать команды типа приведенных выше, но в ней не должно быть предписаний типа «будь разумен», «поступай правильно», «сделай вывод» или «найди прилагательное» (если нет подробных механически выполняемых правил о том, как это делать).

Алгоритм, записанный на понятном для машины языке, называется программой.

Любая модель, включая исчисление, должна быть представлена в виде алгоритма (или снабжена алгоритмом), чтобы быть реализованной на машине, потому что машина понимает только язык команд, но не язык разрешений.

NOTE: Прежде чем перейти к другим типам моделей, укажем на зависимость, существующую между исследовательскими, аналитическими, синтетическими и порождающими моделями, с одной стороны, и алгоритмами и исчислениями - с другой. Первые три типа моделей оформляются обычно в виде алгоритмов, а для изложения порождающих моделей, как правило, используется форма исчислений.


10. В зависимости от того, какого рода правила используются в модели, различаются вероятностные (статистические) и детерминистские (структурные) модели. Существуют и смешанные структурно-статистические модели. Естественные языки в большинстве случаев устроены таким образом, что немногие правила охватывают основное множество фактов, но для объяснения остающихся немногих фактов, большей частью непродуктивных, требуется очень большое число правил. Поэтому в ряде случаев бывает выгодней объяснить данную совокупность фактов не детерминистской моделью, которая из-за обилия правил может оказаться излишне громоздкой для выполнения некоторой вполне определенной задачи, а вероятностной моделью, которая обходится меньшим числом чисто статистических правил и потому менее громоздка. Потеря в точности правил компенсируется в такой модели ее относительной простотой. В качестве иллюстрации можно сослаться на работу И.А. Мельчука об определении рода французского существительного по концу слова; довольно простые правила позволяют правильно решить этот вопрос в 85 случаях из 100. Для испанского языка аналогичные правила более эффективны: они дают правильный ответ в 95 случаях из 100.

Наиболее важными детерминистскими моделями являются модели бинарных дифференциальных структур в области фонологии и морфологии, модель непосредственно составляющих, трансформационная и аппликативная модели в области синтаксиса, модель «семантических множителей» в области семантики.