© А.М. Аматов, 2008

УДК 811.1.1 ББК 81.001.1

ИНФОРМАЦИОННАЯ ЭНТРОПИЯ КАК ФАКТОР КОНВЕРГЕНЦИИ СИНТАКСИЧЕСКИХ СТРУКТУР В ЯЗЫКАХ РАЗНЫХ ТИПОВ (НА ПРИМЕРЕ РУССКОГО И АНГЛИЙСКОГО ЯЗЫКОВ)

А.М. Аматов

В статье рассматривается информационная энтропия как системный фактор, влияющий на функционирование естественного языка и в частности - его синтаксической системы, вызывающий в определенных условиях конвергенцию синтаксических структур. Показано, что уровень энтропии неодинаков в разных языках. Для сравнения взяты данные русского и английского языков. Предлагается метод расчета энтропии естественного языка, а также способы преодоления ее влияния в формальном анализе синтаксических структур.

Ключевые слова: энтропия, конвергенция, синтаксис, семантика, план выражения, план содержания.

Естественный язык представляет собой древнейшую из известных нам информационных систем, а системам свойственно наличие двух противоположных, но неотъемлемых свойств: порядка и беспорядка. Соотношение этих параметров в разных системах может быть разным, и для определения степени упорядоченности/беспорядка той или иной системы обычно используют понятие энтропии.

Вообще-то понятия информации и энтропии тесно и органично связаны друг с другом, однако представления об информационной энтропии появились лишь тогда, когда развитие термодинамики и статистической механики сделали эту связь очевидной. У истоков данного понятия стоит логик и математик К. Шеннон, в честь которого информационную энтропию часто называют «энтропией Шеннона». И прежде чем перейти к понятию «энтропия языка», попробуем разобраться в том, что представляет собою информационная энтропия.

Пользуясь интуитивно понятными выражениями, можно сказать, что информационная энтропия - это степень неопределенности сигнала или, применительно к речи, выска-

зывания (англ. uncertainty - термин К. Шеннона). В качестве примера возьмем ящик с одинаковыми по размеру и массе шариками, на которых проставлены разные номера. Аналогичный (и довольно расхожий) пример с шариками разного цвета при ближайшем рассмотрении выглядит не совсем удачным, так как при достаточно большом их количестве непросто бывает это образно себе представить - в самом деле, вряд ли кто-то может вообразить себе 1 000 разных цветов и оттенков. Итак, будем считать, что в ящике лежат 1 000 шариков с номерами от 1 до 1 000, а некто случайным образом извлекает их из ящика один за другим. При первой попытке неопределенность номера извлеченного шарика максимальна, то есть вероятность извлечения любого из шариков одинакова и равна 1/ 1 000. Допустим, при первой попытке был вынут шарик под номером 345. Это значит, что он выпал из системы, и в следующей попытке участвовать не будет. Соответственно при втором извлечении вероятность случайного выбора любого другого шарика несколько возрастет, составив 1/999, и будет увеличиваться при последующих попытках: 1/998, 1/997 и т. д., а энтропия системы будет снижаться, пока не останется последний шарик (скажем, с номером 102) и вероятность его извлечения

будет равна 1. Если же после каждого извлечения шарик возвращать обратно в ящик, то энтропия будет сохранять максимальное значение для данной системы, так как все варианты из тысячи возможных будут равновероятными. Наконец, если предположить, что в ящике все те же 1 000 шариков, однако 100 из них имеют номер 100, а далее - по нарастающей от 101 до 1 000, то энтропия системы не будет максимальной, поскольку при первой попытке результаты не будут равновероятными: вероятность извлечь шарик с номером 100 будет существенно выше (1/10), чем у любого другого шарика (1/1 000).

Отметим основные характеристики информационной энтропии системы:

- если все возможные результаты в заданной системе имеют одинаковую вероятность (как извлечение шариков с номерами 1-1 000 из описанного выше примера), то энтропия системы максимальна;

- если вероятность какого-либо результата равна 1 (результат точно определен), то энтропия системы равна 0;

- изменение вероятности события на определенную величину изменяет количество энтропии также на определенную величину. К. Шеннон (1948) [1] формализовал эти

положения и выразил информационную энтропию системы через дискретную переменную Х, у которой возможен ряд состояний х хп в следующей математической формуле:

г =1

( 1 > V Р ( Хг ) /

(1)

где р(х) - вероятность г-го события в си-

стеме Х.

Согласно приведенной формуле, можно сказать, что энтропия в системе Х - это сумма произведений вероятностей всех результатов г, умноженных на двоичный логарифм (то есть логарифм по основанию 2) обратной вероятности события г.

Говоря о языке, следует постоянно помнить о том, что это незамкнутая система. Можно сказать, что язык получает «подпитку» энергией извне, поскольку взаимодейству-

ет с другими системами (языками, обществом), и здесь вопрос уже выходит за рамки языкознания. Нам в этой связи стоит отметить, что энтропия в системе языка вовсе не обязательно должна нарастать, как это бывает, например, в замкнутых термодинамических системах. Соответственно, энтропия применительно к языку показывает уровень беспорядка при порождении и/или интерпретации высказывания с учетом фонетики, словаря и грамматических правил.

Теперь перейдем к определению понятий порядка и беспорядка в системе естественного языка. Безусловно, беспорядок не следует понимать в повседневном смысле слова. В повседневности этот термин имеет весьма размытое значение, поскольку нет и четкого определения того, что такое порядок. Ну а без четкого определения порядка невозможно определить и беспорядок.

Применительно к современному языкознанию ситуация напоминает скорее повседневность, нежели научную точность. Действительно, как определить, что в системе языка следует считать порядком, а что беспорядком? Говоря о микросостояниях системы, мы попросту не имеем никаких сколько-нибудь строгих критериев упорядоченности. Например, что следует считать более упорядоченным в подсистеме существительного: наличие нескольких морфологически маркированных падежных форм или выражение семантических ролей через порядок слов и служебные слова? Если первое, то сколько падежных форм будет «в самый раз»: четыре, как в немецком, шесть, как в русском, или более 10, как, например, в финно-угорских языках? Если второе, то какой порядок слов будет более «упорядоченным»: SVO, SOV, VSO или вообще свободный?

Проблему порядка и беспорядка в системе языка в принципе можно решить, если учесть, что беспорядок возрастает с уменьшением вероятности конкретного события. Скажем, беспорядок при бросании кости (6 событий, вероятность каждого - 1/6) выше, чем при бросании монеты (2 события, вероятность каждого - 1/2). С языком все обстоит значительно сложнее, и не только потому, что количество рассматриваемых событий существенно выше, но и потому, что взаимодей-

ствие языка с другими системами подразумевает непрерывное вмешательство извне, как если бы у бросаемой кости кто-то поочередно делал ту или иную сторону тяжелее, тем самым увеличивая вероятность конкретного события, впрочем, никогда не доводя ее до 1.

Итак, в уравнении (1) необходимо, прежде всего, определить значение термина х По сути, это должен быть показатель уровня неопределенности языкового знака. Применительно к живому языку мы можем выразить этот показатель через отношение суммы планов содержания к сумме планов выражения, зафиксированных в языке на тот или иной момент времени, или:

U =

Для какой-либо подсистемы языка, состоящей из п элементов, имеющих т значений:

т

Т.с

и = -------,

j=1

где U - показатель неопределенности языкового знака (от uncertainty);

С - план содержания (от content);

F - план выражения (отform).

В диахронии же уместно будет рассмотреть динамику роста показателя U, то есть dU dt

Теперь, если подставить U в формулу (1), мы увидим, что при U > 1 энтропия языка будет больше 0 (H(L) > 0), при U = 1 энтропия будет нулевой (H(L) = 0), а при U < 1 энтропия будет отрицательной (H(L) < 0).

Язык, в котором одному плану содержания соответствует один и только один план выражения (энтропия равна 0), следует считать идеально упорядоченным языком. Если отвлечься от естественного языка, то можно заметить, что в искусственных знаковых системах энтропию часто стремятся свести к нулю. Скажем, система дорожных знаков - это тоже своеобразный язык, в котором каждому знаку соответствует строго одно чтение. Если бы знак можно было

трактовать по-разному, это было бы чревато неприятными ситуациями на дороге (которые и без того не редкость). Язык же, в котором одному плану содержания соответствует более одного плана выражения (энтропия отрицательна), будем считать избыточно упорядоченным. Здесь с примерами несколько труднее, но можно вспомнить денежную систему, в которой (обычно так бывает ограниченное время) имеют хождение разные денежные знаки с одним и тем же номиналом: скажем, старые и новые стодолларовые купюры, обычные и «юбилейные» монеты и т. п. Тут как раз и получается, что двум (а возможно и более) планам выражения (вид монет или купюр) соответствует один план содержания (количество товаров и услуг, которые можно на эту купюру приобрести). Разумеется, для конкретного естественного языка сложно вычислить точный показатель энтропии, но сложно - не значит невозможно. Пока же сделаем интуитивное предположение, что показатель энтропии любого естественного языка выше 1, и, скорее всего, такое предположение будет правильным.

Для иллюстрации правильности (или, по крайней мере, непротиворечивости) нашей гипотезы из всех подсистем языка удобнее всего рассматривать лексику. Так, в идеально упорядоченном языке одному слову соответствует строго одно лексическое значение, но если мы откроем любой словарь, то обнаружим, что дело обстоит совершенно иначе. Полисемия распространена повсеместно, и отношение количества слов к количеству выражаемых ими значений - один из аспектов общей энтропии языка. Действительно, энтропия всей системы не может снижаться, если растет энтропия ее подсистем.

С синтаксическими структурами все обстоит несколько сложнее, поскольку здесь есть определенные трудности с установлением количества планов содержания. Однако и здесь нередки случаи гомоморфизма, который в чем-то сродни лексической омонимии. Рассмотрим в этой связи пару английских предложений:

(2) a. They are visiting relatives.

b. Visiting relatives can be boring.

В образцах (2a - b) мы имеем 2 плана выражения на 4 плана содержания, причем ни в одном из приведенных примеров нет случаев лексической омонимии - корни слов, входящих в состав всех этих предложений, сохраняют свое значение. Конвергенция в данном случае заключается в том, что различные тектограмматические структуры при определенном лексическом их наполнении дают на выходе совершенно идентичные фенограмматические формы. Если объединить оба эти предложения в одну ситуацию, то конвергенция (и, как следствие, «внутренняя двусмысленность» высказываний) становится еще заметнее, так как выводов может быть тоже два: They can be boring или What they are doing can be boring.

Однако при переводе каждого из толкований предложений (2a - b) на русский язык конвергенция исчезнет, и мы получим отдельное высказывание: Они гостят у родственников и Они - родственники, приехавшие в гости; Посещение родственников может быть утомительным занятием и Родственники, приехавшие в гости, могут утомлять. Другими словами, уровень энтропии (применительно только к данным примерам) для русского языка будет вдвое ниже, чем для английского. Конечно, это не означает, что в русском языке конвергенции синтаксических структур не происходит или что в английском языке уровень энтропии ровно вдвое выше, чем в русском, но то, что он в целом выше, -безусловно.

Причиной этого является разница в числе морфологически выражаемых категорий. Ведь морфологический маркер сам по себе является дополнительным планом выражения. Разумеется, в языках, близких к изолирующему типу, отсутствие или недостаточность морфологически маркированных категорий компенсируется другими способами - порядок слов, служебные единицы (глаголы, частицы и пр.), однако полной такая компенсация быть не может. Более того, языкам с развитой морфологией свойственна своеобразная «подстраховка» в виде плеоназма. Так, в русском предложении Мой младший брат приехал категория мужского рода и единственного числа (то есть то, что относится к плану содержания) повторяется 4 раза, а в соответствую-

щем английском предложении My younger brother came along та же самая информация о роде и числе встречается только один раз. Более того, род в английском языке вообще представляет собой скрытую категорию и «всплывает» лишь при транспозиции, когда существительное заменяют соответствующим местоимением.

В целом можно констатировать, что чем сильнее в том или ином языке развита морфология (а вместе с ней - и согласование как основной тип синтаксической связи), тем ниже уровень энтропии его синтаксической системы. Напротив, сокращение числа морфологически маркированных категорий ведет к увеличению количества энтропии, хотя увеличение это не будет прямо пропорциональным. Включаются своего рода «компенсирующие механизмы», которые не позволяют энтропии языка достичь такого уровня, когда практически любое предложение получает два, а то и более, возможных толкования. Самый распространенный из таких механизмов - возрастающая роль порядка слов и служебных частей речи. Проще говоря, при переходе языка от изолирующего типа к агглютинирующему энтропия в его системе понижается, при переходе от агглютинирующего типа к флективному понижается еще больше, а при движении языковой системы в обратном направлении она, напротив, возрастает. Тут надо сделать важное дополнение: при прочих равных условиях. Ведь в качестве компенсирующего механизма вполне может сработать и какой-нибудь «экзотический» способ, например появление музыкальных тонов, как это имеет место в китайском языке, также близком к изолирующему типу. Но в любом случае, чем выше уровень энтропии в языке, тем проще в нем механизмы порождения высказываний, но и больше возможностей для дивергенции синтаксических структур и, соответственно, сложнее алгоритм интерпретации высказывания. Если посмотреть на это с дидактической стороны, то, как правило, языки с более высоким уровнем энтропии обычно легче для изучения, чем языки с низким уровнем энтропии. Английский и русский языки в целом это правило подтверждают.

Представляется возможным один способ преодоления влияния энтропии языка на

алгоритмы порождения и интерпретации речи. Суть его заключается в следующем: формализация лексикона путем задания каждому его элементу (то есть лексеме) определенного набора грамматических категорий. Например, N для существительного, ТУ для переходного глагола, 1ТУ - для непереходного глагола и т. п. (обозначения, разумеется, могут быть другими). Таким образом, создается что-то вроде словаря, в котором вместо лексико-се-

мантических вариантов того или иного слова представлена номенклатура его синтаксических категорий.

СПИСОК ЛИТЕРАТУРЫ

1. Shannon, C. E. A Mathematical Theory of Communication / C. E. Shannon // Bell System Technical Journal. - 1948. - July and October (vol. 27).

INFORMATION ENTROPY AS A CAUSE OF CONVERGING SYNTACTIC STRUCTURES IN TYPOLOGICALLY DIFFERENT LANGUAGES (IN RUSSIAN AND ENGLISH LANGUAGES)

A.M. Amatov

The paper deals with information entropy as a systemic issue that underlies a natural language and its syntax in particular, where it can cause convergence of surface syntactic structures. It is shown that the amount of entropy varies throughout languages which follows from comparison of Russian and English data. A method of calculating the entropy of a natural language is proposed, as well as means to bypass it in a rigorous analysis of syntactic structures.

Key words: entropy, convergence, syntax, semantics, form, content.