Текст книги "Введение в теоретическую лингвистику"
Автор книги: Джон Лайонз
Жанр:
Языкознание
сообщить о нарушении
Текущая страница: 11 (всего у книги 61 страниц) [доступный отрывок для чтения: 22 страниц]
Здесь можно сделать последнее общее утверждение относительно связи парадигматического и синтагматического измерений. Если дано некоторое множество единиц, различающихся с помощью элементов «низшего уровня», из которых они состоят, то (независимо от определенных статистических соображений, которые будут рассмотрены в следующем разделе) длина каждой из единиц «высшего уровня», измеряемая с точки зрения числа синтагматически связанных элементов, отождествляющих данный комплекс, будет обратно пропорциональна числу элементов, находящихся в отношении парадигматической контрастности в пределах этого комплекса. Предположим, например, что в некоторой системе есть только два элемента выражения (которые мы обозначим как 0 и 1) и что в некоторой другой системе представлено восемь элементов выражения (которые мы занумеруем цифрами от 0 до 7); для простоты, поскольку такое предположение не затрагивает общего принципа, допустим, что любые комбинации элементов выражения разрешаются «фонологическими» правилами, которым подчиняются обе системы. Чтобы различить восемь «фонологических» слов в рамках первой (бинарной) системы, каждое из слов должно состоять по крайней мере из трех элементов (000, 001, 010, 011, 100, 101, 110, 111), тогда как во второй (октальной) системе для различения каждого из восьми слов достаточно одного элемента (0, 1, 2, 3, 4, 5, 6, 7). Чтобы различить 64 слова, в бинарной системе нужны комплексы, состоящие не менее чем из шести элементов, а в восьмеричной – не менее чем из двух элементов. В общем, максимальное [28]28
В оригинале, вероятно, ошибочно – минимальное. – Прим. перев.
[Закрыть] число единиц «высшего уровня», которые могут различаться с помощью некоторого множества элементов «низшего уровня», синтагматически связанных в комплексах, определяется формулой: N = p1 × р2 × р3 ... рm (где N – число единиц «высшего уровня», m – число позиций парадигматического контраста для элементов «низшего уровня», p1 обозначает число элементов, вступающих в отношение парадигматической контрастности в первой позиции, р2 обозначает число элементов, вступающих в отношение парадигматической контрастности во второй позиции, и так далее до m-ной позиции). Отметим, что эта формула не предполагает ни того, что во всех позициях могут появляться одни и те же элементы, ни того, что во всех позициях число элементов, находящихся в парадигматическом контрасте, одно и то же. То, что было сказано выше в связи с простым примером двоичной и восьмеричной систем, внутри которых все элементы встречаются во всех положениях и возможны любые синтагматические сочетания, таким образом, представляет собой не более чем частный случай, подпадающий под более общую формулу:
2 × 2 × 2 = 8, 2 × 2 × 2 × 2 = 16 и т. д.
и
8 = 8, 8 × 8 = 64, 8 × 8 × 8 = 512 и т. д.
Основанием, в связи с которым мы выбрали для сравнения бинарную систему (с двумя элементами) и восьмеричную систему (с восемью элементами), является то обстоятельство, что 8 – это целая степень от 2: это 2 в 3-й степени, а не 2 в степени 3,5 или 4,27 и т. п. Это четко выявляет связь между парадигматическим контрастом и синтагматической «длиной». При прочих равных условиях минимальная длина слов в бинарной системе в три раза больше длины слов в восьмеричной системе. Мы используем это частное числовое соотношение в следующем разделе. В последующих главах, особенно в главе, посвященной семантике, мы обратимся к более общему принципу, согласно которому лингвистически существенные различия могут проводиться как на основе синтагматических, так и на основе парадигматических критериев.
Отметим, что понятие «длины», которое мы только что рассмотрели, определяется в зависимости от числа позиций парадигматического контраста в пределах синтагматического комплекса. Оно не обязательно связано с временной последовательностью. Это положение (вытекающее из сказанного ранее в настоящем разделе – см. § 2.3.6) весьма существенно для последующего обсуждения фонологической, грамматической и семантической структур.
2.4. СТАТИСТИЧЕСКАЯ СТРУКТУРА *
2.4.1. ФУНКЦИОНАЛЬНАЯ НАГРУЗКА *Не все парадигматические противопоставления, или контрасты, в равной степени существенны для функционирования языка. Они могут значительно отличаться друг от друга по своей функциональной нагрузке. Чтобы пояснить значение этого термина, можно рассмотреть некоторые противопоставления в пределах фонологической системы английского языка.
Субстанциальная реализация многих слов устного английского языка различается тем, что в одном и том же окружении в одних случаях встречается [p], а в других – [b] (ср. pet : bet, pin : bin, pack : back, cap : cab и т. д.); на основе этого контраста мы можем установить оппозицию между /р/ – /b/, которые, по крайней мере на этом этапе, мы можем рассматривать как два минимальных элемента выражения языка (под «минимальной» мы подразумеваем далее не разложимую единицу). Поскольку многие слова различаются благодаря оппозиции /р/ – /b/, контраст между этими двумя элементами несет высокую функциональную нагрузку. Другие противопоставления несут более низкую функциональную нагрузку. Например, относительно небольшое число слов различается в субстанциальной реализации наличием одного, а не другого из двух согласных, которые встречаются в конечном положении в словах wreath 'венок' и wreathe 'плести венки' (символы этих двух звуков в Международном Фонетическом Алфавите – соответственно [θ] и [ð]; ср. § 3.2.8); весьма небольшое количество слов, если они вообще существуют, отличается друг от друга противопоставлением звука, фигурирующего в начале слова ship, звуку, представленному вторым согласным в словах measure или leisure (эти два звука обозначаются в Международном Фонетическом Алфавите соответственно [ʃ] и [ʒ]). Функциональная нагрузка контрастов между [θ] и [ð] и между [ʃ] и [ʒ] таким образом намного ниже, чем функциональная нагрузка контраста /р/ : /b/.
Значение функциональной нагрузки очевидно. Если говорящие на некотором языке не сохраняют последовательно те противопоставления, благодаря которым высказывания с разным значением отличаются друг от друга, то это может привести к неправильному пониманию. При прочих равных условиях (мы еще к этому вернемся) чем выше функциональная нагрузка, тем более важно, чтобы говорящие овладели отдельным противопоставлением как частью своих «речевых навыков» и последовательно сохраняли его при своем использовании языка. Следует ожидать поэтому, что дети раньше всего овладевают контрастами, несущими наиболее высокую функциональную нагрузку в том языке, который они слышат; соответственно, противопоставления с высокой функциональной нагрузкой, по-видимому, также лучше сохраняются при передаче языка от одного поколения к другому. Наблюдая, с какой легкостью дети овладевают контрастами своего родного языка, и изучая историческое развитие отдельных языков, мы получаем некоторое эмпирическое подтверждение этим предположениям. Впрочем, в каждом случае имеются дополнительные факторы, которые взаимодействуют с принципом функциональной нагрузки и которые трудно отделить от этого последнего. Здесь мы эти факторы рассматривать не будем.
Точная оценка функциональной нагрузки усложняется, если не становится абсолютно невозможной, из-за соображений, которые нам позволила временно не принимать во внимание оговорка «при прочих равных условиях». Во-первых, функциональная нагрузка отдельного противопоставления между элементами выражения варьирует в зависимости от структурной позиции, занимаемой ими в слове. Например, два элемента могут часто противопоставляться в начале слова, но очень редко – в конце слова. Берем ли мы просто среднюю величину для всех позиций контраста? Ответ на этот вопрос не ясен.
Во-вторых, значение отдельного противопоставления между элементами выражения не есть просто функция от числа различаемых ими слов: оно также зависит от того, могут ли эти слова встречаться и контрастировать в одном и том же контексте. Возьмем предельный случай: если А и В – два класса слов, находящихся в дополнительной дистрибуции, и каждый член класса А отличается в субстанциальной реализации от какого-то члена класса В только тем, что в нем представлен элемент /а/ там, где в соответствующем слове из В представлен элемент /b/, то функциональная нагрузка контраста между /а/ и /b/ равна нулю. Таким образом, функциональную нагрузку отдельного противопоставления следует подсчитывать для слов, имеющих одну и ту же или частично совпадающую дистрибуцию. Ясно также, что всякий «реалистический» критерий оценки значения отдельного контраста должен учитывать не просто дистрибуцию слов, устанавливаемую грамматическими правилами, но реальные высказывания, которые можно было бы перепутать, если не сохранять этот контраст. Например, как часто или в каких обстоятельствах такое высказывание, как You'd better get a cab 'Вам лучше бы взять такси', можно было бы спутать с высказыванием You'd better get a cap 'Вам бы лучше получить кепку', если бы говорящий не различал конечных согласных слов cab и cap? Ответ на этот вопрос, очевидно, существен для любой точной оценки рассматриваемого контраста.
Наконец, значение отдельного контраста, по-видимому, связано с частотой его встречаемости (которая не обязательно определяется числом различаемых им слов). Допустим, что три элемента выражения – /х/, /у/ и /z/ – встречаются в одной и той же структурной позиции в словах одного дистрибутивного класса. Но предположим далее, что тогда как слова, в которых встречаются /х/ и /у/, часто противопоставлены в языке (это высокочастотные слова), слова, в которых встречается /z/, характеризуются низкой частотой появления (хотя они могут быть столь же многочисленны в словаре). Если носитель языка не будет владеть контрастом между /х/ и /z/, общение для него будет затруднено в меньшей степени, чем в том случае, если он не будет владеть контрастом между /х/ и /y/.
Функциональная нагрузка последнего контраста, ex hypothesi, выше, чем первого.
Соображения, высказанные в предыдущих параграфах, показывают, как трудно прийти к какому-либо точному критерию оценки функциональной нагрузки. Разнообразные критерии, предложенные лингвистами до сих пор, не могут претендовать на точность, несмотря на свою математическую изощренность. Тем не менее следует предусмотреть в нашей теории языковой структуры место для понятия функциональной нагрузки, несомненно весьма важного как в синхроническом, так и в диахроническом плане. Очевидно, все же имеет смысл говорить о том, что определенные противопоставления несут более высокую функциональную нагрузку, чем какие-то другие, даже если соответствующие различия не поддаются точному измерению.
2.4.2. КОЛИЧЕСТВО ИНФОРМАЦИИ И ВЕРОЯТНОСТЬ ПОЯВЛЕНИЯ *Другое важное статистическое понятие связано с количеством информации, которую несет языковая единица в некотором данном контексте; оно также определяется частотой появления в этом контексте (во всяком случае, так обычно считается). Термин «информация» употребляется здесь в особом значении, которое он приобрел в теории связи и которое мы сейчас поясним. Информационное содержание отдельной единицы определяется как функция от ее вероятности. Возьмем для начала самый простой случай: если вероятности появления двух или более единиц в некотором данном контексте равны, каждая из них несет в этом контексте одно и то же количество информации. Вероятность связана с частотой следующим образом. Если две, и только две, равновероятные единицы – х и у – могут встретиться в рассматриваемом контексте, каждая из них встречается (в среднем) ровно в половине всех соответствующих случаев: вероятность каждой, a priori, равна 1/2. Обозначим вероятность отдельной единицы х через рх. Итак, в данном случае рх = 1/2 и ру = 1/2. В более общем виде вероятность каждой из n равновероятных единиц (x1, х2, х3, . . ., хn) равна 1/n. (Заметим, что сумма вероятностей всего множества единиц равна 1. Это справедливо независимо от более частного условия равной вероятности. Особым случаем вероятности является «достоверность». Вероятность появления единиц, которые не могут не появиться в данном контексте, равна 1.) Если единицы равновероятны, каждая из них несет одно и то же количество информации.
Более интересны, поскольку более типичны для языка, неравные вероятности. Предположим, например, что встречаются две, и только две, единицы, х и у, и что х встречается в среднем вдвое чаще, чем у, тогда рх = 2/3 и ру = 1/3. Информационное содержание x вдвое меньше, чем содержание у. Другими словами, количество информации обратно пропорционально вероятности (и, как мы увидим, логарифмически связано с ней): это фундаментальный принцип теории информации.
С первого взгляда это может показаться несколько странным. Однако рассмотрим сначала предельный случай полной предсказуемости. В письменном английском языке появление буквы u, когда она следует за q, почти полностью предсказуемо; если отвлечься от некоторых заимствованных слов и собственных имен, можно сказать, что оно полностью предсказуемо (его вероятность равна 1). Подобно этому, вероятность слова to в таких предложениях, как I want . . . go home, I asked him . . . help me [29]29
Употребление to в пропущенных местах предложений I want to go home 'Я хочу пойти домой', I asked him to help me 'Я попросил его помочь мне' является обязательным правилом английской грамматики. – Прим. перев.
[Закрыть] (предполагается, что пропущено только одно слово), равна 1. Если бы мы решили опустить u (в queen 'королева', queer 'странный', inquest 'следствие' и т. п.) или слово to в упомянутых контекстах, никакой информации не было бы потеряно (здесь мы наблюдаем связь между обычным и более специальным значением слова «информация»). Поскольку буква u и слово to не находятся в парадигматическом контрасте ни с какими другими единицами того же уровня, которые могли бы встретиться в том же контексте, вероятность их появления равна 1, а их информационное содержание – 0; они целиком избыточны. Рассмотрим теперь случай двучленного контраста, где рх = 2/3 и ру = 1/3. Ни один из членов не является целиком избыточным. Но ясно, что пропуск х приводит к меньшим последствиям, чем пропуск у. Поскольку появление х вдвое вероятнее, чем появление у, получатель сообщения (знающий априорные вероятности) имеет в среднем вдвое лучшие шансы «угадать» пропуск х, чем «угадать» пропуск у. Таким образом, избыточность проявляется в различной степени. Избыточность х в два раза больше, чем избыточность у. В общем, чем более вероятно появление единицы, тем большей оказывается степень ее избыточности (и тем ниже ее информационное содержание).
Количество информации обычно измеряется в битах (этот термин происходит от англ. binary digit 'двоичный знак'). Всякая единица с вероятностью появления 1/2 содержит один бит информации; всякая единица с вероятностью 1/4 несет 2 бита информации, и так далее. Удобство такого измерения количества информации станет очевидным, если мы обратимся к практической задаче «кодирования» множества единиц (сначала предположим, что вероятности их появления равны) группами двоичных знаков. В предыдущем разделе мы видели, что каждый элемент множества из восьми единиц может быть реализован отдельной группой из трех двоичных знаков (см. § 2.3.8). Это определяется связью между числом 2 (основанием двоичной системы исчисления) и 8 (количеством единиц, которые требуется различать): 8 = 23. В более общем виде, если N – это число единиц, которые следует различать, a m – это число позиций контраста в группах двоичных знаков, требуемых для их различения, то N = 2m. Связь между числом парадигматических контрастов на «высшем» уровне (N) и синтагматической длиной групп элементов «низшего» уровня (m), таким образом, логарифмическая: m = log2 N. (Логарифм числа есть степень, в которую следует возвести основание числовой системы, чтобы получить данное число. Если N = xm, то m = logx N 'если N равняется х в степени m, то m равняется логарифму N по основанию x'. Напомним, что в десятичной арифметике логарифм 10 равен 1, логарифм 100 равен 2, логарифм 1000 равен 3 и т. д., т. е. log10 10 = 1, log10 100 = 2, log10 1000 = 3 и т. д. Если бы теория информации основывалась на десятичной, а не на двоичной системе измерения, то было бы удобнее определять единицу информации в терминах вероятности 1/10. Читателю должно быть ясно, что приведенное здесь равенство N = 2m – это частный случай равенства N = р1 × р2 × р3, ..., рm, введенного в § 2.3.8. Равенство N = 2m справедливо, если в каждой позиции синтагматической группы в парадигматическом контрасте находится одно и то же число элементов.
Количество информации измеряется обычно в битах, просто потому, что многие механические системы для хранения и передачи информации действуют на основе бинарного принципа: это системы с двумя состояниями. Например, информацию можно закодировать на магнитной ленте (для обработки с помощью цифровой ЭВМ) как последовательность намагниченных и ненамагниченных позиций (или групп позиций): каждая позиция находится в одном из двух возможных состояний и может, таким образом, нести один бит информации. Кроме того, информацию можно передавать (как, например, в азбуке Морзе) в виде последовательности «импульсов», каждый из которых принимает одно из двух значений: короткий или длинный по продолжительности, положительный или отрицательный по электрическому заряду и т. п. Всякая система, использующая «алфавит», состоящий более чем из двух элементов, может быть перекодирована в бинарную систему у источника передачи и снова перекодирована в первоначальный «алфавит», когда сообщение получено по месту назначения. Это имеет место, например, при передаче сообщений по телеграфу. То, что информационное содержание должно измеряться с помощью логарифмов с основанием 2, а не логарифмов с каким-либо другим числовым основанием, есть следствие того факта, что инженеры связи обычно работают с системами с двумя состояниями. Что касается вопроса об уместности применения принципа двоичного «кодирования» именно при исследовании языка в нормальных условиях «передачи» от говорящего к слушающему, то он вызывает значительные разногласия среди лингвистов. Не подлежит сомнению, что многие наиболее важные фонологические, грамматические и семантические различия бинарны, как мы увидим в последующих главах; мы уже видели, что один из двух членов бинарной оппозиции может рассматриваться как положительный, или маркированный, а другой – как нейтральный, или немаркированный (см. § 2.3.7). Мы не будем вдаваться здесь в обсуждение вопроса, можно ли свести все лингвистические единицы к комплексам иерархически упорядоченных бинарных «выборов». Тот факт, что многие единицы (на всех уровнях языковой структуры) сводимы к ним, означает, что лингвисту следует приучиться мыслить в терминах бинарных систем. В то же время следует отдавать себе отчет в том, что фундаментальные идеи теории информации совершенно не зависят от частных предположений относительно бинарности.
2.4.4. НЕРАВНЫЕ ВЕРОЯТНОСТИПоскольку каждый двоичный знак несет только один бит информации, группа из m двоичных знаков может нести максимум m битов. До сих пор мы предполагали, что вероятности различаемых таким образом единиц высшего уровня равны. Теперь рассмотрим более интересный и более обычный случай, когда эти вероятности не равны. Для простоты возьмем множество из трех единиц, а, b и с, со следующими вероятностями: ра = 1/2, рb = 1/4, pс = 1/4. Единица а несет 1 бит, а b и с несут по 2 бита информации каждая. Их можно закодировать в двоичной системе реализации, как а : 00, b : 01 и с : 10 (оставив 11 незанятым). Но если бы знаки передавались в последовательности по некоторому каналу связи и передача и получение каждого знака занимали бы один и тот же отрезок времени, было бы неразумным принимать столь неэффективное условие кодирования. Ведь для а требовалась бы такая же мощность канала, как для b и для с, хотя оно несло бы вдвое меньше информации. Более экономичным было бы закодировать а с помощью одного знака, скажем 1, и отличать b и с от а, закодировав их противоположным знаком – 0 – в первой позиции; b и с тогда отличались бы друг от друга во второй позиции контраста (которая, конечно, пуста для а). Итак, а : 1, b : 00 и с : 01. Это второе соглашение более экономичным образом использует пропускную способность канала, так как оно увеличивает до предела количество информации, которое несет каждая группа в один или два знака. Поскольку на передачу а, которое встречается вдвое чаще, чем b и c, тратится вдвое меньше времени, данное решение позволило бы в кратчайшее время передать наибольшее число сообщений (исходя из предположения, что эти сообщения достаточно длинны или достаточно многочисленны, чтобы отражать средние частоты появления). В действительности эта простая система представляет собой теоретический идеал: каждая из трех единиц a, b и с несет целое число битов информации и реализуется в субстанции именно этим числом различий.