Звуки и знаки

Текст добавлен: 15 октября 2016, 05:44

Текст книги "Звуки и знаки"

Автор книги: Александр Кондратов

Жанр:

Языкознание

сообщить о нарушении

Текущая страница: 9 (всего у книги 18 страниц)

Назад к карточке книги

Сдвиг значения

Если значение отдельных слов можно измерить, то нельзя ли выражать в числах и сочетания слов, их смыслов? Ведь говорим мы не отдельными словами, а предложениями…

Казалось бы, на первый взгляд сделать это очень просто: надо суммировать значения отдельных слов, входящих в словосочетание. Однако такое элементарное сложение ничего не даст. Значения слов воздействуют друг на друга, они не являются некими кубиками, которые можно механически складывать и переставлять. Смысл сочетания слов исход и поиск будет противоположным, в зависимости от того, скажем ли мы исход поиска или же поиск исхода. А ведь слагаются эти выражения из одних и тех же смыслов слов!

Возьмем три сочетания с прилагательным жестокий: жестокая судьба, жестокий ум, жестокое окно. Очевидно, что во всех этих сочетаниях значения слов согласуются по-разному. Жестокая судьба – устойчивое сочетание слов, смыслы их прочно спаялись в нашем сознании. Жестокий ум звучит несколько необычно, но все-таки приемлемо, например по отношению к холодному рассудительному человеку, бесстрастному аналитику сердечных чувств и т. п. Выражение жестокое окно осмыслить можно с большой натяжкой, посчитав это окно тюремным, забранным решеткой, или окном, о которое мы порезали руку…

Во всех трех примерах значение слова жестокий меняется в зависимости от слова, с которым оно сочетается. Меняется в зависимости от слова жестокий и значение слов судьба, ум, окно.

Нельзя ли, зная координаты смысла каждого слова, взятого в отдельности, измерить меру и степень этих значений? И, что еще более важно, измерить значение всего словосочетания?

Когда два значения соединяются в одно, два слова – в словосочетание, то смыслы их как бы сдвигаются по направлению друг к другу. Степень такого сдвига будет зависеть от меры, от числа, которым выражено значение каждого отдельного слова, входящего в сочетание. Чем дальше друг от друга отстоят они, например по степени оценки, или силы, или активности, тем меньшим будет этот сдвиг.

Слово судьба в измерении оценки получило минус один балл (то есть плохое). Слово жестокий оценено как очень плохое (минус три балла). Лингвисты, занимающиеся измерением значений, предложили специальную формулу, по которой можно вычислить сдвиг значения слов, входящих в словосочетание. Так, в нашем примере значение слова жестокий сдвинулось с минус трех до минус двух с половиной – на полбалла. А значение слова судьба с минус единицы сдвинулось до минус двух с половиной, то есть на полтора балла.

Была предложена и формула, по которой можно вычислить значение всего словосочетания. Для примера с жестокой судьбой это значение будет равно минус двум с половиной баллам.

Проверку формулы провели на очень интересном опыте. Исследователи взяли восемь существительных и восемь прилагательных, а затем составили из них все возможные сочетания. Значения этих шестидесяти четырех сочетаний прилагательного с существительным были вычислены по формуле сдвига значения и по формуле, определяющей значение словосочетания. А затем была проведена проверка на людях – живых носителях значений. Результаты теоретические и практические удивительно близко совпали.

Правда, работы последних лет показали, что эти формулы скорее всего применимы лишь к парам «прилагательное– существительное». Сочетания же иных типов могут следовать другим законам сдвига значения.

Так, например, было доказано, что совсем иной характер носит сдвиг значения, если сочетаются наречие и прилагательное. Если при вычислении значения пары прилагательное плюс существительное мы применяем сложение, то для измерения смысла пары наречие плюс прилагательное нужно переходить к умножению. Тем самым, кстати сказать, объясняется тот факт, что мы воспринимаем как бессмысленные сочетания вроде немного средний, чрезвычайно обыкновенный и т. п. Прилагательные средний и обыкновенный оцениваются нулевым баллом. А умножение на нуль дает нуль: нулевой смысл прилагательного уничтожает смысл и наречия, которое входит с ним в сочетание.

Океан трудностей, гора проблем

Мы рассказали об измерении значений, о тех интереснейших результатах, которые были получены. Теперь пора рассказать и обо всех стоящих перед исследователями трудностях, о спорном и нерешенном.

Первая трудность – строгий выбор числа измерений смыслового пространства. В английском их три (хотя и это число оспаривается многими лингвистами, некоторые исследователи вели анализ по восьми измерениям значений). А сколько измерений в других языках? Пять? Два? Десять? Никто не может назвать язык с наименьшим или наибольшим числом измерений смыслового пространства, никто не может точно расклассифицировать языки мира на двумерные, трехмерные, пятимерные и т. д.

Впрочем, и в английском языке, лучше всех изученном «измерителями значений», также много неясностей со смысловым пространством. Иногда трехмерное пространство смысла как будто теряет одно из своих измерений. Сила и активность прочно сливаются в одно общее измерение – динамизм. Порой же случается, что оно становится и вовсе одномерным, ибо сила и активность поглощаются оценочным измерением. Так что на сегодняшний день даже для английского языка можно с уверенностью назвать лишь одно надежное и выверенное измерение – оценочное.

Но не только в этом заключаются трудности. По самой идее измерения значений эта операция должна быть обратимой: по заданным числовым признакам мы должны всегда разыскать слово, которое эти признаки описывают. На практике это далеко не так. А точнее – почти всегда не так. Попробуйте-ка догадаться, какое понятие описывают признаки «счастливый плюс один», «быстрый плюс два», «твердый плюс один»… Оказывается, речь идет о понятии отец!

Или еще один пример. Слово имеет координаты смысла, выраженные в трех его измерениях числами + 1,09, —1,85 и +0,77… Что это за слово? Почти наверняка не догадаетесь: это слово миг. Между тем, если бы данные по шкалам не были так обобщены, мы могли бы догадаться. Ведь это слово оценивалось в опытах как очень короткое, очень маленькое, очень быстрое, хорошее, скорее простое и т. п. Но при сведении этих оценок в общую пропала их специфика.

Кстати, еще один недостаток измерения значений, который можно показать на примере слова миг. Значение слов момент и мгновение практически одно и то же, что и миг. Однако же, по данным «Атласа смысловых профилей», расстояние между ними равно 0,3 –0,7 —1,0. Между тем слова, значение которых различается, находятся порой удивительно близко: смысловое расстояние между словами год и век равно трем десятым (а синонимы столетие и век разделены одной и одной десятой).

Вот еще один характерный недостаток: одинаковые расстояния разделяют пары самых различных слов. Судите сами, какие разнообразнейшие пары оказались разделенными показателями единицы: час – век, год – сезон, сутки – апрель, июль – час, июль – прошлое, месяц – время, береза – время, воскресенье – завтра, воскресенье – неделя, утро – завтра и т. п. Интуитивно нам ясно, что на самом деле значения слов год и сезон гораздо ближе, чем береза и время. А ведь именно эта интуиция носителя языка – главное в измерении значений, все остальное имеет вспомогательный характер, все эти «кубы данных», формулы и т. д. Значит, ошибаются они, а не интуиция!

Возможно, что ряд ошибок вызван выбором пар прилагательных, через которые пропускалось слово, чье значение измерялось. «Когда на шкалах гладкий – шероховатый, высокий – низкий оцениваются понятия типа столб или гриб, шкалы применяются испытуемыми буквально; когда те же шкалы используются для измерения значений таких слов, как леди, грех, шкалы могут быть поняты только метафорически», – пишет Ю. Д. Апресян, давший вдумчивый и основательный разбор методики измерения значений, разработанной Осгудом. Получается, что приведенные выше пары прилагательных в различных словах измеряют разные значения, в одном случае прямое, буквальное, а во втором – образное, метафорическое. И примеры такого раздвоения значений можно увеличить: так, по-разному на шкале твердый – мягкий будут оцениваться слова камень и человек, дерево и характер.

Следует добавить, что слова в английском, как и в любом другом языке мира, очень часто имеют не одно, а несколько значений. В зависимости от того, на каком из этих значений остановится испытуемый, будет находиться и оценка. Например, слово Нге означает и огонь, и пожар. Очевидно, что оценка несущего тепло и свет огня будет резко отличаться от оценки губительного и опасного пожара.

И все-таки, несмотря на все эти существенные недостатки, работы Осгуда и его сотрудников имеют большое значение, открывая перспективы дальнейших поисков, новых исследований. Ибо, как остроумно заметил один из крупных зарубежных лингвистов У. Вайнрайх, хотя ученые в своих поисках значения и не открыли нового пути в Индию, приобретенный ими опыт навигации может оказаться весьма полезным.

Навигация в «страну значения» началась давно, и пионерами ее были специалисты по математической логике. Фраза «Венера – утренняя звезда» обозначает тот же объект, что и фраза «Венера – вечерняя звезда». Однако очевидно, что значение этих фраз различно… Что же это такое – значение? Этому вопросу посвящают десятки монографий и сотни трудов математические логики, специалисты по теории знаков, философы и математики. И с каждым годом становится все более ясным, что ключ к решению этой проблемы – анализ нашего обычного языка, во всей его внешней простоте и необыкновенной внутренней сложности.

К анализу значения, смысла слов пришла и современная лингвистика. Ибо этого требовала сама логика развития науки о языке. Этого требуют, как вы, вероятно убедились и сами, насущные проблемы машинного перевода, информатики, реферирования литературы с помощью ЭВМ. Словом, к поискам значения привели задачи теории и практики языкознания второй половины двадцатого столетия. И в этих поисках наука о языке идет рука об руку с другими дисциплинами. Лингвист, стремящийся найти путь к измерению значений, обращается к ассоциациям, которые изучает психолог, а математическая статистика делает его выводы достоверными. Анализ значения потребовал создания новых разделов математики вроде теории нечетких множеств и толерантных пространств.

Проблемой смысла занимаются в наши дни не только лингвисты, но и философы, психологи, логики, кибернетики, специалисты по теории знаков – семиотике. Слишком уж сложен и многомерен человеческий язык, главная задача которого – передача смысла.

Недаром же именуют его семантическим кодом.

НАШ УДИВИТЕЛЬНЫЙ КОД

Математическая теория связи позволяет измерять информацию с помощью точных чисел. О том, как теория информации находит применение в изучении человеческого языка, о сложности этого изучения расскажет очерк

НАШ УДИВИТЕЛЬНЫЙ КОД

Формула Шеннона

Для чего мы говорим? Что является целью всякого общения? Зачем в человеческом обществе существуют такие мощные и дальнобойные средства связи, как телевидение, радио, телеграф?

Очевидно, для передачи сведений. Или, говоря другими словами, для передачи информации. Слово информация имеет много значений. Но связистам, инженерам, техникам, математикам необходимо одно значение – точное и четкое. «Быстрое усовершенствование техники связи, рост потребностей в передаче информации, «кризис эфира», в котором «не умещается» информация, передаваемая в форме электромагнитных волн, – все это поставило очень остро проблему создания более экономных методов передачи информации», – пишет доктор физико-математических наук Р. Л. Добрушин в статье «Математические методы в лингвистике».

А прежде всего необходимо было ввести точную меру, единицу измерения информации. Еще в 1928 году американский инженер Хартли предложил оценивать количество информации логарифмом числа возможных событий.

Когда мы бросаем вверх монету, ясно, что она может упасть либо гербом, либо решеткой. Если мы бросаем игральный кубик, то неопределенность (или, как говорят математики, энтропия) исхода возрастает. Ведь с одинаковой вероятностью может выпасть любая из граней кубика, желанная шестерка столь же часта, как единица, двойка, тройка и т. д. Понятно, что сообщение о том, какой стороной упала монета, несет меньше информации, чем сообщение о том, сколько очков выпало при бросании кубика. Ибо информация – это то, что снимает неопределенность, то есть, попросту говоря, снимает незнание.

Общепринятой единицей измерения информации считается бит или «да – нет» единица. Слово бит происходит от сокращенных английских слов binary digest – двоичный разряд, так как для измерения информации в битах берутся не привычные нам со школьной скамьи десятичные логарифмы, а двоичные, основанием которых служит число 2.

Известие о том, что подброшенная в воздух монета упала гербом, принесет нам информацию ровно в один бит. Ведь log₂ 2 («орел» или «решка»?) равен 1, то есть одному биту. Известие о том, что выпала игральная карта трефовой, пиковой или другой из четырех мастей, принесет нам информацию в два бита, ибо log₂4 = 2. Сообщение об исходе ситуации, где были возможны (и равновероятны!) восемь вариантов, даст информацию в три бита (log₂ 8 = 3, или 2³ = 8, а число битов и есть показатель степени числа два).

Но эта мера удобна и верна лишь при условии, если все наши «выборы» равноправны, имеют одинаковую вероятность появления. И масть игральной карты, и любая грань кубика, и герб или решетка монеты выпадают с равной вероятностью. А как быть, если вероятности не равны?

Хартли понимал, что вероятности исходов влияют на количество информации, которое несет сообщение. Почти невероятному исходу нельзя придавать такое же значение, как и самому правдоподобному. Но он считал, что различия между этими исходами нельзя выразить в числах. Они определяются психологическими (если речь идет о людях), метеорологическими (если речь идет о погоде) или другими факторами, неподведомственными математике.

Однако в 1948 году американский математик и инженер Клод Шеннон показал, что эта точка зрения ошибочна. Любые факторы – психологические, метеорологические и т. д. – можно учесть, привлекая теорию вероятностей. Он предложил формулу, с помощью которой можно измерять количество информации о событиях, происходящих с разной вероятностью.

Вот эта формула Шеннона:

H₁ = – (P₁ log₂P₁+ Р₂log₂Р₂+ … + Р_n log₂ Р_n).

Н₁– эта величина неопределенности, которую снимает сообщение, и, значит, мера количества информации (ведь информация уничтожает неопределенность); n – число «выборов», а Р₁, Р₂…, Р_n– вероятности появления этих «выборов».

Благодаря этой формуле ученые получили возможность измерять информацию, содержащуюся в кодовых знаках самого различного содержания. Более того, благодаря тому, что мы избираем в качестве «меры» информации логарифмы, мы можем складывать информацию, содержащуюся в каждом кодовом знаке, составляющем сообщение, и таким образом измерить количество информации, содержащееся во всем сообщении.

Действительно, как учит теория вероятностей, вероятность появления двух событий равна произведению вероятностей этих событий. И сумма информации, которую несут кодовые знаки, равна информации всего текста, из этих знаков состоящего. Не будь логарифмов, нам пришлось бы умножать вероятности появления этих знаков. «Логарифмическая» формула Шеннона тем и удобна, что согласно ей информация двух страниц книги – это сумма информации первой страницы и информации второй страницы; информация всей книги – это сумма информации всех ее страниц.

Впрочем, здесь мы переходим уже не в область математики, а в область другой научной дисциплины – математической лингвистики.

«Бандвагон» от науки?

После того, как Клод Шеннон заложил основы вероятностной теории информации, эта теория нашла отклик среди ученых различных специальностей: биологов, лингвистов, философов, генетиков, искусствоведов, психологов, экономистов, геологов, химиков, математиков. Кодом стали называть любую систему знаков, предназначенных для передачи сообщений. Термины теории информации получили широчайшее применение в самых разных публикациях.

Но вот выходит краткая статья самого создателя этой теории, Клода Шеннона, озаглавленная «Бандвагон». Этим словом в США называют политическую партию, добившуюся популярности и победившую на выборах, или просто группу лиц, программа которых находит у населения широкую поддержку. Родился этот термин, вероятно, потому, что обычно победивший на выборах кандидат проезжал по городу в открытой машине, сопровождаемый оркестром (английское band значит оркестр, джаз, а wagon – повозка, карета).

За последние годы теория информации превратилась в своего рода бандвагон от науки – так начинает свою статью Шеннон. Появившись на свет в качестве специального метода в теории связи, она заняла выдающееся место как в популярной, так и в научной литературе. А в результате «значение теории информации было, возможно, преувеличено и раздуто до пределов, превышающих ее реальные достижения».

Очень редко удается открыть одновременно несколько тайн природы одним и тем же ключом, предостерегает Шеннон. Здание нашего искусственно созданного благополучия слишком легко может рухнуть, если в один прекрасный день окажется, что при помощи нескольких магических слов вроде информация, энтропия, избыточность и т. п. нельзя решить всех нерешенных проблем.

«Что можно сделать, чтобы внести в сложившуюся ситуацию ноту умеренности?»– задается вопросом сам Шеннон. И отвечает так: прежде всего представителям различных наук нужно ясно понимать, что основные положения теории информации касаются очень специфического направления, что оно не обязательно должно оказаться плодотворным, скажем, в психологии или экономике. «Я лично полагаю, что многие положения теории информации могут оказаться очень полезными в других областях науки, – говорит Шеннон. – Действительно, уже достигнуты некоторые весьма значительные результаты. Однако поиск путей применения теории информации в других областях не сводится к тривиальному переносу терминов из одной области науки в другую. Этот поиск осуществляется в длительном процессе выдвижения новых гипотез и их экспериментальной проверке».

Эти олова основоположника теории информации прекрасно иллюстрируют ситуацию, что сложилась в языкознании, когда человеческую речь стали рассматривать в качестве своеобразного кода. Изучение языка как кода началось уже на заре теории информации. Но только сейчас, по мере того как растут наши знания, мы начинаем постигать, насколько сложен, специфичен, можно сказать, удивителен код – наш язык, с помощью которого мы общаемся.

Биты и буквы

Сколько информации несет одна буква? Вопрос этот возник в первые же годы рождения теории информации. Простейший ответ на него найти легко. Надо взять число букв в том или ином алфавите мира, а затем выразить его в двоичных логарифмах. Ведь каждая буква – это один из возможных исходов, вроде выпадения герба или решетки монеты, одной из граней кубика и т. д. Число же этих исходов равно числу различных букв.

В русском алфавите тридцать три буквы, плюс еще нулевая – пробел между словами. Но так как е и ё сейчас практически не различаются, то их можно считать одной буквой. Можно объединить мягкий знак с твердым. В итоге получаем тридцать две буквы, тридцать два кодовых знака нашего языка. Двоичный логарифм тридцати двух равен пяти. Получаем величину в пять бит. Столько информации несет одна буква нашего алфавита.

В языках, пользующихся латинским алфавитом, число букв равно двадцати шести. Прибавим еще пробел, нулевую букву, а затем выразим это в двоичных логарифмах, то есть в битах. Получаем величину в 4,76 бит. Столько информации несет одна буква английского, испанского, немецкого, французского языков.

В алфавите самоанского языка, на котором говорят жители одного из полинезийских архипелагов, всего лишь шестнадцать букв. Двоичный логарифм шестнадцати равен четырем, значит, одна буква самоанского алфавита несет информацию в четыре бита, на один бит меньше, чем буква русского.

Все это было бы совершенно правильно, если бы буквы алфавита встречались с одинаковой вероятностью, если бы языки не имели свойства, называемого в теории информации избыточностью. Избыточность позволяет определять, насколько разнится максимальная информация, которую может нести знак кода, от реальной, которую он несет. Иными словами, это своеобразная мера «неэкономности» кода, в том числе и любого языка мира.

Интуитивно, не производя подсчетов, мы догадываемся, что одни буквы, вроде о или с, встречаются часто, другие, вроде ф или э – реже. То же самое и со словами: союз и или местоимение я весьма часты, а прилагательное сиятельный или глагол выковыривать – гораздо реже. Мы согласуем нашу речь в роде, числе, падеже, залогах, наклонениях и т. д. Наша речь осмысленна, значит, не всякое слово может соединяться с другим… Короче говоря, на язык наложены ограничения, начиная с употребительности отдельных букв и кончая сочетаемостью слов по смыслу.

Подсчитать частоту употребления букв в различных алфавитах мира нетрудно. Выше приводилась величина информации, которую несет одна буква различных языков мира. Но если учитывать, что буквы имеют разную вероятность появления в тексте, то эта величина будет иной. Причем даже в языках, которые пользуются одним и тем же латинским алфавитом. В немецком она равна 4,1 бита, в английском – 4,03 бита, в испанском – 3,98 бита, во французском – 3,96 бита (исходная величина для всех них была, как вы помните, 4,76 бита). Для русского языка величина информации, которую несет одна буква, сократилась до 4,35 бита, для самоанского – до 3,4 бита.

Но это – лишь первое приближение. Ведь различные вероятности имеют не только отдельные буквы, но и сочетания двух, трех и т. д. букв (в русском языке, например, невозможно сочетание гласная плюс мягкий знак и другие подобные сочетания). Если учесть вероятности двухбуквенных сочетаний, то величина информации, которую несет одна буква русского алфавита, будет равна 3,52 бита, английского – 3,32 бита, французского– 3,17 бита, а самоанского – 2,68 бита. Учет вероятностей трехбуквенных сочетаний для русского алфавита дает величину в 3,01 бита, для английского – 3,1 бита, для французского – 2,83 бита.

Вы, вероятно, заметили, что по мере того, как мы учитываем все более и более «дальние» связи между буквами, уменьшается количество информации на одну букву и соответственно увеличивается избыточность языка. Возможно, вы заметили и другое: одновременно происходит сближение величины информации в языках, пользующихся различными алфавитами, по мере того, как мы все точнее и точнее описываем наш код-язык.

Действительно, когда была определена величина информации, приходящаяся на одну букву осмысленного текста в разных языках мира, она оказалась примерно одинаковой.

Назад к карточке книги "Звуки и знаки"