Текст книги "В начале было Слово…"
Автор книги: Е. Седов
Соавторы: Д. Кузнецов
сообщить о нарушении
Текущая страница: 4 (всего у книги 5 страниц)
ЧТО ИЗМЕРИЛ КЛОД ШЕННОН
В основу теории информации положен предложенный К Шенноном метод исчислений количества новой (непредсказуемой) и избыточной (предсказуемой) информации. содержащейся в сообщениях, передаваемых по каналам технической связи.
Предложенный Шенноном метод измерения количества информации оказался настолько универсальным, что его применение не ограничивается теперь узкими рамками чисто технических приложений.
Вопреки мнению самого К. Шеннона, предостерегавшего ученых против поспешного распространения предложенного им метода за пределы прикладных задач техники связи, этот метод стал находить все более широкое применив в исследованиях и физических, и биологических, и социальных систем.
Ключом к новому пониманию сущности феномена информации и механизма информационных процессов послужила установленная Л Бриллюэном взаимосвязь информации и физической энтропии Эта взаимосвязь была первоначально заложена в самый фундамент теории информации, поскольку для исчисления количества информации Шеннон предложил использовать заимствованную из статистической термодинамики вероятную функцию энтропии.
Многие ученые (начиная с самого К. Шеннона) склонны были рассматривать такое заимствование как чисто формальный прием Л Бриллюэн показал, что между вычисленным согласно Шеннону количеством информации и физической энтропии существует не формальная, а содержательная связь.
В статистической физике с помощью вероятностной функции энтропии исследуются процессы, приводящие к термодинамическому равновесию, при котором все состояния молекул (их энергии, скорости) приближаются к равновероятным, а энтропия при этом стремится к максимальной величине.
Благодаря теории информации стало очевидно, что с помощью той же самой функции можно исследовать и такие далекие от состояния максимальной энтропии системы, как, например, письменный текст5.
Еще один важный вывод заключается в том, что
с помощью вероятностной функции энтропии можно анализировать все стадии перехода системы от состояния полного хаоса, которому соответствуют равные значения вероятностей и максимальное значение энтропии, к состоянию предельной упорядоченности (жесткой детерминации), которому соответствует единственно возможное состояние ее элементов.
Данный вывод оказывается в равной мере справедливым для таких несходных по своей природе систем, как газы, кристаллы, письменные тексты, биологические организмы или сообщества и др.
При этом, если для газа или кристалла при вычислении энтропии сравнивается только микросостояние (т. е. состояние атомов и молекул) и макросостояние этих систем (т. е. газа или кристалла как целого), то для систем иной природы (биологических, интеллектуальных, социальных) вычисление энтропии может производится на том или ином произвольно выбранном уровне6. При этом вычисляемое значение энтропии рассматриваемой системы и количество информации, характеризующей степень упорядоченности данной системы и равное разности между максимальным и реальным значением энтропии, будет зависеть от распределения вероятности состояний элементов нижележащего уровня, т. е. тех элементов, которые в своей совокупности образуют эти системы.
Другими словами,
количество сохраняемой в структуре системы информации пропорционально степени отклонения системы от состояния равновесия, обусловленного сохраняемым в структуре системы порядком.
Сам того не подозревая, Шеннон вооружил науку универсальной мерой, пригодной в принципе (при условии выявления значений всех вероятностей) для оценки степени упорядоченности всех существующих в мире систем.
Определив введенную Шеноном информационную меру как меру упорядоченности движения, можно установить взаимосвязь информации и энергии, считая энергию мерой интенсивности движения. При этом одному из авторов этой книги удалось показать, что количество сохраняемой в структуре систем информации пропорционально суммарной энергии внутренних связей этих систем7.
Одновременно с выявлением общих свойств информации как феномена обнаруживаются и принципиальные различия относящихся к различным уровням сложности информационных систем.
Так, например, все физические объекты, в отличие от биологических, не обладают специальными органами памяти, перекодировки поступающих из внешнего мира сигналов, информационными каналами связи. Хранимая в них информация как бы «размазана» по всей их структуре. Вместе с тем, если бы кристаллы не способны были сохранять информацию в определяющих их упорядоченность внутренних связях, не было бы возможности создавать искусственную память и предназначенные для обработки информации технические устройства на основе кристаллических структур.
Вместе с тем необходимо учитывать, что создание подобных устройств стало возможным лишь благодаря разуму человека, сумевшего использовать элементарные информационные свойства кристаллов для построения сложных информационных систем.
Простейшая биологическая система превосходит по своей сложности самую совершенную из созданных человеком информационных систем. Уже на уровне простейших одноклеточных организмов задействован необходимый для их размножения сложнейший информационный генетический механизм. В многоклеточных организмах помимо информационной системы наследственности действуют специализированные органы хранения информации и ее обработки (например, системы, осуществляющие перекодирование поступающих из внешнего мира зрительных и слуховых сигналов перед отправкой их в головной мозг, системы обработки этих сигналов в головном мозге). Сложнейшая сеть инормационных коммуникаций (нервная система) пронизывает и превращает в целое весь многоклеточный организм.
Уже на уровне биологических систем возникают проблемы учета ценности и смысла используемой этими системами информации. Еще в большей мере такой учет необходим для ананлиза функционирования интеллектуальных информационных систем.
Глубокое осознание специфики биологических и интеллектуальных систем позволяет выявить те границы, за пределами которых утрачивает свою компетентность разработанный современной наукой информационно-энтропийный подход.
Определить эти границы Шеннону пришлось на самом начальном этапе создания теории информации, поскольку без этого нельзя было использовать количественную меру информации для оценки письменных текстов и других созданных разумом человека информационных систем. Именно с этой целью Шеннон делает оговорку о том, что предложенный им метод исчисления информации письменных текстов игнорирует такие же их неотъемлемые свойства, как смысл и ценность содержащихся в них сообщений.
Так, например, при подсчете количества информации, содержащейся в таких двух сообщениях, как «очередную партию Каспаров играет белыми» и «у гражданина Белова родился сын» получится одна и та же величина – 1 бит. Нет сомнения, что два этих сообщения несут разный смысл и имеют далеко не равнозначную ценность для гражданина Белова. Однако, как было отмечено выше, оценка смысла и ценности информации находится за пределами компетенции теории информации и поэтому не влияет на подсчитываемое с помощью формулы Шеннона количество бит.
Игнорирование смысла и ценности информации не помешало Шеннону решать прикладные задачи, для которых предназначалась первоначально его теория: инженеру по технике связи вовсе не обязательно вникать в суть сообщений, передаваемых по линии связи. Его задача заключается в том, чтобы любое подобное сообщение передавать как можно скорее, с наименьшими затратами средств (энергии, диапазона используемых частот) и, по возможности, безо всяких потерь. И пусть тот, кому предназначена данная информация (получатель сообщений), вникает в смысл, определяет ценность, решает, как использовать ту информацию, которую он получил.
Вот такой сугубо прагматичный подход позволил Шеннону ввести единую, не зависящую от смысла и ценности меру количества информации, которая оказалась пригодной для анализа всех обладающих той или иной степенью упорядоченности систем.
Метод, использованный Шенноном для исчисления информации, известен в науке как метод абстрагирования от некоторых конкретных свойств исследуемых явлений с целью выявления их более общих свойств. Шеннону пришлось для этого игнорировать смысл и ценность анализируемых сообщений подобно тому, как Галилею пришлось задолго до этого исключить из рассмотрения силу трения, чтобы выявить более общее свойство всякого механического движения (закон инерции). После того, как были открыты законы механики, стал возможен анализ любого механического движения уже с учетом силы трения, присутствующей в процессах движения всех конкретных механических систем.
Нечто подобное произошло и с теорией информации, когда после основополагающих работ Шеннона начали разрабатываться основы смысловой (семантической) и ценностной (прагматической, аксиологической) информационных теорий.
Однако ни одной из этих теорий и предлагаемых их авторами единиц измерения ценности или смысла не суждено было приобрести такую же степень универсальности, какой обладает мера, которую ввел в науку Шеннон.
Дело в том, что количественные оценки смысла и ценности информации могут производится только после предварительного соглашения о том, что же именно в каждом конкретном случае имеет для рассматриваемых явлений ценность и смысл. Нельзя одними и теми же единицами измерить ценность информации, содержащейся, скажем, в законе Ома и в признании любви. Иными словами, критерии смысла и ценности всегда субъективны, а потому применимость их ограничена, в то время как мера, предложенная Шенноном, полностью исключает субъективизм при оценке степени упорядоченности структуры исследуемых систем.
Так что же характеризует подсчитанная по формуле Шеннона величина энтропии текста, выражаемая количеством бит? Только лишь одно свойство этого текста – степень его упорядоченности или, иными словами, степень его отклонения от состояния полного хаоса, при котором все буквы имели бы равную вероятность, а текст превратился бы в бессмысленный набор букв.
Упорядоченность текста (или любой другой исследуемой системы) будет тем больше, чем больше различие вероятностей и чем больше вероятность последующего события будет зависеть от вероятностей предыдущих событий8. При этом,
согласно негэнтропийному принципу информации количество информации, выражающее этот порядок, будет равно уменьшению энтропии системы по сравнению с максимально возможной величиной энтропии, соответствующей отсутствию упорядоченности и наиболее хаотичному состоянию систем9.
Методы исчисления информации, предложенные Шенноном, позволяют выявить соотношение количества предсказуемой (то есть формируемой по определенным правилам) информации и количества той неожиданной информации, которую нельзя заранее предсказать.
Содержащуюся в правилах информацию Шеннон определил как ИЗБЫТОЧНУЮ, потому что знание правил построения сообщений позволяет предсказывать появление букв (или других символов) раньше, чем они будут сообщены по линии связи.
Таким способом удается в той или иной степени «разгрузить» предназначенный для передачи сообщений канал. Проведенный Шенноном анализ английских текстов показал, что содержащаяся в них избыточная информация составляет около 80% от общего количества информации, которое заключает в себе письменный текст. Остальные 20% – это та самая энтропия, благодаря которой текст может служить источником непредсказуемой энергии10.
Если бы текстовые, устные или зрительные (в частности телевизионные) сообщения были полностью лишены энтропии, они не приносили бы получателям сообщений никаких новостей.
Если бы письменный текст строился только на основании заранее сформулированных правил, то, установив эти правила по тексту первой страницы, можно было бы заранее предсказать, что будет написано на страницах 50, 265, 521 и т.д.
ПРЕДЕЛЫ ЭВОЛЮЦИОННОЙ ИЗМЕНЧИВОСТИ ИНФОРМАЦИОННЫХ СИСТЕМ
Наиболее наглядной иллюстрацией информационно-энтропийных закономерностей и ограничений эволюционных процессов может служить письменный текст. А поскольку текст есть не что иное, как закодированное отражение устной речи, имеет смысл в дальнейшем вести речь об эволюции языка.
Примерами эволюционных изменений языка могут служить, в частности, образование неологизмов, заимствование иностранных слов и др.
Приобщение бывших социалистических стран к международному рынку сопровождается ассимиляцией таких терминов, как «менеджмент», «маркетинг», «дилер» и т.п. С переходом к парламентским формам управления государством в бывших социалистических странах приобрели популярность такие понятия, как «консенсус» и «плюрализм».
Процесс вовлечения в лексикон новых слов имеет ряд существенных ограничений. Необходимым условием ассимиляции иностранных слов оказывается адаптация этих слов к новой языковой среде. При включении иностранного слова в лексикон нового языка, слово это должно подчиняться действующим в этом языке правилам согласования слов (т. е. правилам склонения, сопряжения и др.). Подобная адаптация аналогична процессам обучения живых организмов правилам поведения в необычной для них среде).
В свою очередь правила согласования слов подчиняются требованиям, возникающим на еще более высоких уровнях языковой структуры.
Эти требования зависят прежде всего от смыслового содержания текста, от стиля, присущего составителю, данного текста и, наконец, от всего набора грамматических и фонетических правил данного языка.
Например, слово СПУТНИК было введено в русский язык Достоевским. Из бытовой сферы («спутник жизни») это слово распространилось в областьастрономии («Луна – спутник Земли») и стало международным словом после того, как в Советском Союзе был запущен первый искусственный спутник Земли. Однако, при всех трансформациях смысла форма этого слова определялась правилами грамматики, установленными вместе с возникновением языка. Об этом свидетельствует совпадение структуры слова С-ПУТ-НИК с такими аналогами, как СО-РАТ-НИК и СО-ПЛЕМЕН-НИК, образованными от корней древних слов ПЛЕМЯ и РАТЬ.
С биологическим и видами тоже могут происходить аналогичные метаморфозы. В результате мутаций может родиться заяц, у которого уши будут короче, чем у собратьев, или его шерстяной покров приобретет необычный цвет. Эти признаки он передаст по наследству, быть может, они закрепятся в потомстве, но при этом потомки нашего зайца тоже останутся зайцами, но ни в коем случае не превратятся в волка или лисицу и, уж тем более, не примкнут к отряду приматов. Подобно тому, как структура нового слова «спутник» совпадает со структурой древних слов «соратник» и «соплеменник», внутренняя и внешняя структура организма современного зайца повторяет структуру зайца, появившегося в результате акта творения на нашей Земле.
Мутациям могут подвергаться только второстепенные признаки, а основные признаки вида остаются неизменными, подобно тому, как в приведенных выше примерах словообразований неизменными остаются определяющие смысловое значение каждого слова корни ПУТЬ, ПЛЕМЯ и РАТЬ. При этом могут меняться второстепенные признаки слова (префиксы, суффиксы, окончания), превращая ПУТЬ в СПУТНИК. ПОПУТЧИК, ПУТЕВОЙ, ПУТЕВКА, РАСПУТИЦА, БЕСПУТНЫЙ, ПУТЕВОДНЫЙ и т.п.
Изначальный смысл слова ПУТЬ при этом всюду останется неизменным, а основанные на коренном слове словообразования могут приобретать те или иные оттенки в процессе последующей эволюции языка.
Каждое новое слово подчиняется правилам, сохраняемым на высоких иерархических уровнях информационно-энтропической спирали и действующим сверху вниз и на уровне слов, и на уровне букв.
Подобным образом мог быть сформирован и живой организм. Правила, которым подчиняются все его согласованно функционирующие органы, ткани и клетки, могли быть «сформулированы» только на самых высоких, не доступных нашему разуму уровнях информационно-энтропической спирали.
Приведенная в таблице 2.1 (Приложение 2) «фраза», полученная в результате случайного комбинирования 8-и буквенных сочетаний, имеет формальные признаки осмысленных фраз. В ней можно различить глагольные формы (враться), наречия (непо и корко), форму прилагательного (весел) и даже уловить некий оттенок смысла (какого-то бодрого действия, движения).
В свое время академик Щерба тоже приводил пример форматизированной фразы, из которой можно было бы понять, что некая Глокая куздра штекобуданула (читай: «оттолкнула») некого «бокра» и кудрячит (читай: «приласкивает») бокренка.
Означают ли две рассмотренные «фразы», что при движении снизу вверх по рассматриваемой нами спирали, можно путем случайных комбинаций букв и слогов получить осмысленный текст? Такой вывод был бы ошибочным. Формальное сходство с грамматическими конструкциями порождает всего лишь иллюзию смысла, потому что не смысл рождается из грамматики, а грамматика строится таким образом, чтобы с ее помощью можно было передать (т. е. закодировать) содержащийся в той или иной фразе смысл.
Таким образом, эти примеры еще раз убеждают нас в том, что план построения сложной информационной системы может формироваться только на верхних иерархических уровнях и оттуда спускаться на нижележащие уровни, задавая на них тот или иной порядок чередования элементов.
Сказанное выше имеет самое непосредственное отношение к проблеме возникновения и функционирования биологических систем.
Выше было отмечено, что проводимый на самом нижнем структурном уровне текста (на уровне отдельных букв) статистический анализ распределения вероятностей букв и последующий расчет количества информации и величины энтропии способны регулировать лишь результирующую упорядоченность текста. Причины этой упорядоченности формируются на недоступных информационно-энтропийному анализу верхних иерархических уровнях текста и языка.
Пытаясь преодолеть указанные ограничения возможностей информационно – энтропийного анализа, К. Шеннон исследовал вероятности появления в тексте различных 4-х, 6-ти и 8-ми буквенных сочетаний. Подставляя найденные значения вероятностей в вероятную функцию энтропии, К. Шеннон определил таким образом величину энтропии с учетом взаимной зависимости (корреляции) букв в пределах слогов, а затем экстраполировал полученный результат на более длительные текстовые отрезки, показав, что корреляция не выходит за пределы отрезков текста в 40—60 букв.
Аналогичные результаты исследований русских текстов представлены в работе Добрушина и в Приложении 2 (табл. 2.1).
Используемый теорией информации полуэмпирический метод учета межбуквенных корреляций обладает рядом существенных ограничений, которые становятся очевидными, если сопоставить результаты анализа искусственных текстов Шеннона со свойствами реального языка. Дело в том, что при искусственном расчленении текста на отрезки из 4-8 букв стираются границы, разделяющие уровни слогов от уровней слов. В реальных текстах в зависимости от смыслового контекста и одна, и две, и три буквы могут быть в одних случаях самостоятельным словом, а в других – входить в состав других слов.
Очевидно, что в двух указанных случаях рассматриваемые сочетания букв относятся к различным иерархическим уровням текста (или к уровню слогов), однако подобное разграничение уровней может осуществляться только по смыслу, который заключает в себе анализируемый текст. А поскольку используемые теорией информации методы игнорируют смысловое содержание текста, исследуемые ею искусственные тексты отличаются от реальных текстов отсутствием четкой иерархической структуры.
Причины возникновения исследуемого порядка всегда остаются за пределами компетенции статистических методов. Находясь как бы на нижних ступенях некой упорядоченной иерархической структуры, вооруженная статистическими методами наука исследует не само действие порождающих исследуемый порядок причин, а лишь его результат. Любая попытка с помощью информационно-энтропийного анализа делать какие бы то ни было выводы о содержательной стороне письменных текстов была бы равносильна суждению о достоинствах и недостатках какого-то музыкального произведения на основании того, как часто создававший его композитор прибегал к помощи ноты ДО или СОЛЬ. Подобным способом можно идентифицировать принадлежность тому или иному автору его сочинений, но бесполезно пытаться по результатам такого анализа доискиваться до причин, побудивших этого автора сочинить именно эту симфонию, поэму или роман.
Из всего вышесказанного следует, что адекватное представление об иерархической структуре реальных текстов не может быть получено на основании конструирования искусственных текстов, осуществляемого теорией информации по принципу «снизу вверх».
Присущий реальным текстам порядок чередования букв формируется согласно правилам, заданным верхними иерархическими уровнями текста, то есть не «снизу вверх», а «сверху вниз». Что же касается используемой теорией информации вероятностной функции энтропии, то она может быть использована в качестве точного математического инструмента только на нижних уровнях иерархии текста, поскольку только на этих уровнях удается найти достоверные значения вероятностей появления исходных элементов этого уровня (т. е. букв). С переходом на следующий уровень мы обнаруживаем такое обилие исходных элементов этого уровня (т. е. такое количество слов), что определение вероятности появления в тексте всех слов, составляющих лексикон, становится практически неразрешимой задачей.
Так, например, лексикон искусственного текста, каждое слово которого состоит из 6-ти букв, а алфавит – из 30-ти букв, составит 306 = 729 106 «слов». Среди этих слов будут попадаться бессмысленные и даже непроизносимые сочетания из 6-ти гласных или 6-ти согласных букв.
Приняв, что значащие слова составят 0,01% от всех шестибуквенных комбинаций, получим 72900 слов. Из сочетаний этих слов можно составить практически неограниченное количество текстов, поэтому бессмысленно пытаться определять вероятности появления отдельных слов.
Это значит, что вероятностная функция энтропии не может быть использована для строгого определения количества информации и энтропии текстов на уровне слов, и поэтому Шеннон был вынужден использовать приближенные методы экстраполяции результатов, полученных на уровне слогов и отдельных букв.
Четкое понимание присущих информационно-энтропийному анализу ограничений не исключает возможности использования полученной нами на примере искусственных текстов расширяющейся информационно-энтропийной спирали (Приложение 3, фиг. 3. 3) в качестве универсальной модели всех существующих в мире иерархических систем. Благодаря теории информации, понятие «текст» приобретает общенаучный смысл.
Так, например, начальным алфавитом всех генетических кодов служат 4 нуклеотида ДНК. Генетический «лексикон» состоит из триплетов, соответствующих 20-ти аминокислотам. Содержащиеся в генах «фразы» – это закодированные программы формировния органов и их функций, «концепция» – это целостный организм.
«Начальным алфавитом» всей природы служат входящие в менделеевскую таблицу атомы химических элементов. «Лексикон» – это молекулы сложных веществ. «Фразы, концепции» – это геохимические и биологические системы, составляющие все многообразие и богатство природы.
Так же, как в случае текста, за пределами когнитивных возможностей иерархической информационно-энтропийной модели остаются вопросы о том, на каких высших уровнях и каким образом формируются правила, определяющие фиксируемую наукой на более низких уровнях упорядоченность структуры существующих в природе систем.
Как будет показано ниже, этот вопрос приобретает особую актуальность, когда речь заходит о происхождении, адаптации и эволюционной изменчивости биологических видов.
Используя текст в качестве универсальной модели, можно установить те пределы изменчивости, в которых может осуществляться самоорганизация и адаптация биологических систем. С учетом выявленных ограничений можно выявить ошибочность основных положений отстаиваемой материалистической наукой концепции происхождения и эволюции биологических видов.