355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Станислав Галактионов » Биологически активные » Текст книги (страница 18)
Биологически активные
  • Текст добавлен: 21 сентября 2016, 14:26

Текст книги "Биологически активные"


Автор книги: Станислав Галактионов


Жанры:

   

Химия

,

сообщить о нарушении

Текущая страница: 18 (всего у книги 20 страниц)

Тысячелетия проб и ошибок

Методом проб и ошибок в той или иной степени пользовались и продолжают пользоваться все естественные науки, однако для таких наук о биологически активных соединениях, как фармакология или токсикология, этот метод является прямо-таки доминирующим.

Правда, в наши дни он применяется не совсем уж вслепую; понимание важнейших молекулярных механизмов, лежащих в основе проявления того или иного вида биологической активности, позволяет резко ограничить сферу поиска интересующего нас препарата (например, используя подходы, подобные рассмотренным в главе 3); однако и сегодня еще химикам приходится синтезировать и испытывать сотни соединений некоторого ряда, прежде чем будет найден препарат, устраивающий их во всех отношениях: высокоактивный, не обладающий побочным действием, устойчивый к действию определенных групп ферментов (или, наоборот, быстро ими разлагающийся). Несмотря на значительный прогресс в понимании сути физико-химических процессов, определяющих ту или иную форму биологической активности, поиск нового препарата по-прежнему очень сильно напоминает ту самую схватку с призраком, а исследователи вынуждены предпринимать совершенно вслепую множество ходов.

Метод проб и ошибок вовсе не обязательно реализуется в форме сознательного поиска нужного биологически активного соединения. Многих из нас тянет порой пожевать какой-то листик или стебелек; иногда мы отмечаем про себя, что вот эта травка на вкус сладкая, эта – кислая, а вон та – горьковатая, но тем не менее приятная. А более наблюдательные могут в некоторых случаях обратить внимание на более отдаленные последствия: головную боль, скажем, или – чем черт не шутит – неожиданное исцеление затяжного желудочного расстройства.

Именно на этом пути делались первые шаги к становлению фармакологии и токсикологии в доцивилизованные еще времена. Собирателями и хранителями таких сведений, копившихся столетиями или даже тысячелетиями, были различного рода шаманы, колдуны, жрецы. Часто шаманы при отправлении различных ритуалов приводили себя в состояние экстаза с помощью одурманивающих снадобий, преимущественно растительного происхождения.

Истоки современной науки о биологически активных соединениях следует, видимо, искать в первых попытках обобщения опыта этой, как бы сказали в наши дни, народной медицины. Тем более что такой опыт нуждается в тщательной очистке от всевозможных плевел, примеси мистики, порой примитивной, иногда рафинированной.

В очагах великих цивилизаций древности – Средиземноморье, Индия, Китай – появились энциклопедические труды, содержащие описания тысяч лекарственных снадобий, ядов, дурманящих средств, причем возникли почти независимо друг от друга, базируясь на совершенно различных традициях народной медицины.

Первая серьезная попытка их обобщения была предпринята лишь на рубеже нынешнего тысячелетия блестящим Авиценной. Впрочем, многие региональные ветви «традиционных медицин» продолжали развиваться в почти герметической изоляции до самого последнего времени; вспомним хотя бы тибетскую медицину, ассимиляция канонов которой современной наукой начата лишь недавно (и не без элемента подозрительной сенсационной шумихи, но это уже отдельный вопрос).

Современные историки медицины считают, что большинство лекарственных средств, известных древним, было обнаружено случайно; не исключено, конечно, что и тогда находились люди, которые занимались систематическим и сознательным поиском лекарств или ядов.

И в наше время многие ценные биологически активные соединения нередко открываются совершенно случайно. Лучший пример – история открытия пенициллина, открытия, знаменующего собой целую эпоху в современной фармакологии.

Александр Флеминг, английский микробиолог, был занят исследованием стафилококков, бактерий, вызывающих ряд популярных заболеваний: ангины, фурункулы, абсцессы, некоторые пищевые интоксикации.

Для выращивания стафилококков использовалась желеобразная масса, приготовленная на агар-агаре, полисахариде, получаемом из морских водорослей; это традиционная среда для проведения микробиологических экспериментов. Как-то Флеминг обнаружил в одной из чашек с культурой стафилококка зеленые пятнышки плесени – явный брак в работе, ведь культура должна быть стерильной.

Что сделал бы на его месте любой шеф любой лаборатории? Ясное дело, накричал бы на лаборантов, готовивших среду, проводящих посев, а заодно и на других, никакого отношения к этому делу не имевших. Впрочем, бог его знает, быть может, Флеминг именно так и поступил, но только он еще и обратил внимание на одно примечательное обстоятельство: стафилококки, находившиеся в непосредственной близости к пятнам плесени, погибли. Понимая, что плесень выделяет какое-то токсичное для них вещество, Флеминг подумал, что на этом пути можно получить новый лекарственный препарат; он исследовал влияние агар-агара из пограничных с плесенью зон на лимфоциты и не обнаружил какого-либо вредного действия. По каким-то причинам, однако, на этом он и остановился, а действующее начало плесневелого секрета, губительное для стафилококков, – пенициллин (латинское название плесени, испортившей достопамятный эксперимент Флеминга – пенициллюм нотатум), было выделено лишь одиннадцать лет спустя X Флори и Е. Чейном, также английскими исследователями. Англичанином же оказался и первый вылеченный пенициллином пациент – полицейский из Оксфорда.

Это, по-видимому, самый значительный по своим последствиям случай непреднамеренного обнаружения биологически активного соединения; но далеко не единственный. В качестве более современного и несравненно более яркого примера приведу целиком заметку из одной зарубежной газеты – оговорившись, впрочем, что сам воспринимаю эту историю не без дозы скепсиса.

«Два-три раза в месяц шимпанзе, обитающие в национальном парке Танзании Гомбе, вели себя исключительно странным образом. Неожиданно отказывались от самых аппетитных плодов и толпой отправлялись в один из удаленных участков парка. Там они садились в кружок вокруг куста аспилии и начинали своеобразный ритуал. Каждая обезьяна срывала лист, тщательно разжевывала и держала во рту, а спустя одну-две минуты глотала.

Это заинтересовало зоологов. Химический анализ листьев кустарника, выполненный недавно канадскими и танзанийскими учеными, дал неожиданный ответ. Именно оказалось, что аспилия содержит неизвестный до сих пор антибиотик. Шимпанзе, разжевывая листья и задерживая их во рту, давали время антибиотику для проявления его действия. Этих одной-двух минут было достаточно, чтобы он ликвидировал находящиеся в полости рта бактерии и болезнетворные грибки, а попадая в желудок, продолжал оказывать бактерицидное действие. Фармакологи решили использовать листья этого кустарника для производства нового антибиотика, который, вероятно, получит название «аспиллин». Таким образом, человек не только происходит от обезьяны, но и может еще от нее кое-чему научиться».

А поскольку такой ритуал, по-видимому, должен передаваться из поколения в поколение, можно было бы предположить, что история поиска биологически активных веществ гораздо более продолжительна, чем история человечества, и что наши предки – перволюди унаследовали от своих обезьяньих пращуров не только всякие анатомо-морфологические особенности, но и немалый интеллектуальный багаж, в частности, в области медицины. Ну что ж, такое вполне вероятно – независимо от степени достоверности приведенной заметки. Отмечу еще, что в предметных указателях ведущих отечественных и зарубежных реферативных журналах термин «аспиллин» пока не фигурирует.

А тем временем газеты приносят вести о случайных открытиях все новых и новых ценных биологически активных веществ. Вот, мол, некий Крэг Шепард, биолог из университета штата Джорджия, обратил внимание на следующий факт. Автомеханик, окончив работу, вытер руки тряпкой, смоченной особым растворителем, и бросил эту тряпку на муравейник. Вскоре Шепард обнаружил, что муравьи под тряпкой подохли.

Решительно ничего удивительного в этом нет: действительно, трудно выжить в атмосфере паров органического растворителя даже муравью. Однако ученый, как сообщает газета, обратил внимание на то обстоятельство, что «главной составной частью этого растворителя было вещество, выделяемое из кожуры апельсина». Не скрою, я прочел это место с недоверием, но – бог знает, там у них, в Америке, всякие странности бывают, может быть, и низкосортный растворитель из апельсинов – тоже.

«Дальнейшие исследования показали, что кожица другого плода из семейства цитрусовых через 15 минут поражала двигательные органы мух, а спустя 2 часа убивала их. Осы, сверчки, оводы – все эти насекомые оказались беззащитными против цитрусов. Это делает их идеальным–естественным (!) инсектицидом. В настоящее время химики работают над точным определением структуры вещества, которое оказалось убийственным для насекомых. Новый инсектицид на основе цитрусовых наверняка обрадует также производителей соков из этих плодов, которые не знают, что делать с тоннами отходов».

Именно этих самых производителей соков я и заподозрил бы в организации появления этой заметки – авось и впрямь найдется желающий организовать завод по получению инсектицида из апельсиновых корок, до сих пор пропадающих втуне (позвольте, позвольте, а из чего же изготавливается растворитель для мытья рук автомехаников, с которого началась вся эта история?). А с другой стороны – в книге по домоводству, принадлежавшей моей бабушке (год издания – 1863) встретился мне и такой полезный совет: апельсиновые корки не выбрасывайте, а, подсушив, кладите в платяные шкафы. Очень хорошо помогает от моли.

Язык мой...

У некоторой части читателей, по-видимому, шевельнется сомнение: да полно, может ли эта самая наука о биологически активных веществах вообще называться наукой в современном понимании этого термина? Если единственный, по существу, способ обнаружить какое-то биологическое действие данного соединения – это его испытание на живых объектах, неважно, в конце концов, осуществленное случайно или в результате систематического перебора тестов.

Настоящая наука призвана выявлять общие закономерности; скажем, физик, лишь взглянув на формулу вновь синтезированного соединения, сможет что-то сказать – пусть в самых общих чертах – о его спектроскопических характеристиках, химик – о реакционной способности, растворимости и т.п. А если им дать возможность пообсчитать кое-что на ЭВМ, сообщат и заряды на атомах, и теплоту сгорания, и много чего еще. Потому что им известны фундаментальные законы, определяющие протекание реакций, взаимодействие вещества со светом, распределение электронной плотности в молекулах, причем чаще всего эти законы имеют вид четких математических формул.

А что же вы, уважаемые токсикологи, фармакологи и прочие? Где ваши фундаментальные законы?

Поиски всеобщих законов, связывающих структуру соединения с его биологической активностью, имеют почти столь же длительную историю, как и сама химическая наука. При желании попытки такого рода можно обнаружить и в трудах древних атомистов, и у средневековых алхимиков. Упомянуть последних здесь, пожалуй, особенно уместно. Не удалось им найти способ превращения неблагородных металлов в золото; как мы теперь знаем, это невозможно в принципе. (Опустим оговорки по поводу ядерных реакций.) Совершенно аналогично ныне есть все основания утверждать, что единые, универсальные законы, связывающие химическое строение вещества с его биологической активностью, вообще не существуют, так что дело здесь вовсе не в недостаточной настойчивости или умственной ограниченности алхимиков и всех последующих поколений адептов их тайного искусства, включая наших современников, священнодействующих в лабораториях, до отказа нашпигованных мудреной техникой, включая ЭВМ.

Впрочем, именно с приходом в лаборатории ЭВМ появились и кое-какие надежды. Не на отыскание, впрочем, тех универсальных законов, а на создание процедур, которые позволили бы сделать хотя бы предположительное суждение о проявлении того или иного вида биологической активности данным веществом – на основании только его структурной формулы.

Такие машинные процедуры чрезвычайно громоздки, их разработка – дело весьма и весьма трудоемкое, надежность предсказания в среднем не очень высокая, а порой вообще не выдерживает никакой критики. Наконец, в них полностью отсутствует столь ценимая теоретиками красота, лаконичная элегантность, присущая, например, выражениям типа E =  mc 2или «квадрат гипотенузы равен сумме квадратов катетов».

Прежде всего перенос задачи на ЭВМ предполагает использование лишь вполне четких формулировок. Для этой цели разрабатываются специальные языковые средства. Чтобы иметь возможность принять вопрос:

«Какими проявлениями биологической активности обладает данное соединение?» – машина должна располагать информацией о том, какие виды биологической активности бывают вообще, и иметь возможность однозначно определить, о каком именно соединении идет речь. Обе проблемы не кажутся на первый взгляд непреодолимыми; так оно, конечно, и есть. Их решение, однако, наталкивается на массу мелких, но досадных трудностей. Пролистаем бегло весьма специальное (тираж 220 экземпляров) издание «Тезаурус информационно-поисковый по биологически активным соединениям», составленный Е.М. Михайловским, В.В. Авидоном и Р.К. Казаряном. Это, как пишут сами авторы, «терминологический словарь-справочник, в котором систематизированы лексические единицы дескрипторного информационно-поискового языка по биологической активности химических соединений и важнейшие парадигматические связи между терминами».

Поясняя это определение более пространно и с помощью менее специальных «лексических единиц», можно сказать, что речь идет о перечне и систематизации терминов, принятых в данной автоматизированной системе обработки данных, четком установлении связей между ними. Система разрабатывается для нужд фармакологических исследований. Сами авторы подчеркивают, что тезаурус «не представляет собой какой-либо новой классификации лекарственных средств». Тем не менее одно из его назначений – закрепление некой принятой в дальнейшем систематики биологических свойств химических соединений.

Рассматриваются три аспекта их действия. Так, по фармакологическому эффекту все препараты можно подразделить на 217 групп; алфавитный их перечень возглавляют «Агрегации тромбоцитов активаторы», замыкают – «эритропоэза стимуляторы», а между ними находим «антидепрессанты», «жажды стимуляторы», «противобактериальные», «снотворные» и т.д. Некоторые группы подразделяются на более мелкие, например, «противокашлевые» на «противокашлевые наркотические» и «противокашлевые ненаркотические»; все три входят в число упомянутых 217.

Другой способ классификации – по механизмам биологического действия: «аденилатциклазы активаторы», «гормонов антагонисты»... «серотонинподобные»... и так далее, вплоть до трудночитаемого «UDP-N-ацетилглюкозамингликопротеид N-ацетилглюкозами-нилтрансферазы ингибиторы»; всего 309 групп. Преобладают активаторы и ингибиторы различных ферментов.

Наконец, принята и классификация по месту действия (168 групп): «вестибулярный аппарат», «железы слюнные», «мозг спинной», «протопласт бактерий»... «ухо»... «яйца насекомых». С помощью такого словаря-систематики тем самым определено, какие виды биологической активности вообще существуют. Комбинируя термины, входящие в три описанных перечня, можно определять более узкие группы проявлений биологической активности. Например, сосудорасширяющие препараты – это те, которые принадлежат одновременно группе «спазмолитики» первого перечня и «гладкая мускулатура артерий» третьего перечня.

Очевидно, предполагается, что по мере накопления новых данных тезаурус будет систематически пополняться и видоизменяться.

При разработке языка для описания структуры химического соединения приходится сталкиваться с проблемами совсем иного рода.

Уж формулы как будто чуть ли не сами должны лезть в ЭВМ. Они-то, ЭВМ, в конце концов, и созданы для восприятия формул: один из наиболее популярных языков программирования – фортран образует свое название от английского FORmula TRANslation – «перевод формул».

К сожалению, речь идет вовсе не о структурных формулах, употребляемых в химии. То есть, конечно, можно в конце концов заставить ЭВМ работать и с такими формулами, но для этого понадобится создать соответствующий язык.

Таких языков было предложено несколько – в зависимости от особенностей задач, которые предстояло решать.

Какую информацию нужно ввести в машину для того, чтобы однозначно описать структуру какого-либо соединения? Пусть это будет, скажем, молекула этилового спирта.

Во-первых, должен быть дан перечень образующих ее атомов; пронумеруем их каким-нибудь образом. Например, номера (индексы) от 1 до 6 присвоим атомам водорода, 7 и 8 – углерода, 9 – кислорода:

Во-вторых, перечислим существующие в молекуле валентные связи; это можно сделать, указав пары индексов атомов, между которыми такие связи существуют: (1,7), (2,7), (3,7), (4,8), (5,8), (6,9), (7,8), (8,9). В рассмотренной молекуле этанола все связи одинарные; при необходимости можно, однако, привести отдельные наборы пар индексов, которые определяют положение одинарных, двойных, тройных связей.

Вот, казалось бы, и вся премудрость. Действительно, информация, представленная в такой форме, четко и однозначно описывает именно структуру молекулы этилового спирта. Беда, однако, в том, что такое описание может быть осуществлено очень многими способами. В самом деле, мы произвели нумерацию атомов в молекуле совершенно произвольным образом: сначала пронумеровали все атомы водорода, затем – углерода и кислорода. Но ведь ничто не мешает пронумеровать их в обратной последовательности, или по мере перемещения от одного конца молекулы к другому, или еще каким-нибудь образом. Каждый раз мы получим точное описание именно молекулы этанола; все такие описания будут совершенно эквивалентны.

Таким образом, каждая структурная формула может быть записана в ЭВМ многими, часто очень многими способами. Нетрудно даже было бы выписать пару формул с несколько устрашающим обилием факториалов, но не станем этого делать. Достаточно сказать, что для сравнительно немудреной и скромной по размерам молекулы этанола это число составит около четырех тысяч.

Если, таким образом, попытаться теперь составить словарь описанного нового языка – точнее, русско-«новоязычный» словарь, против русского термина «этанол» оказалось бы четыре тысячи синонимов, причем синонимов совершенно равнозначных, не различающихся никакими смысловыми оттенками в отличие от того, как это обычно бывает в «настоящих» языках.

Нечего и говорить о том, сколь неудобен в работе такой словарь; а ведь избранная нами в качестве примера молекула этанола – одна из простейших органических молекул; число же синонимов в принятом нами описании лавинообразно растет с увеличением размеров молекулы. Уже для знакомой нам пальмитиновой кислоты, тоже далеко не чемпиона по размерам и сложности строения среди интересующих нас соединений, выписать все синонимы просто нет технической возможности; для этого понадобилось бы гораздо больше бумаги, чем ее произведено за всю историю человечества.

По счастью, в составлении подобных словарей нет нужды, хотя отмеченная особенность рассмотренного языка описания химических структур создает немалые трудности при его использовании в процедурах прогнозирования биологической активности химических соединений по их формуле.

Пример из детского сада

Их разработано очень много, этих процедур, и сами авторы обычно признают, что все они весьма, весьма далеки от совершенства. При этом имеются в виду два обстоятельства: сравнительно невысокая надежность получаемых предсказаний и чисто эмпирический характер, отсутствие в применяемых алгоритмах явных представлений о конкретных молекулярных механизмах, лежащих в основе того или иного вида биологической активности.

В третьей главе были, правда, вкратце рассмотрены подходы, базирующиеся именно на таких представлениях, изучающие требования, предъявляемые рецептором к пространственной структуре молекулы биологически активного соединения, взаимодействие отдельных функциональных групп рецептора и биорегулятора и т.п. Однако работы этого направления лишь самые, самые первые ласточки. Они касаются очень немногих, очень узких групп аналогов природных биорегуляторов, для которых в силу благоприятного стечения обстоятельств вообще оказалось возможным применение таких аналитических приемов (как говорят: «ищем не там, где потеряли, а там, где светло»). Да и надежность получаемых при этом оценок также далеко не стопроцентная.

Область применения эмпирических процедур анализа связи «структура – активность» (или, как часто говорят, структурно-функциональных отношений) – вещества сравнительно простые, состоящие из десятков атомов. Это и понятно, поскольку все такие процедуры – вероятностные, основанные на соотнесении каких-то характерных признаков молекулы, степени выраженности ее биологической активности в какой-то тестовой системе. Чем крупнее молекула, тем большим числом признаков она характеризуется. Значительная их часть окажется при этом несущественной с точки зрения наличия или отсутствия данного вида биологической активности, а для выявления в этой ситуации немногих существенных признаков нужны данные об активности очень большого числа сходных по структуре молекул. На самом деле все обстоит как раз наоборот: сведений, относящихся к более сложным молекулам, относительно мало, хотя бы потому просто, что их труднее синтезировать.

Впрочем, это уже начался разговор о сути методов анализа связи «структура – активность».

Для реализации подавляющего большинства таких методов необходимо, однако, решить еще одну техническую проблему: создать банки данных по биологическим активностям химических соединений. Это наиболее сложная часть подготовительного этапа, очень трудоемкая и дорогостоящая. Нужно «перевести» на принятые языки сведения о структуре вещества, его биологической активности, для многих процедур требуются еще и данные о физико-химических свойствах. Все эти данные вводятся в память ЭВМ; для организации их размещения и последующего извлечения для обработки создаются специальные пакеты программ.

Из-за огромного объема связанных с этим работ часто ограничиваются созданием узкоспециализированного банка данных, ориентированного на решение определенного класса частных задач; в последнее время, однако, предприняты успешные попытки создания более универсальных банков данных. Это очень сложно организованные службы (обычно международные), занятые обработкой существующей и сбором постоянно поступающей новой информации о биологической активности химических соединений.

Но, допустим, все эти, в сущности, технические трудности позади. Решены все языковые проблемы, создан банк данных, можно приступать наконец к анализу связи «структура– активность».

Наиболее универсальные подходы к решению задач подобного рода базируются на теории распознавания образов.

Предположим, идете вы по осеннему лесу, помахивая корзиной, в которой лежат две-три сыроежки, и жадно шарите взором по траве. Стоп – шляпка! Наклонившись, срезали. Осмотрели – типичная свинушка. Как вам удалось это установить? Все очень просто, ответит специалист по теории распознавания образов. Каждый гриб можно описать с помощью некоторого набора признаков: пластинчатый или губчатый, цвет шляпки, форма шляпки и ножки, глянцевитая или матовая поверхность, цвет «мяса» и т.п. Обучаясь различению грибов, вы рассматривали представителей различных их видов, причем знающий человек («учитель») вам говорил: вот это, мол, подберезовик, то – волнушка, а вон то – опенок. Иногда он специально указывал на какой-то отличительный признак – скажем, характерным образом подогнутые края шляпки, иногда вы просто полагались на зрительную память. Таким образом, вы вырабатывали для себя решающее правило, спомощью которого теперь уже без помощи учителя сумеете определить вид вновь найденного гриба, то есть отнести его к соответствующему классуподлежащих распознаванию объектов.

Не всегда вы сможете это правило сформулировать вполне четко. Есть признаки, совершенно однозначно определяющие вид (скажем, белые бородавки на ярко-красной шляпке), присущие многим видам (выпуклая форма шляпки) или практически бесполезные при определении вида (размер). Некоторые комбинации признаков, характерных для данного вида, мы часто воспринимаем «на глаз», и если нас спросят, почему мы решили, что это именно опенок, а не шампиньон или (чур, чур!) бледная поганка, объяснить будет трудно, хотя, положив рядом опенок и шампиньон, мы в конце концов сможем указать вполне конкретные различия в отдельных признаках или их комбинациях. Это – так называемая задача обучения распознаванию образов.Если же вы, к примеру, попали на обитаемый остров, где произрастают разные виды грибов, то, будучи человеком наблюдательным, рано или поздно сами создали бы для себя определенную их классификацию (таксономию), необязательно, конечно, совпадающую с общепринятой научной. Это случай так называемого самообучения.

Если описание объекта можно легко формализовать – например, в качестве признаков используются числа, наличие или отсутствие какого-либо элемента и т.п. – почему бы не поручить задачу распознавания вычислительной машине?

Пусть, для простоты, признаков только два, и оба – числа. Например, имеются результаты обследования ребятишек в детском саду; выяснилось, до скольких ребенок умеет считать (признак a) и измерялся его рост (признак b). Представим графически данные, относящиеся к двум группам, старшей и младшей, откладывая по оси абсцисс признак a, а по оси ординат – признак b, так что каждому объекту (ребенку) будет соответствовать точка. Окончив эту работу, мы убедимся, что точки располагаются на графике двумя «роями» – один поближе к началу координат, другой – подальше от него; если же при построении мы наносили разными цветами точки, соответствующие объектам младшей (зеленые) и старшей (красные) групп, мы обнаружим, что совершенно очевидно первый рой образован почти исключительно зелеными точками, второй – красными.

Вычислим средние значения признаков aи bдля двух групп и пометим соответствующие точки на графике (центры групп). Можно предложить следующее решающее правило: данный объект принадлежит той группе, ближе к центру которой расположена соответствующая ему точка. Это – пример так называемой геометрической интерпретации задачи распознавания образов. Если теперь нам предстоит определить на основании параметров aи b, к младшей или старшей группе принадлежит данный курносый объект, нам достаточно нанести на график соответствующую точку, измерить расстояния до центров первой и второй групп и сравнить их между собой. ЭВМ, разумеется, такую процедуру выполняет безо всяких графиков, расчетным путем. Обучение в данном случае заключалось в вычислении средних для двух групп.

Внимательно исследовав еще раз график, мы обнаружим, что принятое нами решающее правило срабатывает не всегда: пара зеленых точек расположена ближе к «красному» центру, чем к своему, «зеленому», и наоборот. Действительно, может иногда встретиться в младшей группе вундеркинд, считающий, скажем, до тысячи, а если он к тому же и ростом заметно обогнал сверстников – наша процедура неминуемо совершит ошибку и отнесет его к старшей группе. Причем такие случаи вовсе не являются следствием несовершенства решающего правила: полностью безошибочная классификация на основании только значений параметров aи bздесь невозможна в принципе, а полученное указание на принадлежность объекта именно этой группе следует трактовать таким образом, что он с большей вероятностью относится к ней, чем к другой. (Вспоминается консилиум у постели Буратино: «Пациент скорее жив, чем мертв».)

Существует много способов вычисления этой вероятности; ясно, что такого рода оценку можно сделать уже на основании величин расстояний от рассматриваемой точки до двух центров. На нашем графике нетрудно провести прямую, точки которой в равной степени удалены от каждого из них, и если точка, соответствующая некоторому объекту, расположится именно на ней, мы с помощью нашего решающего правила вообще ничего не сможем сказать о принадлежности объекта той или иной группе.

Очень, конечно же, большое значение имеет выбор параметров, на основании которых происходит распознавание. В рассмотренном примере этот выбор был удачным в том отношении, что параметры aи bнезависимы (рост и умственное развитие ребенка в данном возрасте необязательно взаимосвязаны). Кроме того, что еще важнее, оба параметра являются существенными, то есть действительно в среднем различны в двух группах, или, как еще говорят, несут информацию о принадлежности объекта одной из групп.

Что же случается, если избранные параметры не удовлетворяют этим требованиям? Проиллюстрируем это на примерах. Пусть мы вначале решаем нашу задачу, используя всего один параметр – рост. Соответствующие различным объектам точки и центры групп располагаются в этом случае на прямой. Мы убедимся, что качество классификации ухудшится. В самом деле, если какой-то мальчуган из старшей группы ростом не вышел, он будет отнесен неправильно (на прямой соответствующая точка расположится, не доходя середины отрезка между двумя центрами); при классификации же на основании двух параметров расстояние до «неправильного» центра окажется уже большим в силу сдвига соответствующей точки по второй оси, параметру a, поскольку по умственному развитию наш объект находится вполне на уровне своего возраста.

Что произойдет, если в качестве второго параметра мы возьмем не независимое от роста умение считать, а величину, связанную с ростом, – например, вес? Точки на нашем графике расположатся узкой восходящей полоской, причем у верхнего ее конца сосредоточатся красные, у нижнего – зеленые. Качество классификации почти не улучшится: второй параметр несет мало дополнительной информации, чаще всего у ребят большего роста окажется и больший вес.

Выбор для описания объекта взаимозависимых (коррелированных) параметров, однако, ошибка не самая страшная; это лишь затрудняет вычисления, но не оказывает отрицательного влияния на результат. В отличие от этого введение несущественных параметров, значения которых не зависят от того, какой группе принадлежит объект, очень сильно сказывается на качестве распознавания, часто делая процедуру вообще неработоспособной.


    Ваша оценка произведения:

Популярные книги за неделю