355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Александр Кондратов » Звуки и знаки » Текст книги (страница 6)
Звуки и знаки
  • Текст добавлен: 15 октября 2016, 05:44

Текст книги "Звуки и знаки"


Автор книги: Александр Кондратов


Жанр:

   

Языкознание


сообщить о нарушении

Текущая страница: 6 (всего у книги 18 страниц)

Как наполняют сокровищницу?

Как составляются тезаурусы?

Роджет ничего не знал и, разумеется, не мог знать, каких результатов достигнут науки, занимающиеся проблемой смысла, но он интуитивно понял основные принципы составления тезаурусов: сначала собираются слова из текстов или различных словарей. Затем слова эти выстраиваются по алфавиту, а после из них образуются определение группы, связанные по смыслу.

Какой может быть эта смысловая связь? Во-первых, одно и то же значение можно выразить с помощью разных слов или оборотов. Вполне понятно, что все синонимы будут объединены. Во-вторых, смыслы слов могут быть полностью противоположны (как антонимы типа холодный – горячий, мертвый – живой и т. п.) В-третьих, смысл одного слова может включать в себя смысл другого, или даже многих слов, например значение слова человек включает в себя наименования сотен различных национальностей нашей планеты. Смысловые связи между словами могут строиться по типу причина – следствие или часть – целое. Наконец значения слов между собой связаны самыми различными ассоциациями. Причем именно проблема ассоциаций является наиболее трудно разрешимой задачей при построении того или иного тезауруса.

Специалистам в данной области науки нетрудно выделить термины, которыми эта наука пользуется. Сложнее построить иерархию из слов-терминов по смыслу. Однако и эта задача разрешима логическим путем. Можно разграничить смысл слов и словосочетаний, которые образуют новые значения. Например, термины скорость бурения и бурение скоростное – это не синонимы, они имеют совершенно разные значения, так же как дюнный песок и песчаная дюна. Но специалисты по информатике с успехом ликвидируют подобного рода случаи (в первом случае бурение является аспектом, а во втором – атрибутом; в сочетании песчаная дюна песок – вещественная составляющая, а в сочетании дюнный песок – причина образования дюны).

С ассоциациями дело обстоит много сложней. Ибо здесь действуют законы не двузначной, а многозначной логики.

В тезаурусах группируются, например, понятия ранение – несчастные случаи – диагноз – медицина патология – терапия или чернила – краски – печатание – письмо. Интуитивно нам понятно, что объединение этих слов оправдано. Но попробуйте-ка доказать его путем формальной логики, и вы убедитесь, что это далеко не так просто, как на первый взгляд кажется. А ведь такие связи существуют не только между обычными словами языка, но и научными терминами.

Еще в 1942 году американский исследователь А. Л. Болдуин попытался внести количественные меры в изучение смысловых связей между словами. Он подсчитал совместную встречаемость слов в письмах, написанных одной женщиной, и показал, что частоты их могут быть указателями настроений этой женщины, круга ее интересов и т. п. С тех пор предложено несколько десятков формул, по которым можно вычислять смысловые связи слов.

Применяются для выявления этих связей и электронные вычислительные машины.

Конечно, как замечает один из специалистов по информатике – Р. М. Нидхем, «нельзя ожидать, что в результате нескольких часов работы ЭВМ. будет получено нечто, что могло бы сразу же заменить интуицию и труд ученого (который все равно необходим при выборе единиц анализа и интерпретации результатов). На что мы можем надеяться – так это на то, что выявятся группы слов, ранее не замеченные, но потенциально возможные».

Тезаурусы составляются учеными в «союзе» с машиной.

Сначала группа специалистов подчеркивает термины в данной области знания. Затем тексты вводятся в ЭВМ, которая выдает эти слова в исходной форме, то есть в именительном падеже, единственном числе и т. п. Потом специалисты разбивают на участки смысловое «поле», внутри этих участков производят более мелкое деление, а полученную схему оформляют в виде анкеты.

Анкета заполняется специалистами по каждому термину, а затем она поступает в ЭВМ, которая объединяет все термины, имеющие одинаковые признаки. И, наконец, человек составляет из них тезаурус.

Семантические множители

Нельзя ли использовать тезаурусы в качестве языка-посредника при машинном переводе? Этой мыслью задались английские ученые Кембриджской лингвистической группы.

В 1959 году один из крупнейших авторитетов в области машинного перевода, Бар-Хиллел, заявил, что высококачественный перевод с помощью ЭВМ принципиально невозможен. Ибо в нашем языке есть такая многозначность слов, которую нельзя ликвидировать, не обращаясь к внешнему миру, к внеязыковой, или, как говорят ученые, экстралингвистической ситуации, машине недоступной. Бар-Хиллел привел образец подобного рода принципиально непереводимой фразы… И в том же году сотрудники Кембриджской группы добились правильного машинного перевода этой фразы!

Если все предыдущие работы по машинному переводу стремились игнорировать значение, полагая, что ЭВМ недоступно «понимание» смысла текста, то в работах Кембриджской группы акцент делался именно на перевод значения. Ведь его-то передача и является целью всякого перевода с языка на язык. Сделать же этот перевод по смыслу помог знаменитый тезаурус Роджета.

Перевод с помощью тезауруса происходит не так, как обычный человеческий или стандартный машинный перевод. Это перевод не отдельных слов или фраз. Переводятся целые абзацы. Вначале строится единая «формула смысла» данного абзаца, причем смысл фраз, входящих в него, кодируется номерами тезауруса. Затем для полученной «формулы» смысла находятся соответствующие «формулы смысла» того языка, на который переводится текст.

Работы подобного рода ведутся не только в Англии, но и в Италии, в Миланском центре кибернетики и лингвистики, а также в нашей стране. Несколько различаясь в деталях, методика везде едина: выявление своего рода «атомов смысла», семантических множителей, из которых слагается значение отдельных «молекул», слов языка.

Подобные семантические множители применялись, как вы помните, в информационном языке, созданном учеными из Кливленда (Кливлендский семантический код). Но там задача была проще: из набора элементарных понятий формировались более сложные термины. Речь шла именно о терминологии, а не о языке со всеми его оттенками смыслов и значений слов. Здесь же задача, так сказать, на порядок сложнее.

Кембриджская группа пользовалась тезаурусом Роджета. К глубокому сожалению, такого словаря для русского языка до сих пор никто не составил. Правда, сейчас в нашей стране создается не менее интересный словарь, значение которого для машинного перевода трудно переоценить.

Словарь этот – толково-комбинаторный. В нем приводятся все сочетания русских слов, смыслы которых образуют новый, невыводимый из их сложения смысл. Например, проливной дождь, грибной дождь, косой дождь, слепой дождь и т. д. Если в обычных словарях разъясняется смысл отдельного слова, то в новом словаре толкуются словосочетания.

Работа по созданию такого словаря требует очень много труда. Ведь число различных русских слов равно сотням тысяч. А сколько же различных словосочетаний, имеющих «третий смысл», может быть в нашем языке! Вероятно, их не меньше, а гораздо больше отдельных слов и достигает миллиона. Составление словаря продлится не один год, а то и не один десяток лет (в настоящее время удалось зафиксировать сочетания двухсот слов, так что вся работа еще впереди). Поэтому сейчас исследователи стремятся выявить наиболее общие смысловые множители русского языка. С их помощью они надеются определить своеобразную «геометрию смысла», законам которой подчиняется и наш язык, и, по всей видимости, любые другие языки, так как любое содержание, высказанное на одном языке, может быть передано средствами любого языка (опыт переводчиков убедительно это доказывает: стихи Пушкина понимает и «друг степей калмык», и финн, и эвенк, и граждане США, ФРГ, Мексики и т. д.).

Приведем образец одного из параметров смысла, который удалось выявить в русском языке. Условно он кодируется как Magn, от латинского magnus, то есть высокий, главный, большой, обширный и т. п. Параметр этот определяет слова, имеющие значения высокой степени. Точнее, наш Magn определяет тот или иной оттенок смысла слова, к которому он относится. Возьмем, например, слово друг. Друг может быть близкий, верный, большой, до гробовой доски, сердечный, закадычный, испытанный, старый… Синонимы? Разумеется, нет. Мой старый друг отличается от сердечного друга и от друга до гробовой доски. Но чем, собственно говоря, отличается?

Вот тут-то и начинается наша «геометрия смысла», определение в языке тех координат, которые позволяют нам в нашей жизненной практике считать друга Виталия закадычным, друга Евгения сердечным, а друга Володю испытанным. Как же выявить эти координаты? Очевидно, необходимо обратиться к носителям смысла, носителям языка, то есть к живым людям. И к текстам, которые пишутся на русском языке и понятны этим людям.

Вот какие оттенки удалось выявить в русском языке исследователям из лаборатории машинного перевода при Московском государственном педагогическом институте иностранных языков имени Мориса Тореза. Прежде всего «Magn вообще» делится на три подкласса. Первый – нулевой – подчеркивает значение слова, к которому он относится, вне зависимости от субъекта или объекта. Ограбление может быть дерзким или крупным, любить можно горячо или страстно. Второй подкласс подчеркивает усиление, относящееся к субъекту. Выражение «бежать быстро» нейтрально, оно относится к нулевому подклассу. А вот выражение «бежать изо всех сил» указывает на то, что бегущий изо всех сил старается использовать все свои возможности при беге (и тем не менее, как бы мы с вами ни старались бежать изо всех сил, бегущий Валерий Борзов нас легко опередит, хотя он будет бежать не изо всех сил, а просто быстро!).

Третий подкласс, в отличие от предыдущего, относится не к субъекту, а к объекту. Уничтожение может быть массовым, или тотальным; любовь – всеобъемлющей, капитуляция – полной, авторитет – общепризнанным, горе – народным, а враг – жестоким.

Однако в зависимости от степени или меры внутри каждого подкласса можно выделить несколько категорий или элементарных смыслов. Это – очень, большое количество, активность, длительность, выделение в своем классе. Чтобы каждый человек, владеющий русским языком, смог понять то, что формулируется на языке терминов (но термины тоже опираются на языковую интуицию носителей языка, именно она помогает нам понимать друг друга безо всяких лингвистических теорий), приведем несколько примеров.

«Очень» указывает на высокую степень того или иного признака предмета, но без сравнения его с другими предметами, которые обладают теми же признаками. Здоровье может быть крепким, и дружить можно крепко, а интересоваться– глубоко. Вторая категория – «большое количество» – указывает на увеличение объема. Выбор может быть широким, информация – обширной, ограбление – групповым, вред – огромным. Третья – «активность» – связана с интенсивностью того или иного процесса. Работать с душой можно и не активно, а вот работать не покладая рук – это значит трудиться активно. Выражение «огромная энергия» подчеркивает количество этой энергии, а «кипучая энергия» – ее активность.

Категорию «длительность» легко понять, если в качестве примера привести выражения «продолжительные аплодисменты», «старая дружба», «смеяться до упаду», «любовь до гроба», «древние традиции» и т. п. Наконец, последняя рубрика – «выделение в своем классе» – указывает на то, что смысл выделяется из такой же смысловой группы особым подчеркиванием: оборудование бывает уникальное, урожай – рекордным, красота – необыкновенной и бежать можно изо всех сил…

ЯП, МП, ИЯ

Вероятно, теперь вы и сами поняли, как трудно, а порой просто невозможно описать в терминах, понятных ЭВМ, всю нашу сложную и нелинейную систему значений. И тем не менее система существует, иначе человек не смог бы понимать человека и ни один ребенок не смог бы обучиться родному языку, не говоря уже об иностранных.

Что же получается в итоге? Человек, решив передать машинам механическую работу, обнаружил, что, казалось бы, самые обыденные дела, вроде разговора, требуют таких сложных алгоритмов, таких тонкостей, о которых не догадывались даже лучшие умы прошлых веков.

И все-таки машины нужны для перевода! Современный мир, говорят ученые, сам по себе напоминает огромную переводческую машину, работающую со все увеличивающейся скоростью. Каждый день с печатных станков сходит около шестидесяти переведенных книг, открывается три или четыре международные встречи, выпускается на экран несколько дублированных фильмов; пишущие машинки печатают, а дикторы оглашают несчетное количество переведенных страниц; бесконечное число документов переводится в самом разнообразном виде с одних языков на другие.

Но для того, чтобы включить в гигантскую «переводческую машину», которой является наш современный мир с его несколькими тысячами языков, ЭВМ, мы должны прежде всего разобраться, хотя бы приблизительно, в работе нашей собственной «вычислительной машины» – мозга, причем под определенным углом зрения – лингвистическим. Не инженер, а лингвист должен найти формулы языка, алгоритмы нашего повседневного чуда – языка, которое предстает перед нами каждый день и каждый миг. Задача же эта необычайно сложна и трудна.

Причем на пути ученых встают трудности самого различного характера: технические, лингвистические, логические. Предположим, что нам удалось решить проблемы смысловых множителей, разложить любое слово на отдельные «атомы смысла», его составляющие. Сколько же слов понадобится вводить в память машины?

Мы уже говорили, что словари таких развитых языков, как русский или английский, включают около полумиллиона слов. Но ведь есть еще и так называемые фразеологизмы, непереводимые буквально выражения, идиомы. Их в языке много тысяч. Добавьте к ним также десятки тысяч специальных терминов, в словари литературного языка не вошедших. А такой развитой терминологией обладают все науки, будь то химия, медицина, электроника или сама лингвистика («Словарь лингвистических терминов» О. С. Ахмановой включает семь тысяч единиц, а в него вошли далеко не все термины современной науки о языке, например, нет в словаре ни «инженерной лингвистики», ни «нейролингвистики», то есть целых дисциплин, имеющих свою собственную терминологию!). Так что общее число слов будет, пожалуй, превышать миллион. А ведь к ним надо прибавить еще правила грамматики и программы, объем которых составит не менее трети машинной записи словаря!

Это, так сказать, трудность чисто техническая. Не за горами то время, когда ЭВМ будут обладать памятью, достаточно большой, чтобы вместить всю эту информацию. Но здесь встает следующая проблема – проблема времени. Для ввода одного слова в ЭВМ, снабженного всеми нужными признаками, смысловыми и грамматическими, необходим день работы одного исполнителя. Значит, чтобы ввести миллион слов в ЭВМ, нужен один миллион человеко-дней или тридцать лет работы коллектива, состоящего из ста человек.

Эта проблема, в свою очередь, порождает проблему, которую называют «парадоксом Ахиллеса и черепахи». Парадокс этот известен со времени античности: может ли быстроногий Ахиллес догнать черепаху, если в каждый конкретный момент времени черепаха также продвигается вперед? Если следовать правилам логики, Ахиллесу ее никогда не догнать! Не получится ли сходная ситуация и при машинном переводе: информация, заложенная в ЭВМ, будет устаревать к тому моменту, когда начнется практическое применение «электронного мозга?» Ведь слова, как известно, меняются со временем. И никакому Ахиллесу-роботу не догнать наш неспешный, но постоянно изменяющийся язык-черепаху…

Более того, слова не являются, строго говоря, отдельными изолированными единицами языка. Смысл их связан со смыслом других слов, все слова как бы прошиты незримыми нитями ассоциаций. Причем границы между этими связями нечетки, они как бы размыты. Приведем такой пример. В нашем языке есть группа прилагательных, относящихся к возрасту человека: детский, отроческий, юношеский, молодой, средних лет, пожилой, старый. Но попробуйте-ка четко и однозначно распределить смысл этих слов по строгой шкале лет, и вы убедитесь сами, насколько размыты границы между детским и отроческим, отроческим и юношеским, юношеским и молодым, молодым и средних лет, средних лет и пожилым, пожилым и старым у разных людей, в зависимости от их собственного возраста (вспомните журналиста из «Двенадцати стульев», считавшего стариком всякого, чей возраст превысил двадцать лет!).

Теория нечетких множеств – так называется новая область математики, одна из самых интересных и перспективных, которая родилась в связи с описанием языка. Ее аппарат начинает применяться и для машинного перевода, и для информационного поиска. А надежной точкой опоры становятся те холодные числа, данные статистики, о которых рассказывал наш первый очерк. И если первые опыты по машинному переводу были в полном смысле слова опытами, то в наши дни начинается промышленная эксплуатация МП.

Диалог продолжается…

Конечно, никто из ученых не пытается сейчас дать совершенный перевод с помощью машины, подобный переводу человеческому. И переводится не любой текст, а текст по какой-либо узкой специальности, например химии полимеров или низкотемпературной плазме. Но ведь именно такой подстрочный, так сказать, рабочий перевод текстов по специальности и необходим в первую очередь ученым, инженерам, техникам, работающим в той же химии полимеров или в области низкотемпературных плазм.

Первая в нашей стране промышленная эксплуатация МП была осуществлена в 1976 году в Чимкентском пединституте по заказу Института химии Академии наук Казахской ССР. ЭВМ системы «Минск» переводит английский текст длиной в тысячу слов, то есть около трех страниц, за двадцать – двадцать пять минут. И это, учитывая ввод текста в машину и вывод его из машины в виде отпечатанного русскими буквами перевода!

В конце 1977 года в Алмаатинском энергетическом институте проходила VII Всесоюзная конференция по генераторам низкотемпературной плазмы. Участвовали в ней и гости из других стран. Делегатам и гостям были вручены три компактные книжечки в красном переплете: англо-русский и русско-английский, французско-русский и русско-французский, немецко-русский и русско-немецкий словари-минимумы. Предназначены они для чтения научных текстов по плазме, а также для разговора с зарубежными коллегами. Автором же этих словарей была… вычислительная машина и, естественно, коллектив программистов и языковедов, составивших машинную программу. За три месяца ЭВМ проделала работу, на которую потребовалось бы несколько лет труда сектора научного учреждения.

Перед нами широкий лист бумаги. Вверху напечатан запрос: «Прошу определить общую тему документа». Далее следует французский текст статьи по технологии окраски. Внизу дается ответ на русском языке: «Документ относится к теме «электрофорез». Затем снова запрос: «Прошу дать машинный реферат документа». На него тут же дан развернутый ответ.

«В этом диалоге, казалось бы, нет ничего удивительного, – пишет профессор Р. Г. Пиотровский, руководитель группы «Статистика речи». – Именно таким образом сотни референтов-переводчиков ведут беседу со своими заказчиками. Однако приведенный текст представляет собой человеко-машинный диалог, в котором вопросы формулировал человек, а ответы на правильном русском языке без всякой подсказки выдавала машина. Учителями компьютера были языковеды, химики и математики из лаборатории инженерной лингвистики Ленинградского педагогического института имени А. И. Герцена и Кишиневского политехнического института».

Лишь совсем недавно человеческий мозг создал «мозг» электронный, вычислительные машины. На первых порах диалог человека с ЭВМ казался фантастикой. Затем настала пора радужных надежд и горьких разочарований. Но работа продолжается, продолжаются поиски подходов и методов, с помощью которых вычислительные машины включатся в человеческое общество и «электронный мозг» станет не просто чудо-счетчиком, по и надежным и верным помощником в тысяче других дел. Путь к этому – обучить машины человеческому языку.

Диалог человека и робота только-только начинается! Мы же закончим наш рассказ о МП – машинном переводе, о поисках ЯП – языка-посредника и о создании ИЯ – информационных языков словами Норберта Винера, которого называют «отцом кибернетики»: «Отдайте же человеку – человеческое, а вычислительной машине– машинное. В этом и должна, по-видимому, заключаться разумная линия поведения при организации совместных действий людей и машин. Линия эта в равной мере далека и от устремлений машинопоклонников, и от воззрений тех, кто во всяком использовании механических помощников в умственной деятельности усматривает кощунство и принижение человека».


    Ваша оценка произведения:

Популярные книги за неделю