Текст книги "Яндекс для всех"
Автор книги: М. Абрамзон
Жанр:
Интернет
сообщить о нарушении
Текущая страница: 1 (всего у книги 37 страниц) [доступный отрывок для чтения: 14 страниц]
Михаил Абрамзон
Яндекс для всех
Аркадий Волож – основатель и генеральный директор компании «Яндекс».
Является соучредителем и членом Совета директоров компании Infinet Wireless (производитель оборудования WiMAX в России). Был соучредителем компании CompTek International, одного из крупнейших дистрибьюторов сетевого и телекоммуникационного оборудования в России, и руководил этой компанией с 1989 по 2000 год. Принимал активное участие в процессе дерегулирования частот для беспроводных сетей, легализации IP-телефонии. У Аркадия высшее образование в области прикладной математики.
Введение
Так начинался «Яндекс»
В 2000 году акционерами CompTek – компании, создавшей и в течение долгого времени развивавшей проект Яndex, была учреждена компания «Яндекс». Компания ru-Net Holdings инвестировала 5 млн 280 тыс. долларов и получила в новой компании долю в 35,72 %. В число акционеров вошли также менеджмент и ведущие разработчики поисковой системы. Генеральным директором стал Аркадий Волож. Но история Яндекса началась задолго до этого события.
Десятью годами ранее в компании "Аркадия" начались разработки поискового программного обеспечения. Через два года были созданы две информационно-поисковые системы – Международная классификация изобретений, а также Классификатор товаров и услуг. Системы работали под DOS и позволяли проводить поиск, выбирая слова из заданного словаря с использованием стандартных логических операторов.
Еще через год "Аркадия" стала одним из подразделений компании CompTek и в течение двух последующих лет выполняла работы по усовершенствованию поисковых технологий. В сотрудничестве с лабораторией Ю. Д. Апресяна (Институт проблем передачи информации РАН) был разработан словарь, обеспечивающий поиск с учетом морфологии русского языка. Теперь пользователи могли задавать в запросе любые формы слов.
Эти разработки позволили создать "Библейский компьютерный справочник", справочник стандартов "Информ – Норматив", электронные научные издания "А. С. Грибоедов", "Пушкин. Электронный фонд русской классической литературы", словарь языка Грибоедова.
Следующим шагом стала разработка алгоритма построения гипотез, после чего морфологический разбор перестал быть привязанным к словарю – если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова, и по ним строится модель словоизменения.
Летом 1996 года руководство компании CompTek и разработчики поисковой системы пришли к выводу, что развитие самой технологии важнее и интереснее, чем создание прикладных продуктов на базе поиска. Исследования рынка показали своевременность и большие перспективы поисковых технологий.
Первая демонстрация продуктов серии Яndex (Яndex.Site, Яndex.Dict) была проведена на выставке Netcom'96 18 октября 1996 года. Первый из них обеспечивает поиск по своему сайту и установлен на сотнях серверов Рунета. Второй продукт, морфологическое расширение запроса, до сих пор используется для передачи запросов на AltaVista.
А уже 21 ноября была выполнена первая установка системы Яndex.Site на веб-сервере Издательского дома "Открытые системы". Это дало возможность искать информацию с учетом морфологии русского языка. И в том же ноябре всем пользователям была предоставлена бесплатная возможность русифицированного поиска необходимой информации с учетом морфологии русского языка с помощью поискового сервера AltaVista.
Еще через полгода появился Яndex.CD – поиск документов на CD-ROM, а затем Яndex.Lib – полнофункциональная библиотека Яndex для встраивания в различные приложения и базы данных. И наконец осенью 1997 года был открыт Yandex.Ru.
Основными нововведениями поисковой системы Yandex.Ru были проверка уникальности документа – этим достигалось исключение копий в различных кодировках, и отличительные свойства поискового алгоритма Yandex: поиск с учетом морфологии русского языка, с учетом расстояния и тщательно разработанный алгоритм оценки релевантности.
Оптимизация поискового алгоритма позволила реализовать проблему поиска по разным зонам текста, ограничение поиска на группу сайтов, поиск по ссылкам и изображениям. Также, впервые в Рунете, было введено понятие индекс цитирования– количество сайтов, ссылающихся на данный ресурс. Затем был открыт «Семейный Яндекс» с фильтрацией результатов поиска от мата и порнографии.
Название Яndex появилось в то время, когда будущий генеральный директор будущей компании Аркадий Волож и будущий директор по технологиям компании Илья Сегалович разрабатывали технологию поиска неструктурированной информации с учетом морфологии русского языка. Требовалось слово, отражающее суть новой технологии, которое бы хорошо звучало, легко писалось и запоминалось. Тогда на основе английского слова index был предложен вариант – yet another indexer ("еще один индексатор" или Языковой иНдекс). Кроме этого, Аркадий предложил букву "Я" в названии – специфически русскую – русской и оставить, для наглядности. Так появилось слово "Яndex".
Поиск, почта и все остальное
Сегодня Яндекс – это не только поиск. И поиск не только среди документов. Яндекс теперь вполне может быть назван порталом, предоставляющим посетителям разнообразные услуги.
Поиск в Интернете
В год, когда была образована компания «Яндекс», на канале НТВ прошла рекламная компания поисковой системы, во время которой был впервые озвучен слоган «Найдется все!» (рис. В.1). Сегодня этот лозунг знает каждый, кто использует Яндекс для поиска информации. В канун 2007 года на домашней странице портала выводилось сообщение – «Поиск по 1 372 783 513 вебстраницам». Это, конечно, далеко не весь Рунет, но его значительная часть.
Домашних страниц поискового сервера у Яндекса несколько. Это главная страница портала http://www.yandex.ru, через которую можно выполнить обычный и расширенный поиск. Аскетичный поиск Ya.ru, где на домашней странице нет ничего кроме поисковой строки. Есть также семейный поиск, поиск для слабовидящих и медиативный.
Кроме того, пользователь может настроить формат представления результатов поиска, а также вид домашней страницы Яндекса.
Сам поиск может вестись по нескольким направлениям:
по веб-страницам;
по новостям;
картинок;
товаров и услуг;
в блогах;
контактов фирм и организаций;
легальной музыки;
на картах.
Словари и энциклопедии
Поиск по словарям – тоже поиск, но более конкретный. Его результаты основываются на статьях словарей и энциклопедий, которые включены в состав электронной справочной литературы Яндекса. На конец 2006 года поиск мог проводиться среди 29 словарей. А кроме того, здесь же можно выполнить перевод слов с/на английский, немецкий, французский, испанский, итальянский и, конечно, русский язык.
Почта
У вас еще нет почтового ящика на Яндексе? Подумайте, не настала ли пора его получить. Размер ящика не ограничен, ограничен лишь размер одного письма – он не может превышать 10 Мбайт. Почта проверяется на спам и на вирусы. Для борьбы со спамом (а это страшная вещь – бывают дни, когда из сотен пришедших писем действительно нужных остается не более десятка) применяется разработанная Яндексом программа фильтрации спама и массовых рассылок «Спамооборона».
Почтовая система предоставляет и множество других "вкусностей". Это и импорт адресных книг из почтовых клиентов (кому хочется каждый раз заполнять адресную книгу заново?), и сбор почты с других серверов, и доступ к своему почтовому ящику по защищенному каналу. Все это и многое другое мы с вами рассмотрим в главе 2,посвященной этому сервису.
Яндекс-каталог
Каталог Яндекса появился позже поисковой системы. С одной стороны, это еще один сервис, привлекающий посетителей. С другой – дополнительная возможность организации поиска по отобранным модераторами каталога ресурсам. В дополнение к обычной рубрикации по темам (Бизнес, Дом, Развлечения, Отдых и пр.) Яндекс предлагает классификацию сайтов по типу содержащейся в них информации (Справки, Товары и услуги, Публикации и пр.). Несколько позже появилась рубрикация и по регионам.
Если большинство российских, да и не только российских, каталогов отталкивались в своем развитии от Yahoo! то в Яндексе была разработана собственная система рубрикации. И хотя количество рубрик в каталоге относительно небольшое, дополнительные признаки, которые проставляются для каждого сайта, позволяют перейти к нужной группе ссылок за минимальное количество щелчков. А для ранжирования ссылок в рубриках используется тематический индекс цитирования (тИЦ).
Яндекс и Народ
Одним из пользующихся популярностью сервисов, предоставляемых Яндексом, стал сервис бесплатного размещения сайтов. Причем это не просто хостинг, где пользователи могли разместить собственные сайты. Свое название «Народ» сервис подтвердил еще и тем, что помимо хостинга предложил воспользоваться набором подготовленных шаблонов, позволяющих создать страницу пользователю, даже ничего не понимающему в вопросах программирования веб-страниц. После регистрации, пользователь мог выбрать один из шаблонов (сейчас их свыше ста), наполнить его своей информацией и пустить «в плавание» по широким просторам Интернета.
Этим сервисом воспользовались многие, а в некоторых учебных заведениях его применяют даже в процессе обучения. Создаются здесь персональные страницы и визитки предприятий, фотоальбомы и резюме, сайты увлеченных людей и интернет-магазины. Многие сайты были включены в каталог Яндекса, а это не такая простая задача. По данным тематического индекса цитирования составляется выборка ТОП 100 народных сайтов.
Яндекс. Деньги
Яндекс. Деньги – это платежная система, с помощью которой вы можете:
□ совершать платежи в Интернете;
□ совершенно безопасно хранить информацию о зачислениях и платежах;
□ управлять своими средствами через Интернет.
Эта система – не банк, в ней не открывается счет пользователя системы. Только кошелек – и пополнив его любым способом, можно оплачивать свои покупки в интернет-магазинах, передавать свои средства другим пользователям этой системы или получать переводы от них, через специальные обменные системы переводить или получать электронные деньги из других подобных систем, например, WebMoney. Средства, находящиеся в вашем кошельке, могут быть перечислены на ваш счет в любом банке, находящемся на территории России.
Система поддерживает два типа кошельков – Яндекс. Кошелек, доступ к которому осуществляется через сайт Яндекс. Денег, и Интернет. Кошелек, для работы с которым на компьютер пользователя устанавливается специальная программа. Кошельки между собой несовместимы и действуют полностью самостоятельно. Поэтому каждый может завести себе два различных кошелька и пользоваться ими независимо.
Несмотря на то что Яндекс. Деньги – не банк, все средства, находящиеся в этой системе, обеспечены реальными банковскими счетами компании-оператора, размещенными в следующих банках:
□ ИМПЭКСБАНК;
□ Росбанк;
□ Банк "ТАВРИЧЕСКИЙ";
□ Сбербанк.
□ Внешторгбанк;
Ленты новостей
Уже давно новости можно читать не только на сайтах, где они публикуются, но и подключившись к RSS-потокам. RSS – формат представления данных (международный стандарт для синдикации веб-контента). Аналогичные функции выполняет и формат Atom, но он имеет расширенные по сравнению с RSS характеристики.
Многие блоги (сетевые дневники) и многие новостные источники предоставляют информацию в формате RSS. Эти потоки состоят из сообщений, где каждое сообщение является записью в дневнике или новостью. Яндекс. Лента – специальный сервис для сбора таких информационных RSS-потоков в одном удобном для использования месте.
Из огромного списка возможных источников вы выбираете блоги (сетевые дневники) или новости, которые хотите читать, собираете из них ленту и читаете. В процессе чтения вы можете отмечать понравившиеся сообщения, чтобы потом просмотреть их отдельно. Нужные сообщения вы также сможете найти и с помощью поиска по вашей ленте.
Каждая лента в сервисе представляет собой набор RSS-потоков, сообщения из которых сортируются по времени поступления. Вы можете создать себе несколько лент (например, по тематикам) и наполнить их интересными лично вам потоками с помощью формы добавления потока.
Решения для корпоративных пользователей
По-настоящему богаты те, кто может себе позволить делиться с другими. Если исходить из этого, Яндекс – богатая компания. То, что было разработано для себя и является основой бизнеса, предлагается всем желающим. Как на платной основе, так и на бесплатной.
Корпоративным клиентам предлагаются два продукта – Спамооборона и Яндекс. Сервер.
Корпоративный продукт "Спамооборона" – это серверное решение для фильтрации спама. Основные свойства системы: полнота и высокая точность фильтрации, актуальная база знаний о спаме, наличие гибких настроек. Установив ее на корпоративном почтовом сервере, вы резко снизите количество спама, доходящего до почтовых ящиков ваших сотрудников.
Хотите, чтобы на вашем портале было легко найти любую информацию – установите Яндекс. Сервер. Большинство возможностей этого продукта теперь доступно в бесплатной версии, более чем достаточной для большинства интернет-проектов.
Персональные продукты
Персональный поиск Яндекса – это программа на вашем компьютере, осуществляющая поиск по файлам и письмам с учетом морфологии русского языка. Совершенно бесплатная, обладающая прекрасными поисковыми возможностями. Позволяет во много раз быстрее искать, к примеру, в базах почтовой программы The Bat! письма, чем выполнять поиск стандартными средствами почтовика.
Яндекс. Бар – это уже совсем иной продукт. Удобство его использования почувствует в первую очередь тот, кто много и часто пользуется Яндексом. А все потому, что в этот плагин, работающий и на MS IE, и на FireFox, включено большинство служб Яндекса, а также обеспечен доступ к вашим личным ресурсам (почте, ленте, денежным средствам).
Есть на Яндексе и другие сервисы и службы – игры и общение, соревнования по поиску и фотоальбомы. Сервисы постоянно развиваются, а количество их увеличивается. Но "нельзя объять необъятное", говорил незабвенный Козьма Прутков. И не отвлекаясь на новинки, разберем, чем же является Яндекс сегодня.
Илья Сегалович – директор «Яндекса» по технологиям и разработке, один из основателей компании.
Поисковыми технологиями Илья начал заниматься в 1990 году – в компании "Аркадия", где руководил группой программного обеспечения. В период с 1993 по 2О00 год, Илья работал в компании CompTek International, где возглавлял отдел поисковых систем. При непосредственной поддержке созданы Национальный корпус русского языка (Ruscorpora) и Российский семинар по оценке методов информационного поиска (РОМИП). Илья Сегалович имеет высшее образование в области геофизики. Вместе со своей женой Марией Илья поддерживает благотворительную студию "Дети Марии" (социальная помощь детям-сиротам и детям-инвалидам).
Глава 1
Поиск (Найдется всё!)
Главная задача информационно-поисковой системы – это поиск информации, релевантной информационным потребностям пользователя. Слово релевантность означает соответствие между желаемой и действительно получаемой информацией. Релевантность можно еще представить как меру близости между реально полученными документами и тем, что следовало бы получить из системы.
«CITForum: Поисковые системы»
1.1. Что такое «поисковая машина»
Каждому из нас в определенный момент времени бывает необходима информация, отсутствующая среди записей, заметок и данных на нашем компьютере. Где в таком случае вы будете ее искать? Одним из наиболее простых и удобных способов поиска является Интернет (далее также «Сеть»). Здесь есть все – техническая и экономическая информация, справочники и научные издания, расписания транспорта и онлайновые магазины, книги и курсы валют. Все можно найти, не отрываясь от стула. Но у этой хорошей стороны Интернета есть и обратная сторона – количество информации в Сети растет даже не по часам, а по минутам и секундам. Найти нужную информацию обычным серфингомуже невозможно. Простой и удобный протокол HTTP, используемый для серфинга, удобен для навигации и просмотра страниц, но совершенно не предназначен для поиска.
Первым шагом на пути систематизации информации, размещаемой в Интернете, стало создание каталоговсайтов, в которых ссылки на ресурсы группировались по тематическому признаку. Так построено большинство современных каталогов, но началом всему стал проект Yahoo! открытый в 1994 году. Вторым шагом после создания каталога стал поиск по размещенным в нем ссылкам. Понятно, что это был поиск не по всем ресурсам Интернета, а лишь по тем, которые присутствовали в каталоге. Даже сегодня, спустя десятилетия после появления первых каталогов, в них присутствует лишь малая толика интернет-ресурсов. В одном из самых крупных каталогов – DMOZ (Open Directory Project) находятся ссылки на 4 миллиона сайтов, распределенных по 590 000 категорий, а в базе Яндекса размещена информация свыше чем о 2 278 900 000 документов. Показатели для поиска несравнимые.
Поэтому не удивительно, что почти одновременно с появлением каталогов, появились и поисковые машины.Первой из них стал проект WebCrawler, появившийся в 1994 году. Следом за ним открылись поисковые системы Lycos и AltaVista, а в 1997 году Сергей Брин и Ларри Пейдж создали Google. В том же году была официально анонсирована и поисковая система Яндекс, ставшая самой популярной в русскоязычной части Интернета.
1.1.1. Компоненты поисковых машинИнформация в Сети не только пополняется, но и постоянно изменяется, но об этих изменениях никто никому не сообщает. Отсутствует единая система занесения информации, одновременно доступная для всех пользователей Интернета. Поэтому с целью структурирования информации, предоставления пользователям удобных средств поиска данных и были созданы поисковые машины.
Поисковые системы бывают разных видов. Одни из них выполняют поиск информации на основе того, что в них заложили люди. Это могут быть каталоги, куда сведения о сайтах, их краткое описание либо обзоры заносят редакторы. Поиск в них ведется среди этих описаний.
Вторые собирают информацию в Сети, используя специальные программы. Это поисковые машины, состоящие, как правило, из трех основных компонентов:
□ Агента;
□ Индекса;
□ Поискового механизма.
Агент, или более привычно – паук, робот (в англоязычной литературе – spider, crawler), в поисках информации обходит сеть или ее определенную часть. Этот робот хранит список адресов (URL), которые он может посетить и проиндексировать, с определенной для каждой поисковой машины периодичностью скачивает соответствующие ссылкам документы и анализирует их. Полученное содержимое страниц сохраняется роботом в более компактном виде и передается в Индекс. Если при анализе страницы (документа) будет обнаружена новая ссылка, робот добавит ее в свой список. Поэтому любой документ или сайт, на который есть ссылки, может быть найден роботом. И наоборот, если на сайт или любую его часть нет никаких внешних ссылок, робот может его не найти.
Робот – это не просто сборщик информации. Он обладает довольно развитым "интеллектом". Роботы могут искать сайты определенной тематики, формировать списки сайтов, отсортированных по посещаемости, извлекать и обрабатывать информацию из существующих баз данных, могут выполнять переходы по ссылкам различной глубины вложенности. Но в любом случае, всю найденную информацию они передают базе данных (Индексу) поисковой машины.
Поисковые роботы бывают различных типов:
□ Spider(паук) – это программа, которая скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т. д.), паук же не имеет никаких визуальных компонентов и работает напрямую с HTML-текстом страницы (аналогично тому, что вы увидите, если включите просмотр HTML-кода в вашем браузере).
□ Crawler(краулер, «путешествующий» паук) – выделяет все ссылки, присутствующие на странице. Его задача – определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.
□ Индексаторразбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные HTML-теги и т. д.
Индекс– это та часть поисковой машины, в которой осуществляется поиск информации. Индекс содержит все данные, которые были переданы ему роботами, поэтому размер индекса может достигать сотен гигабайт. Практически, в индексе находятся копии всех посещенных роботами страниц. В случае если робот обнаружил изменение на уже проиндексированной им странице, он передает в Индекс обновленную информацию. Она должна замещать имеющуюся, но в ряде случаев в Индексе появляется не только новая, но остается и старая страница.
Поисковый механизм– это тот самый интерфейс, с помощью которого посетитель взаимодействует с Индексом. Через интерфейс пользователи вводят свои запросы и получают ответы, а владельцы сайтов регистрируют их (и эта регистрация – еще один способ донести до робота адрес своего сайта). При обработке запроса поисковый механизм выполняет отбор соответствующих ему страниц и документов среди многих миллионов проиндексированных ресурсов и выстраивает их в порядке важности или соответствия запросу.
Названные выше компоненты не обязательно входят в состав поисковой машины так, как они здесь описаны. У разных поисковиков реализация может отличаться друг от друга. К примеру, связка Spider+Crawler+Индексатор может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы.