Текст книги "Интернет-разведка. Руководство к действию"
Автор книги: Евгений Ющук
Жанр:
Интернет
сообщить о нарушении
Текущая страница: 1 (всего у книги 21 страниц) [доступный отрывок для чтения: 8 страниц]
Евгений Ющук
Интернет-разведка. Руководство к действию
Введение
Эта книга предназначена не только для специалистов по конкурентной разведке, но и для всех специалистов, которые используют Интернет в своей повседневной работе как современный, эффективный, быстрый и недорогой инструмент. То есть практически для всех, кто имеет отношение к бизнесу: будь то производственное предприятие, торговая фирма, финансовое учреждение либо консалтинговая компания.
Представленные здесь практические советы помогут вам не просто выстоять в конкурентной или информационной борьбе, но и победить в ней, опираясь, в том числе, и на скрытые от обычного пользователя возможности Интернета, и персонального компьютера.
Методы работы, изложенные в книге, прошли «обкатку» в отечественной и зарубежной конкурентной разведке и доказали свою эффективность. Автор лично убедился в реальной пользе практического применения каждого данного им совета. Предлагаемые вашему вниманию рекомендации помогли повысить конкурентоспособность и эффективность работы самых разных организаций – от крупных производственных и дистрибьюторских компаний федерального и регионального уровня, государственных учреждений и силовых структур до розничных торговых сетей и предприятий сферы услуг, небольших кафе и ресторанов.
Сфера конкурентной разведки, в силу своей специфики, первой находит новейшие, передовые способы работы с информацией, делая выводы о возможных преимуществах и недостатках того или иного решения.
Современная конкурентная разведка, которая еще недавно воспринималась в нашей стране как часть службы безопасности компании, сегодня шагнула далеко за пределы этих узких рамок и стала инструментом специалистов отделов маркетинга, сбыта, стратегического планирования, равно как и инструментом топ-менеджера, от решения которого зависит успех или провал предприятия на рынке и даже само его выживание.
Инструменты конкурентной разведки, опираясь на отточенные разведкой общие принципы работы с информацией, эффективно используют специалисты по информационным войнам.
Вот почему эта книга будет полезна руководителю и менеджеру любой компании в той же мере, что и специалисту по конкурентной разведке. А кого-то, возможно, она подтолкнет к тому, чтобы сделать конкурентную разведку своей второй специальностью.
Конкурентная разведка как адаптированная к бизнесу версия государственной разведки, не имеет ничего общего с детективами. И она на самом деле гораздо ближе к маркетингу и информационно-аналитической работе, нежели к Службе безопасности компании. Причем, одинаково заблуждаются как те, кто при слове «разведка» представляет себе погони, перестрелки и тайное проникновение во вражеский сейф при непосредственном участии длинноногой блондинки, так и те, кто считает, что разведка заключается в сборе информации.
Ошибочность таких подходов хорошо иллюстрируют слова Иссура Хареля (Issur Harel), первого главы израильской разведки Моссад, пересказанные нам Артуром Вейсом (Arthur Weiss) в кулуарах конференции SCIP в Лондоне в 2005 г.:
Мы работаем не с несомненными фактами. Мир разведки – это мир вероятностей. Сбор информации – как правило, не самая сложная задача. Что действительно сложно – так это ее правильная интерпретация. Анализ информации – самая главная часть работы разведки. А Джеймсу Бонду в реальной жизни места нет.[1]1
Артур Вейс, в личной беседе, из неопубликованного, 2006 г.
[Закрыть]
Для того, чтобы лучше понять, что и скакой целью мы будем рассматривать далее, напомним несколько основных терминов, которые использует конкурентная разведка.
Специалисты конкурентной разведки оперируют пришедшими из государственной разведки ключевыми понятиями – «объекты» (Targets) и «источники» (Sources).
Объекты – это люди или документы, которые могут ответить на интересующие вас вопросы. Как правило, это первичные носители нужных сведений.
Источники – это люди или средства, которые могут помочь получить доступ к нужному человеку и информации напрямую или опосредованно. В этом случае их иногда называют подысточниками.
Источники, если говорить о человеческих ресурсах, бывают внешними и внутренними.
Внутренние источники работают на вашем собственном предприятии.
Внешние источники работают на ваше предприятие, но не являются его сотрудниками. К этой категории обычно относят консультантов и клиентов. Кто-то из них работает за деньги, кто-то – бесплатно (либо бескорыстно, либо решая с вашей помощью какие-то свои задачи). К внешним источникам могут относиться и аналитики, специализирующиеся на исследуемой вами отрасли, и журналисты, пишущие на интересующие вас темы. Нередко такие люди, хорошо информированные в определенных специфических областях, официально продают имеющиеся у них сведения – в форме консалтинговой услуги или аналитического отчета.
Очень часто бывает, что ваши внутренние источники могут вывести на источники внешние.
Кроме того, источники подразделяют на первичные и вторичные.
Первичные источники – те, которые получили информацию непосредственно от объекта и передали ее вам. Полученной из первичных источников можно считать также информацию, которую вы добыли самостоятельно (например, лично посчитали количество грузовиков на парковке перед складом вашего конкурента).
Вторичные источники (или подысточники) получили информацию «из вторых рук».
Кроме того, считаем нужным напомнить, что никакая разведка невозможна без четкого целеуказания. Специалист конкурентной разведки не может начинать работу, не имея ясного представления о том, на какой вопрос он ищет ответ. А в идеале он должен еще и представлять себе, что руководитель намерен делать с полученными данными, поскольку в таком случае специалист крнкурентной разведки сможет работать максимально эффективно.
Надеемся, что этот краткий повтор основных терминов, относящихся к работе с информацией, напомнит вам, что специалист любой разведки не имеет права уклоняться в сторону различных интересных фактов, которые встретятся ему в ходе работы, а должен работать целенаправленно, для того, чтобы найти ответ на вопрос, ради которого вся работа и проводится. Мы уже очертили круг людей, которым эта книга, на наш взгляд, может быть полезна, поэтому для краткости в дальнейшем будем говорить только о специалистах конкурентной разведки, имея в виду при этом всю целевую аудиторию книги.
Наша книга практически полностью посвящена Интернету как инструменту конкурентной разведки. У человека неподготовленного это может создать иллюзию, что работа с глобальной информационной сетью – и есть конкурентная разведка.
На самом деле это не так.
Интернет – ее инструмент. Он имеет свои плюсы и минусы. Случается, что он действительно помогает решить главную задачу, поставленную перед специалистом конкурентной разведки руководителем компании, однако это скорее исключение из общей ситуации. В целом Интернет – важный, но ограниченный в своих возможностях инструмент, играющий в конкурентной разведке заметную роль. Заметную, но все же не ведущую. А потому его нельзя переоценивать, хотя и недооценивать тоже не следует.
Интернет часто незаменим в начале операции конкурентной разведки, потому что он обычно позволяет быстро и недорого «прицелиться», то есть сориентироваться в ситуации в целом, наметить объекты, располагающие нужной информацией, а также источники, которые позволят эту информацию получить.
Кроме того, Интернет удобен для получения справочной информации, а также иногда позволяет отслеживать динамику фактов или мнений по тем или иным вопросам.
Действительно, бывает и так, что Интернет позволяет получить ответы на все вопросы, которые стоят перед специалистом разведки. Иногда складывается ситуация, когда Интернет вообще позволяет получить информацию от первичного источника (например, когда вы получаете на Интернет-форуме ответ на прямо заданный вопрос от человека, личность которого вам достоверно известна, и который является объектом применительно к вашей операции). Однако значительно чаще для выполнения поставленной задачи специалисту конкурентной разведки приходится выходить «в поле» и работать с людьми, либо с документами вне Интернета.
Работа «в поле» – наиболее значимая по результатам часть конкурентной разведки, но она останется за пределами настоящей книги. Здесь мы сознательно сосредоточимся только на работе с Интернетом и покажем, как выполнить ее максимально эффективно.
Подобно боевой авиации, которая обеспечивает выяснение обстановки там, куда невозможно просто прийти, и позволяет воздействовать на противника, оставаясь невидимой за облаками, Интернет позволяет удаленное, бесконтактное, а порой и незаметное для объекта наблюдение за ним или поиск его следов на другом конце Земного шара.
Как и армия без авиации, конкурентная разведка без Интернета работать не может.
Авиация коренным образом изменила характер войны, систему обороны и саму организацию армии. Интернет же буквально вдохнул новую жизнь в конкурентную разведку.
Роль Интернета в конкурентной разведке гораздо существеннее, нежели в разведке государственной. Хотя надо отметить, что последняя – в силу всемирной компьютеризации – решает с его помощью все более и более широкий круг вопросов.
В общем, мы считаем, что не надо рассматривать Интернет как панацею, следует научиться правильно пользоваться им в целях конкурентной разведки, и тогда уже делать вывод о том, насколько эффективным может быть его применение в конкретном виде бизнеса.
А разные виды бизнеса действительно неодинаково зависят от Интернета. Ведь даже на уровне бытовой логики понятно, что операторы сотовой связи и производители агустителей для йогуртов используют в своем бизнесе глобальную сеть в различной степени.
Читатель этой книги познакомится с разными аспектами работы с Интернетом. Здесь есть как развернутое объяснение принципов работы поисковых машин и описание языков запросов самых популярных из них, информация о конкретных ресурсах Интернета, полезных в работе специалиста конкурентной разведки, так и тонкости приемов работы и «потайные ходы», которые позволяют в рамках закона и этики решать поставленные задачи.
Интернет как уникальный инструмент маркетинга
Среди множества преимуществ Интернета как инструмента маркетинга можно выделить два основных.
Во-первых, Интернет предлагает для исследования практически любых процессов такие возможности, какие не предоставляет никакой другой источник информации. Это относится также и к возможностям продвижения компании или ее продукции.
Во-вторых, Интернет позволяет следить за тенденциями развития потребительских предпочтений. Более того, он способен их формировать. А принимая во внимание практически равные возможности пользователей сети в донесении до людей своей точки зрения, Интернету под силу вовремя исправлять ситуацию при ее неблагоприятном развитии.
Интернет как инструмент PR
Всемирная Паутина для специалистов по PR стала инструментом мониторинга и формирования общественного мнения. Немаловажно, что Интернет позволяет проводить мониторинг, не обнаруживая перед окружающими своего интереса к тому или иному событию или явлению.
Дешевизна, оперативность и относительная (а порой и полная) анонимность вброса информации открывают перед специалистами PR новые возможности, хотя и ставят их перед лицом новых угроз. Так, с одной стороны, удобно, когда можно развить целую дискуссию и увести за собой людей, интересующихся той или иной темой, но с другой стороны, участились и случаи, когда в Интернете инспирируется ложная информация, а затем со ссылкой на нее начинается волна в печатных СМИ. Данная книга покажет, как специалист PR может использовать в своих интересах особенности Интернета, и одновременно научит выявлять, и нейтрализовать активность противника.
Принципы организации и поиска информации в Интернете
Поиск информации в Интернете проводится двумя основными способами – с помощью каталогов (их еще называют директориями) и с помощью поисковых машин.
Директории обеспечивают контекстный поиск для структурированного просмотра, тогда как поисковые машины, как следует из их названия, контекста не обеспечивают, однако позволяют находить конкретные слова или фразы.
Директории можно уподобить оглавлению книги, а поисковые машины – предметному указателю.
Часто поисковые системы объединяют в себе как поисковую машину, так и директории.
Это хорошо видно на примере первой страницы Яндекса, где под поисковой строкой размещается список директорий, которые позволяют пользователю уточнять запрос по мере продвижения в глубь каждой из них.
Ввиду того, что принцип организации директорий понятен каждому, кто пользовался библиотечным каталогом – а среди читателей таких, смеем полагать, подавляющее большинство, – мы не будем подробно останавливаться на технике работы с директориями и уделим больше внимания работе с поисковыми машинами. В завершение же разговора о каталогах приведем пример «цепочки», по которой осуществляется поиск в каталоге Яндекса: Бизнес > Реклама > Реклама в Интернете.
Все поисковые машины работают по одному и тому же алгоритму и основаны на одних и тех же принципах. Различия между ними возникают лишь на уровне технической реализации этих принципов в работе.
Чтобы понять принцип работы поисковой машины, попробуем разделить вопрос на две части: на чем основан поиск и как он реализован.
На чем основан поиск
Все поисковые машины базируются на трех основных операторах, лежащих в основе Булевой алгебры (ее также называют Булевой логикой или Boolean).
Это логические операторы «И», «ИЛИ» и «НЕ». Работают они следующим образом.
1. Логическое «И». Если между двумя словами в запросе стоит оператор «И», то в результате поиска будут найдены лишь те документы, в которых содержатся оба слова. Так, например, по запросу собака И кошка будет найден документ, содержащий предложение «собака гналась за кошкой», документов же, состоящих из текста «кошка отдыхала» или «корм для собак», мы не увидим.
2. Логическое «ИЛИ». Если между словами стоит оператор «ИЛИ», то результа том поиска станут документы, в которых содержится хотя бы одно из этих слов.
Если мы не сделаем специальных ограничительных оговорок, то материалы, в которых оба эти слова присутствуют, также будут найдены.
По запросу собака ИЛИ кошка мы получим документы, исключенные в прошлом запросе и содержащие текст «кошка отдыхала» или «корм для собак», а также материал с предложением «собака гналась за кошкой».
3. Логическое «НЕ». Если два предыдущих оператора описывали те слова, ко торые вы хотите включить в запрос, то оператор «НЕ» слова из запроса исклю чает. Пользователи, впервые сталкивающиеся с операторами запросов, нередко высказывают удивление: мол, не проще ли и вовсе не включать ненужное слово в запрос? Зачем вводить дополнительный оператор? Увы, нет. Не проще.
На самом деле, чтобы понять важность логического оператора «НЕ», имеет смысл вспомнить, что наш запрос не создает в Интернете ничего нового. Мы лишь выуживаем то, что нам нужно, из имеющегося огромного, но все же конечного массива. При этом необходимо отсечь информационный мусор. Его-то мы и отсекаем с помощью оператора «НЕ». К сожалению, не нам решать, увидим ли мы этот мусор в выдаче. Так, например, по запросу сведений о коньке крыши неизменно появляется информационный мусор в виде документов о Коньке-Горбунке, фигурном катании, хоккее, лошадях и т. п. Без логического «НЕ» тут никак не обойтись.
Давайте рассмотрим примеры работы логического оператора «НЕ».
По запросу собака НЕ кошка будет найден документ, содержащий текст «корм для собак», а вот документы со словами «кошка отдыхала» или «собака гналась за кошкой», и даже «корма для собак и кошек» из выдачи будут исключены.
Часто встречается чуть более сложный вариант написания запроса, который содержит все или почти все вышеперечисленные операторы. В этом случае лучше пользоваться таким элементом, как круглые скоби. Скобки позволяют отделять однотипные слова запроса от остальных. Кроме того, самому составителю при этом визуально гораздо удобнее различать отдельные фрагменты запроса. Мы не будем чересчур теоретизировать о скобках, а просто продемонстрируем работу указанного элемента на конкретных примерах. На наш взгляд, так будет понятнее, как и для чего используются скобки.
Так, запрос пушистые И (собаки ИЛИ кошки)
позволит получить документы, относящиеся как к пушистым собакам, так и к пушистым кошкам – по отдельности или вместе. Скобки при этом «раскрываются» по обычным арифметическим правилам вынесения за скобку общего множителя (для тех, кто не любит математику, поспешим сказать, что болеше углубляться в нее мы не будем). А вот запрос пушистые И (собаки ИЛИ кошки) НЕ (собаки И кошки)
выдаст документы, в которых написано про пушистых собак или пушистых кошек, но не будет содержать текстов, где одновременно будут упомянуты и кошки, и собаки.
Еще раз повторимся, все поисковые машины сегодня работают на основе анализа этих трех операторов, хотя нюансы их написания в разных поисковых машинах могут отличаться.
Как поиск реализован
Каждая полноценная поисковая машина располагает собственным штатом роботов, или пауков. Их еще называют краулерами (crawlers) и спайдерами (spiders,). Это программы, которые перескакивают со страницы на страницу и сканируют находящиеся на них тексты, не вникая при этом в их содержание. После чего сбрасывают документы на серверы своих хозяев и идут к следующим страницам. Как паук определяет, куда ему пойти? Он находит так называемую гиперссылку (ту самую, при наведении на которую курсор приобретает вид раскрытой ладони, и при клике по которой происходит переход на другую страницу) и идет по ней. Вот почему, если на страницу не ведет ни одна ссылка, паук на нее тоже не придет. Исключение составляет ситуация, когда владелец страницы вручную сообщит о ней поисковой машине, заполнив специальную форму на сайте поисковой машины.
На сервере поисковой машины текст разбивается на отдельные слова, каждому из которых присваиваются координаты, после чего они заносятся в таблицу сервера вместе со ссылкой на тот адрес в Интернете, по которому текст размещался в момент посещения его пауком.
Сам по себе поисковик представляет собой большую локальную сеть, состоящую из мощных компьютеров с огромным объемом дисковой памяти. Эти машины разделены на подгруппы (так называемые кластеры), между которыми распределяется информация, собранная пауками.
Когда поисковая система получает запрос, она ищет ответ именно в своей таблице, а не в Интернете.
При этом важно понять, как паук решает, с какой частотой ему следует посещать ту или иную страницу. Выглядит этот алгоритм приблизительно следующим образом. Поработав со страницей, паук возвращается на нее, н у, например, через две недели. И если видит, что никаких изменений не произошло, он планирует следующее посещение через более длительный период – скажем, через месяц. А если и тогда не обнаружит ничего нового, то наведаетсяя сюда еще позже, месяца через полтора-два.
Вот почему нередко бывает так, что поисковая машина по запросу результат выдает, а попытка перейти на страницу по полученной ссылке безрезультатна – вероятнее всего, никакой страницы уже просто не существует на прежнем месте, но паук на нее давно не заходил, и, соответственно, поисковая система о ее удалении не знает.
Весь комплекс процессов, описанных выше, называется индексацией.
История развития поисковых машин
История эволюции поисковых машин наиболее полно, на наш взгляд, представлена в книге признанных экспертов в области невидимого интернета Криса Шермана и Гарри Прайса «Невидимый Интернет».[2]2
Price G., Sherman С. The Invisible Web: Uncovering Information Sources Search Engines Can't See. CyberAge Books, 2001.
[Закрыть]
До середины 1960-х годов компьютеров было немного. Изолированные друг от друга, они не могли обмениваться информацией.
В 1962 г. профессор Ликлайдер (Licklider) из ведущего технического вуза США – Массачусетского Технологического института – сформулировал концепцию глобальной компьютерной сети «Galactic Network». Идея начала воплощаться в жизнь сотрудником американского министерства обороны Ларри Робертсом (Larry Robberts), который через четыре года после публикации статьи профессора предложил объединить отдельные компьютеры министерства в сеть, описанную Ликлайдером. Таковы предпосылки возникновения сети «ARPANET», которая затем превратилась в то, что сегодня величают Интернетом. Первый узел «ARPANET» появился в 1969 г., и следующие несколько лет к нему подключались университеты и различные контрагенты, работавшие по заказам военного ведомства США.
В 1973 г. американское министерство обороны инициировало новую программу, предполагавшую обеспечивать надежную связь компьютеров между собой с помощью очень большого числа различных соединений. Целью такого решения было повышение устойчивости системы к попыткам массированно нарушить электронные средства коммуникации. Поскольку все это происходило во времена «холодной войны», речь шла об устойчивости к устрашающим последствиям, которыми грозило стратегическое ядерное противостояние. Поскольку «ARPANET» представлял собой одну-единственную сеть, что на системном уровне понижало его способность сопротивляться разрушениям, возникла идея создания «сети из сетей», которая теоретически могла бы быть бесконечно большой. Этот проект и назвали «Internetting», а саму сеть «Internet».
По мере того, как количество присоединенных к Интернету машин увеличивалось, объективно назрел вопрос о необходимости инструментов, позволяющих легко находить текст и другие файлы на удаленном компьютере, в идеале – на любом, где бы он ни располагался в Сети.
Доступ к файлам на самых ранних этапах развития Интернета осуществлялся в два этапа, каждый из которых выполнялся вручную: специальные команды вводились с клавиатуры. Кстати, тогда компьютеры могли управляться лишь специалистами, способными вводить команды в соответствующую строку. Графического интерфейса, позволяющего комфортно работать с машиной неподготовленному человеку, еще не изобрели. Так вот первым делом с помощью программы Telnet устанавливалось прямое соединение с компьютером, на котором находится нужный файл. На данном этапе лишь налаживалась связь, ничего и никуда в этот момент еще не передавалось. И только затем с помощью специальной программы – FTP – можно было этот конкретный файл взять.
Очевидно, что на поиски нужного документа уходила масса времени: требовалось знать точный адрес компьютера, на котором он находится.
Между тем файлов становилось все больше, интерес к ним постоянно рос, и для того, чтобы найти адрес одного из них, обычно приходилось обращаться в дискуссионные группы с просьбой о помощи и в надежде на то, что кто-нибудь из собеседников подскажет заветный адрес, по которому хранится нужная информация.
В результате, стали появляться специальные FTP-серверы, которые представляли собой хранилище файлов, организованных в директории, по принципу хранения информации на персональном компьютере. Такие серверы существуют и по сей день.
Первый работоспособный, общедоступный инструмент поиска файлов, хранящихся на FTP-серверах, назывался «Арчи» (Archie) и был создан в 1990 г. группой системных администраторов и студентов старших курсов Университета Мак Джил (McGill) в Монреале. «Арчи» был прототипом сегодняшних поисковых машин, но значительно более примитивным и ограниченным в своих возможностях. Он бродил по Интернету, разыскивал файлы на разных FTP-серверах и загружал список директорий каждого найденного сервера на собственный, формируя общий каталог.
Этот каталог затем обрабатывался и хранился в центральной базе данных, внутри которой можно было организовать поиск. Поиск на собственном компьютере к тому моменту существовал уже издавна и, несмотря на то, что тоже требовал ввода команд, трудностей в работе не создавал. Однако без специальной подготовки использовать компьютер полноценно человек не мог. База данных находилась в университете Мак Джилл и обновлялась ежемесячно.
В 1991 г. команда Марка Мак Кахилла (Mark McCahill) из Университета Миннесоты создала программу «Голден Гофер» (Golden Gopher – в переводе с английского «золотоискатель» или «старатель»), которая совмещала в себе оба протокола – Telnet и FTP. Все, что нужно было сделать пользователю для получения доступа к нужной информации, – щелкнуть по гиперссылке, приведенной в меню. Таким образом, впервые в истории вводить какие-либо команды уже не требовалось, так что отныне по ресурсам Интернета люди могли «бродить» и без специальной подготовки.
Программа показывала пользователю последовательно возникающие пошаговые меню, что позволяло ему без проблем идти в глубь базы директорий, все более приближаясь к специфическим документам, которые и составляли цель поиска. Этот алгоритм, по сути, сохранен и сегодня в Каталогах, расположенных в Интернете.
Стало возможно получать как текстовые документы, так и графические, и музыкальные, без привязки к какому-то определенному формату. А самое главное, стало в принципе возможно легко найти и получить в Интернете нужную информацию.
Однако проблемы все же оставались. Одна из них, и довольно серьезная, была связана с тем, что компьютеры были построены на разных платформах, которые порой не понимали друг друга. Тут можно провести аналогию с людьми, которые говорят на совершенно разных языках и потому не могут построить более или менее осмысленную беседу. В те времена между собой конкурировали не операционные системы, как сейчас, а производители компьютерного «железа». Сегодня в меньшей степени важно, кто произвел компьютер. Гораздо существеннее, что на нем установлено: Windows, Linux, Mac OS или какая-то другая система. А тогда именно производители «железа» определяли лицо Интернета.
Объективно назревала идея, согласно которой компьютеры разных платформ должны иметь возможность работать в одном протоколе, позволяющем просматривать страницы вне зависимости от того, на какой конкретно машине эти страницы созданы. Требовалось придумать такой универсальный протокол и сделать его удобным для пользователей. Первым, кто догадался объединить известную к тому времени простую форму гипертекста с универсальными коммуникационными протоколами, был Тим Бернерс-Ли (Tim Berners-Lee).
Чтобы пользователь получил в руки независимый от платформы и при этом простой инструмент, Бернерс-Ли создал HTML (HyperText Markup Language, то есть Язык гипертекстовой разметки). Все Web-документы, отформатированные с помощью тегов HTML, видны совершенно одинаково во всем мире, вне зависимости от типа компьютера, на котором человек открыл страницу сайта. Поэтому и сегодня при переводе файла в формат HTML, например, на машине, работающей под управлением операционной системы MacOS, можно быть уверенным в том, что этот файл будет выглядеть точно так же и на компьютере, работающем под управлением Windows.
Затем Бернерс-Ли придумал Universal Resource Identifier – метод стандартизации адресов, при котором компьютерам в Интернете присваиваются уникальные адреса (сегодня мы их называем URL, это то, что в привычном для пользователя виде обычно начинается с «www»). Наконец, изобретатель собрал вместе все эти элементы, создав систему в форме Web-серверов, которые хранят HTML-документы и предоставляют их другим компьютерам, создавая HTML-запросы о документах по определенным URL.
Но Бернерс-Ли хотел видеть Интернет как информационное пространство, в котором можно получить свободный доступ к данным любых типов. На ранних этапах развития глобальной Сети преобладали простые текстовые документы HTML. К тому времени существовали системы поиска информации на локальных машинах, поэтому появилось несколько серверов, которые пытались проиндексировать какую-то часть страниц Web и прежде, чем отправляться за чем-то в Интернет, предлагали поискать необходимые сведения на этих серверах.
При этом основная проблема заключалась в том, чтобы отыскать страницы, которые в принципе можно бы было индексировать. Поскольку Интернет лишен централизованной структуры и общего оглавления, единственный способ, позволявший добиться этого, состоял в поиске ссылки на страницу и переходе по этой ссылке, с последующим добавлением найденного ресурса к индексу.
Однако вскоре возникла еще одна проблема. Наиболее популярные страницы посещались пауками чаще остальных, так как на них указывало максимальное количество ссылок. Пауки, количество и возможности которых были ограничены, «зависали» на таких страницах и впустую расходовали ресурсы, оставляя непосещенным множество других адресов, пока еще менее популярных. Для решения этой проблемы требовалось создать программу, которая позволила бы игнорировать уже проиндексированные страницы и сосредоточиться на поиске новых. Иначе это грозило проблемой с ресурсами.
В 1993 г. студент-физик Массачусетского технологического института Мэтью Грей (Mathew Gray) создал первый широко известный Web-робот, названный «World Wide Web Wanderer» или просто «Вандерер», что в переводе с английского означает «скиталец» или «странник». Дело в том, что Грей заинтересовался статистикой. Результатом такого увлечения стало появление «странника»: изобретение было призвано помочь студенту проанализировать размеры Интернета и скорость его роста. «Вандерер» просто приходил на страницу и определял сам факт ее существования, не занося в базу содержимого найденного адреса. Несмотря на то, что создатель робота не преследовал никаких других целей, его детище, фактически дебютировавшее в «забеге» прогрессивных интернет-находок, легло в основу более сложных программ, которые к умению «скитальца» перемещаться по Сети добавили способность сохранять содержимое страниц в базе данных после их посещения.
Случилось так, что 1994 г. стал переломным в истории создания поисковых машин. Студент выпускного курса Вашингтонского университета Брайан Пинкертон (Brian Pinkerton) устал от бесконечной череды электронных писем, которые посылали ему друзья, с информацией о хороших сайтах, найденных ими в Интернете. Безусловно, сайты ему были нужны, однако шквал посланий с их адресами раздражал, а посещение всех страниц отнимало уйму времени. Однако Пинкертон нашел решение проблемы – он создал робота, которого назвал WebCrawler (что-то вроде «вездеход для Интернета»). «ВебКраулер», как и «Вандерер», ползал со страницы на страницу, запоминая при этом весь текст Web-документа и сохраняя его в базе данных, которая была доступна поисковым словам. Изобретатель представил свое детище публике в апреле 1994 г., причем сделал это виртуально – через Web-интерфейс. База данных в тот момент содержала информацию с 6000 самых разных серверов. Уже через неделю она начала расширяться, причем ежедневный прирост составлял более 100 новых серверов. Так родилась первая поисковая машина.