Текст книги "Интернет – легко и просто!"
Автор книги: Егор Александров
Жанр:
Интернет
сообщить о нарушении
Текущая страница: 4 (всего у книги 19 страниц) [доступный отрывок для чтения: 7 страниц]
Чтобы гиперссылки могли связать в единую сеть все веб-документы планеты, у каждой страницы в Интернете должен быть свой уникальный адрес. Этот адрес называют URL (Uniform Resource Locator – универсальный указатель ресурса).
В URL входят имя домена, названия файла и каталога, сетевой адрес машины и метод (протокол) доступа к файлу.
Формат адресаФормат адреса URL имеет следующий вид: Протокол://Адрес: Порт/Путь.
– Протокол – необходимый в данном случае интернет-протокол. Вместо этого аргумента чаще всего стоит http – передача гипертекстовой информации, но могут быть также ftp – передача файлов, telnet – терминальный доступ, wais – система поиска информации и т. д.
– Адрес – адрес компьютера в Интернете, называемый также доменным адресом (domain address), доменным именем (domain name) или именем узла (host name).
– Порт – как правило, явно не указывается. По умолчанию все программы по протоколу HTTP ищут сервер на 80-м порте.
– Путь – адрес файла на компьютере.
Доменные адресаДоменные адреса компьютеров выглядят примерно так: www.ivan.petrov.ru.
Таким образом, адрес компьютера является составным, и каждая его часть называется сегментом. Крайний правый сегмент (в данном случае ш) называется доменом первого уровня, следующий (справа налево) – доменом второго уровня и т. д. Домену первого уровня ш принадлежит множество доменов второго уровня, одним из которых является petrov. В свою очередь, домен petrov включает в себя домены третьего уровня, a ivan является одним из них. Подобные цепочки могут быть довольно длинными. Домены, подобно матрешкам, вкладываются друг в друга.
Домены первого (верхнего) уровня подразделяются по тематическому и географическому признакам.
Тематические домены следующие:
– com (commercial) – коммерческие организации;
– org (organization) – некоммерческие организации;
– edu (educational) – образовательные учреждения;
– gov (government) – правительственные организации;
– mil (military) – военные организации;
– net (network) – сети.
В связи со стремительным ростом Интернета стали появляться и другие тематические домены первого уровня: info, biz, name. Своей очереди ждет еще целый список подобных доменов, призванных облегчить пользователям ориентацию в виртуальном мире.
Каждая страна имеет свой географический домен, состоящий из двух букв, например:
– ru (Russian Federation) – Россия;
– ua (Ukraine) – Украина;
– by (Belarus) – Беларусь;
– us (USA)-США;
– са (Canada) – Канада;
– jp (Japan) – Япония.
Однако сейчас не слишком придерживаются задуманной классификации: украинские сайты можно встретить в домене ш, русские – в us, в домене net может располагаться сайт, посвященный анекдотам, и т. д.
IР-адресаВообще, доменные адреса предназначены исключительно для пользователей. Компьютеру же гораздо удобнее работать с цифровыми именами, называемыми IP-адресами. IP-адрес – это тот же адрес домена, но написанный на понятном компьютеру языке. Он состоит из 32-разрядного двоичного числа (представляющего собой набор 32 единиц и нулей), для простоты представляемого четырьмя десятичными. Каждое число может находиться в диапазоне от 1 до 254 (0 и 255 зарезервированы и не используются для адресации). Типичный IP-адрес выглядит примерно так: 213.180.199.11.
IP-адрес состоит из двух частей: адреса подсети и адреса самого компьютера. Числа в IP-адресе распределяются в зависимости от класса подсети.
– Класс А – присущ глобальным сетям огромного масштаба. На адрес подсети отводится только первое число. Остальные зарезервированы для адресов компьютеров (может включать свыше 16 млн).
– Класс В – применяется, как правило, крупными организациями. Адрес подсети состоит из двух чисел, два других числа – адреса компьютеров (можно подсоединить свыше 64 тыс.).
– Класс С – используется небольшими организациями. Три первых числа определяют адрес подсети и только одно – адреса компьютеров (можно подключить чуть больше 250).
Для определения доменного имени по IP-адресу в Сети существует служба доменных имен – Domain Name Service (DNS). DNS-серверы имеют в своем распоряжении специальные таблицы соответствия, с помощью которых и устанавливаются необходимые адреса.
IP-адрес, как и обычный доменный адрес, можно вводить в адресную строку браузера. Загрузка страницы должна происходить быстрее, так как в данном случае работа ведется, минуя DNS (правда, на практике эту разницу уловить вряд ли получится).
Определить IP-адрес любого компьютера очень просто. Достаточно запустить командную строку (Пуск / Программы / Стандартные / Командная строка) и ввести, например, ping www. yandex. ru. Вы увидите небольшое текстовое сообщение, которое будет начинаться со следующей строки:
Обмен пакетами с www.yandex.ru (213.180.216.200)…
Число в скобках – это и есть искомый IP-адрес. Вместо www. yandex, ru, естественно, можно вставить адрес любого другого сайта.
Различают IP-адреса двух видов: динамические и статические.
– Обычным пользователям Интернета, как правило, выделяются динамические IP-адреса. В таком случае при подключении к Интернету вашему компьютеру присваивается IP-адрес, который будет неизменным в течение всего сеанса связи. После разрыва связи и повторного подключения к Сети выделенный вашему компьютеру IP-адрес может оказаться уже совершенно другим. В данном случае динамические адреса используют с целью экономии диапазона IP-адресов, выделенных вашему провайдеру.
Основным достоинством динамической адресации является анонимность, так как вы в данном случае вообще не имеете своего IP-адреса, а как бы берете напрокат один из адресов своего провайдера.
– Статические адреса используются в том случае, когда подобного дефицита не наблюдается (например, если в офисе некой организации установлено всего около 20 компьютеров). В этом случае компьютер при каждом сеансе связи будет иметь один и тот же фиксированный IP-адрес.
Плюсом компьютера со статическим IP-адресом является то, что на нем можно организовать собственный веб-сервер (естественно, при наличии выделенной линии). Минус данного способа – высокая подверженность атакам злоумышленников.
Глава 4 Поиск информации
– Поисковые системы.
– Каталоги.
– Помощь пользователей Интернета в поиске
Трое из четырех пользователей, отвечая на вопрос: «Для чего вы используете Интернет?», называют поиск информации. И это не мудрено – в Сети, без преувеличения, есть практически все! Интернет представляет собой необъятный океан мыслимой и немыслимой информации. Он настолько велик, что не будь специальных средств поиска, найти в нем что-либо просто не представлялось бы возможным… Но такие средства, как вы уже, наверное, догадались, есть.
Поисковые системы
Чтобы поиск в Интернете был удобным, быстрым и эффективным, созданы специальные поисковые системы. Убежден, что практически каждый сеанс вашей работы в Интернете не обойдется без того, чтобы вы не воспользовались любимой поисковой системой. Поэтому следует знать, как она устроена и каким образом максимально использовать ее возможности.
Общие сведения о поисковых системахПоисковые системы – это специальные серверы, которые занимаются поиском, сбором и упорядочением информации, имеющейся на просторах Интернета. Основным их назначением является обеспечение пользователей необходимой информацией в результате быстрого и удобного поиска в Сети. Поисковые машины состоят из пяти основных компонентов.
1. «Паук» (spider) – программа, предназначенная для скачивания веб-страниц. Паук работает как обыкновенный браузер и занимается поиском информации в Сети. Путешествуя по ссылкам, эта программа загружает найденные страницы на сервер поисковой системы и тем самым пополняет ее базу данных.
2. «Червяк» (crawler) – как и паук, занимается скачиванием страниц. Кроме того, он исследует обнаруженные веб-страницы и извлекает все находящиеся на них ссылки. Полученные ссылки впоследствии будут использоваться пауком для дальнейшего путешествия по Сети.
3. Индексатор (indexer) – программа, служащая для упорядочивания информации, найденной пауками. Индексатор разбивает текст документа на составляющие его слова, при этом запоминая их местонахождение, анализируя, написано слово прописными или строчными буквами, является ли оно названием документа, текстом ссылки и т. д.
4. База данных (database) – представляет собой хранилище всех обработанных данных, накопленных поисковой системой.
5. Механизм выдачи результатов (search engine) – предназначен для взаимодействия пользователя с базой данных. С ним вы постоянно будете иметь дело при поиске какой-либо информации. Именно этот механизм определяет, какие вебстраницы вам представлять в соответствии с вашим запросом.
После задания вами ключевого слова или фразы поисковая система осуществляет поиск и выдает вам результат, который представляет собой список найденных веб-страниц, соответствующих вашему запросу. Для определения порядка, в котором будет показаны документы в списке, поисковая машина применяет алгоритм ранжирования. В идеале наиболее релевантные вашему запросу страницы будут расположены в списке первыми. Однако идеальный алгоритм ранжирования не найден, поэтому каждая поисковая система использует собственный, хотя отбор результатов во всех системах основывается примерно на следующих критериях:
– наличие ключевых слов в заголовке;
– плотность ключевых слов в содержимом документа, то есть количество искомых слов в тексте веб-страницы;
– расположение ключевых слов в документе;
– стиль ключевых слов (полужирный, курсив);
– индекс цитируемости – количество ссылок, ведущих на данную веб-страницу с других страниц;
– наличие ключевого слова в имени домена или адресе страницы.
После того как вы щелкнете на ссылке одного из документов в списке, предложенном вам поисковой системой, веб-страница будет запрошена с того сервера, на котором она находится.
Популярные поисковые машиныНаиболее популярны следующие поисковые машины:
– Google – http://www.google.com (рис. 4.1);
– Yahoo! – http://www.yahoo.com;
– AltaVista – http://www.altavista.com;
– Lycos – http://www.lycos.com;
– Excite – http://www.excite.com;
– AOL Search – http://search.aol.com;
– HotBot – http://www.hotbot.com.
На этом, разумеется, список популярных поисковых систем не заканчивается – их количество исчисляется сотнями. Однако я уверен, что для работы с англоязычными сайтами вам с лихвой хватит и этих.
Следует отметить, что практически все представленные выше поисковые машины могут работать и с кириллицей. Но для поиска информации на русском языке все-таки рекомендую отечественные поисковые системы:
– Яндекс – http://www.yandex.ru;
– Рамблер – http://www.rambler.ru;
– Апорт – http://www.aport.ru;
– mail.ru – http://www.mail.ru.
Существуют и другие русскоязычные поисковые системы, однако эти наиболее популярны, особенно первые две.
Рис. 4.1. Поисковая система Google
Формирование запросовЕсли вы не хотите углубляться в детали техники поиска, то можете просто задать поисковой машине вопрос так же, как задали бы его человеку, у которого хотите получить совет. Например, «как быстро похудеть», «есть ли жизнь на Марсе», «где раки зимуют» (рис. 4.2) или просто «работа журналиста».
Не исключено, что вы быстро найдете интересующую вас информацию. Но может случиться так, что поисковая система завалит вас кучей совсем не интересных вам ссылок. Так, на запрос «работа журналиста» Яндекс нашел более 180 000 документов.
Одними из первых в списке стояли ссылки на веб-страницы с информацией о конкурсе работ журналистов на тему иммунизации населения против кори и краснухи, о регламентировании работы журналистов в кризисных ситуациях и о влиянии внесенных дополнений к закону о СМИ на работу журналистов. Все это, конечно, довольно занимательно, но вряд ли вас удовлетворит.
Получить слишком много информации не намного лучше, чем не получить ничего. Мудрецы считают, что правильно заданный вопрос уже содержит в себе половину ответа. Это особенно справедливо по отношению к поисковым машинам.
Существует немало способов увеличения эффективности поиска. Рассмотрим самые основные из них.
Рис. 4.2. Формирование поискового запроса
Увеличение количества ключевых словОдно или два слова при поиске используют в основном начинающие пользователи. Видавшие виды пользователи Интернета включают в запрос в среднем пять или шесть ключевых слов, чтобы уменьшить количество ненужной информации и сделать запрос более точным. Но увеличение количества ключевых слов необходимо понимать правильно. Не стоит включать в запрос частицы и предлоги. Это так называемые стоп-слова. По умолчанию они исключаются поисковой машиной из запроса в связи с малой информативностью. Не нужно также использовать вводные и не относящиеся к делу слова.
К примеру, на запрос «ищу работу журналиста» поисковая машина совершенно справедливо предложит вам уйму ссылок на резюме выпускников факультета журналистики и прочих соискателей работы в области СМИ.
В таком случае нужно быть хитрее и вместо «ищу» написать «предлагаю». Результат будет гораздо лучше.
Каждое добавляемое к запросу слово должно его конкретизировать, указывать на особенности объекта поиска. Ведь поисковая машина не может читать ваши мысли.
Так скажите ей то, что вы думаете! Вы ищете работу журналиста? Хорошо. Какую именно работу, удаленную? Добавляем слово «удаленная». Вы собираетесь писать, фотографировать или снимать? Если писать, то добавьте слово «статья». Итак, мы получили запрос следующего вида: «журналист работа удаленная статья предлагаю». На этот запрос Яндекс выдал не 180 000, а всего 132 документа, которые уже более точно отвечают вашим потребностям.
Если и здесь вы не нашли то, что искали, то можно поиграть со словами, заменяя их синонимами. Например, слово «журналист» можно заменить на «автор», «удаленную работу» – на «телеработу», «статью» – на «текст» и т. д.
Метод последовательного приближенияСуть данного способа заключается в том, что вы после получения результата по своему запросу добавляете к тексту запроса новые ключевые слова, уточняющие его, а затем запускаете поиск заново.
Таким образом, с каждым новым ключевым словом происходит последовательное приближение к оптимальному результату.
Пусть, к примеру, для получения работы вам нужно подтянуть знания в области менеджмента. Для этого вы делаете запрос «менеджмент».
В результате поисковая машина выдает ссылки на сотни тысяч страниц, на которых в той или иной форме встречается слово «менеджмент». В такой уйме документов очень сложно найти что-нибудь нужное, что-то вроде учебника.
Добавив к запросу слово «учебник», вы замечаете, что количество ссылок значительно уменьшилось, и они стали на порядок полезнее предыдущих. Однако вскоре вы обнаруживаете, что большинство из них ведет прямехонько в интернет-магазины, занимающиеся продажей книг. Не горя особым желанием платить за информацию, вы продолжаете поиск и на одной из страниц находите скудное электронное пособие по нужной вам теме.
Смело добавляйте к запросу слово «электронный»! В результате большая часть ссылок на интернет-магазины исчезнет, а останутся полезные веб-страницы с нужной вам информацией. Однако, бегло пробежавшись по ссылкам, вы замечаете, что большинство пособий разбито на части и расположено на разных страницах. Это сделано для удобства просмотра. Но если вы не собираетесь читать книгу, сидя в Интернете, то для вас это будет совсем не удобно. Желательно скачать все сразу…
Скачать! Гиперссылка, часто применяемая для загрузки файлов! Добавляйте к запросу слово «скачать». В итоге вы получите список страниц с архивами электронных книг по интересующему вас менеджменту.
Использование языка запросов поисковых машинВ строку запроса поисковой машины, помимо ключевых слов, можно вводить так называемые операторы – специальные служебные слова или символы, которые сообщают поисковой системе, каким образом нужно обращаться с теми или иными ключевыми словами. Поиск операторов в документе не производится.
У каждой поисковой машины свой синтаксис языка запросов. В одних случаях он реализован лучше, в других – хуже.
Не будем рассматривать синтаксис отдельно взятой поисковой системы (детальное описание языка запросов любой системы можно без труда найти на ее сайте), а поговорим об основных операторах и правилах, работающих одинаково в большинстве поисковых машин. Их, как правило, бывает вполне достаточно.
– Операторы. Запрос, состоящий из нескольких слов, может содержать операторы. Каждый оператор имеет левую и правую части (то есть, соответственно, то, что стоит перед оператором и после него).
• AND (логическое И) – и левая, и правая части этого оператора должны присутствовать в тексте одновременно. Иными словами, при запросе «самолет AND вертолет» результатом поиска будут документы, которые содержат одновременно и слово «самолет», и слово «вертолет». Как правило, если оператор явно не указан и слова разделены пробелом, то по умолчанию используется оператор AND. Таким образом, запрос «дешевый фотоаппарат» будет истолкован поисковой машиной как «дешевый AND фотоаппарат».
• OR (логическое ИЛИ) – при использовании этого оператора в найденном тексте должна присутствовать или его левая, или правая часть. Этот оператор очень удобен при поиске синонимов. Например, в результате запроса «учеба OR занятие OR обучение» будут найдены документы, содержащие хотя бы одно из перечисленных слов.
• NOT (логическое НЕ) – отсекает документы, находящиеся в его правой части. Так, по запросу «игры NOTкомпьютерные» будут найдены веб-страницы, в которых есть слово «игры», но нет слова «компьютерные».
Если в запросе присутствует несколько операторов, то поисковая машина будет работать с ними в соответствии с их приоритетом. Обычно операторы AND и NOT имеют более высокий приоритет, нежели OR. Другими словами, при обработке таких запросов поисковая машина будет сначала группировать ключевые слова по операторам AND и NOT, а только потом по операторам OR. Однако порядок группировки можно изменять. Для этого предусмотрены скобки.
– Скобки. Скобки задают порядок действия логических операторов. Они представляют собой превосходный инструмент, позволяющий строить очень гибкие и эффективные запросы.
Ключевые слова, заключенные в скобки, трактуются операторами, как одно целое. Таким образом, появляется возможность изменять приоритеты операторов и строить сложные вложенные запросы. Например, по запросу «мобильный OR сотовый AND телефон» в соответствии с приоритетами будут выданы документы, содержащие либо слово «мобильный», либо одновременно слова «сотовый» и «телефон». При использовании скобок запрос вида «(мобильный OR сотовый) AND телефон» задает поиск документов, где встречается слово «телефон», а также слово «мобильный» или «сотовый».
Можно строить самые разные конструкции. К примеру, вы хорошо владеете китайским языком и хотите найти себе удаленную работу. Тогда формируем запрос «переводчик AND китайский». Дальше логично написать что-то вроде «требуется» или «работа». Однако чтобы поиск был более эффективным, лучше предусмотреть как можно больше вариантов. Поэтому добавляем к запросу «(работа OR требуется OR вакансия)». Далее следует показать машине, что вы хотите работать удаленно, поэтому добавляем «(удаленная OR дистанционная OR внештатная)». Ну а чтобы исключить из списка найденных документов всевозможные резюме таких же, как вы, соискателей, в конце можно дописать «NOT (резюме OR ищу OR предлагаю)». В конечном итоге получим следующий текст запроса:
(переводчик AND китайский AND (работа OR требуется OR вакансия) AND (удаленная OR дистанционная OR внештатная)) NOT (резюме OR ищу OR предлагаю)
Возможно, это выглядит слегка устрашающе, зато работает довольно эффективно.
– Кавычки. В большинстве поисковых систем по умолчанию поиск учитывает все формы заданного ключевого слова. Чтобы искать точные словоформы, предусмотрены кавычки. Ключевые слова, заключенные в кавычки, ищутся именно в той форме и последовательности, в которой использовались в запросе. Таким образом очень удобно искать, к примеру, цитаты.
– Поиск с расстоянием. Допустим, вы хотите собственными руками собрать радиоприемник и сформировали запрос «схема радиоприемник». Поисковая машина, согласно алгоритму, начнет поиск документов, содержащих оба ключевых слова. В итоге в списке найденных веб-страниц будет огромное количество документов, в которых эти слова совершенно не связаны между собой и находятся в разных частях текста. Чтобы этого не допустить и не получить ссылки на документы, в которых «радиоприемник работал так громко, что мешал изучать схему подземных сооружений», предусмотрен поиск с расстоянием.
В языках запросов различных поисковых машин расстояние ограничивается по-разному. Например, в Яндексе это осуществляется следующим образом. Если все слова в тексте пронумеровать по порядку их следования, то расстояние между какими-либо двумя словами будет равно разнице между номерами этих слов. Таким образом, расстояние между соседними словами равно 1, а между словами, стоящими наоборот, – -1. Для определения расстояния в Яндексе применяется символ «/». Так, на запрос «схема /2 радиоприемник» будут найдены документы, в которых присутствуют слова «схема» и «радиоприемник», причем расстояние между ними составляет не более двух слов и они находятся в одном предложении. В других поисковых системах синтаксис может быть другим, но суть примерно та же.
Кроме того, некоторые поисковые системы позволяют искать по адресам сайтов, ключевым словам, аннотациям, подрисуночным подписям и т. д.
В табл. 4.1 приведены основные правила языков запроса самых популярных отечественных поисковых систем.
Таблица 4.1. Основные правила языков запроса поисковых систем