355 500 произведений, 25 200 авторов.

Электронная библиотека книг » М. Абрамзон » Яндекс для всех » Текст книги (страница 3)
Яндекс для всех
  • Текст добавлен: 24 сентября 2016, 01:36

Текст книги "Яндекс для всех"


Автор книги: М. Абрамзон


Жанр:

   

Интернет


сообщить о нарушении

Текущая страница: 3 (всего у книги 37 страниц) [доступный отрывок для чтения: 14 страниц]

1.2.2. Индекс

Огромный объем информации, размещенной в Интернете, приводит к разрастанию Индекса. С некоторой долей приближения информацию можно разделить на две категории – условно постоянную и переменную. К переменнойинформации можно отнести публикации информационных изданий и аналогичных сервисов, записи в блогах, предложения онлайновых магазинов, иные сервисы, где информация меняется с большой частотой.

Обработка быстроменяющейся информации потребовала иного подхода. Были разработаны новые технологии и алгоритмы, новые базы и поисковые роботы. Каждой отдельной базе соответствовал собственный Индекс. Поисковые базы были разработаны для поиска по словарям и энциклопедиям, по каталогу сайтов, по предложениям интернет-магазинов, новостям и блогам.

Но какие бы новые технологии ни создавались, какими бы совершенными ни становились технические средства, объем накапливаемой информации заставляет наращивать вычислительные мощности. Если первый Индекс размещался на обычном компьютере, стоявшем в буквальном смысле "в ногах" у разработчика, то теперь для размещения аппаратных средств построены специальные помещения, оборудованные всем необходимым для обеспечения непрерывной работы. А компьютер, положивший начало поисковой системе, теперь находится на выставке раритетов Яндекса.

1.2.3. Поисковый механизм

Начиная выполнять поиск с помощью Яндекса, мы может в явном виде указать, в какой базе (коллекции документов, типе документов) следует выполнять поиск. Если мы не указываем этого, то на основе анализа запроса Яндекс самостоятельно делает допущение о приоритете специализированной коллекции над основной, самостоятельно подбирает подходящую к запросу рубрику каталога.

Чаще всего для поиска используются все базы. При этом собирающий сервер раздает в них модифицированные запросы, прошедшие предварительную обработку. Эта обработка заключается в том, что каждому термину в запросе сообщается глобальное значение его обратной частоты, подсчитываемой по коллекции веб-страниц. Такая обработка требуется для того, чтобы поиск велся по единым правилам, и значения релевантности, вычисляемые в разных коллекциях, можно было бы считать последовательными и вычисляемыми "в одной системе координат".

Модификации запросов этим не ограничиваются, и для специализированных коллекций (например, "энциклопедий") могут быть и другими, в том числе и очень специфическими.

Запрос выполняется параллельно для всех коллекций, а слияние результатов, как и указывалось ранее, производится на том из собирающих (метапоисковых) веб-серверов, на который попадал пользователь при заходе по адресу www.yandex.ru. Результаты поиска по наиболее крупным источникам, если в них найден хоть один ответ, показываются рядом со ссылками из веба (справа – одна картинка и ссылка на остальные, а также ответ Маркета). Ответ остальных источников может показываться сверху или снизу результатов поиска, если он оказался достаточно релевантным – так работают Новости, Энциклопедии, Каталог.

1.3. Основы поиска в Яндексе

Поиск Яндекса – самый востребованный его ресурс. Огромная база данных, отличная скорость реакции, высокая релевантность ответа, возможность найти ответ на почти любой поставленный вопрос. Недаром одним из любимых слоганов поисковика было (и остается теперь) «Найдется все!» (рис. 1.1).

И даже его реклама в Московском метро среди назойливой рекламы разнообразных товаров и услуг выглядела как простая констатация факта, уверенная и правдивая.

Но не только скорость и качество повлияли на востребованность сервиса. Оказало свое влияние и удобство работы с поисковиком, разнообразие вариантов доступа к сервису. Российские, да и не только, поисковики зачастую грешат перегруженностью страницы ввода поискового запроса. Когда используешь сервис только для нахождения информации, все остальное в лучшем случае мешает, а часто – раздражает.

Яндекс предлагает различные варианты доступа к поисковой системе. Обычный, базовый вход выполняется по основному адресу – http://yandex.ru (рис. 1.2). "Весит" эта страница около 50 Кбайт и кроме логотипа других графических элементов не имеет (я не считаю в данном случае за графику отдельные элементы дизайна). Поэтому загружается страница очень быстро даже при использовании модемного соединения.

Что размещено на этой странице? Главный элемент – строка поиска. Чаще всего при вводе запросов используется обычный ее вариант, без дополнительных (расширенных) возможностей. По умолчанию поиск ведется во всех разделах, но можно выбрать более узкую зону поиска – поиск среди новостей, картинок, блогов, словарей. Ниже блока поиска – заголовки основных разделов каталога. Отдельным пунктом среди них выделены сайты вашего региона.

В зависимости от глубины обработки вашего IP-адреса, выводится информация о погоде в вашем городе и программа телевизионных передач на текущий момент (с учетом местного времени) по основным телеканалам. Присутствует и информация о курсе валют Центробанка – для кого-то она необходима. И очень кратко – буквально пять строчек – последние новости из ленты новостей.

Со страницы поиска можно перейти и на другие сервисы Яндекса, в том числе в личные, войти в почту, используя свой аккаунт, либо зарегистрировать новый, перейти на сервис Яндекс. Деньги.

1.3.1. Базовые возможности

Искать в Яндексе очень и очень просто. Вы задаете вопрос в том виде, в каком могли бы задать его приятелю, учителю, врачу, ученому. Единственное пожелание – вопрос не должен быть очень длинным и содержать множество слов. Оптимальное количество слов в запросе – от трех до шести. На мой взгляд, поиск выполняется быстрее и качественнее, если первоначальный запрос содержит не более трех слов, а при необходимости его уточнения выполняется поиск по дополнительным словам в уже найденном результате.

Поиск по одному слову может привести к неожиданным результатам. К примеру, вы хотите узнать о настройках привилегий пользователей в операционных системах. Вводите слово "привилегии" и получаете подборку ответов обо всех известных Яндексу привилегиях. И на первом месте будут ссылки на информацию о привилегиях депутатов. Да, где-то внутри списка на полусотне страниц наверняка будет и ссылка на нужную вам информацию. Но крайне редко кто-то просматривает более двух-трех страниц из полученных результатов.

Поисковая система Яндекса учитывает морфологию русского языка. Поэтому вне зависимости от того, в какой форме вы употребите слово в запросе, поиск будет вестись по всем возможным его формам. Для русского языка это особенно важно, поскольку слова могут употребляться в разных падежах, числах, склонениях. И если вы задали в запросе слово ель, то в результате поиска будут найдены документы, в которых содержатся слова "ель", "ели", "елка". Но обратите внимание – слово "ели" будет только в виде существительного, хотя в русском языке оно может быть использовано и в виде глагола ("есть", "ел", "едим"). Следовательно, Яндекс различает и части речи. И если вы ищете слово профессионал (существительное), будут найдены страницы со словами "профессионал", "профессионалы", но страницы со словом "профессиональный" (прилагательное) в результаты выведены не будут.

Однако не всегда использование морфологического анализа желательно. В ряде ситуаций необходимо найти слово в определенном его написании. Такая возможность также существует. Для отключения использования морфологического анализа перед требуемым словом в запросе достаточно поставить восклицательный знак.

Исключить морфологический анализ можно и другим путем – взять искомое слово в кавычки. Кавычки используются и в тех случаях, когда требуется найти определенное слововыражение, цитату. Например, если в строке поиска вы введете "мороз и солнце, день чудесный", то в результатах поиска будут приведены ссылки на страницы, содержащее искомое выражение.

В поисковой системе слова, начинающиеся с букв в разном регистре, считаются разными формами одного слова. Поэтому как бы вы ни написали слово пряжа, в результатах будут выведены ссылки не только на страницы, где говорится о ткачестве, изготовлении одежды, но и на страницы, где упоминается одноименный город в Карелии. Если вы хотите уточнить предмет поиска, следует воспользоваться оператором точной формы (вспомните – это восклицательный знак). По запросу! пряжа вам будут найдены документы, содержащие это слово в любом регистре. Но если запрос выполнить как! Пряжа, то в результате будут выданы документы, содержащие слово "Пряжа" с большой буквы. (В связи с этим очень часто приводятся примеры поиска распространенных сочетаний, совпадающих с именем собственным, например, группа! Черный кофе.)

Те, кто искали информацию с помощью Яндекса, знают, что среди найденных документов будут встречаться и такие, в которых содержится только часть слов, входящих в запрос. Что сделать, чтобы важное для вас слово присутствовало в документе в обязательном порядке? Для решения этой проблемы вам надо перед требуемым словом без пробела поставить знак +.

В русском языке, как и в любом другом, есть группа слов, которые встречаются в тексте значительно чаще других. К таким словам относятся предлоги, местоимения, частицы (еще их называют Стоп-слова).Они появляются в текстах так часто, что начинают мешать поиску. Поэтому большинство поисковых машин их игнорирует даже в том случае, когда они встречаются в тексте запроса. Но что делать, если для вашей фразы слово из такого стоп-списка требуется в обязательном порядке? Как и в предыдущем случае, использовать признак обязательности – знак +. Но это не единственный вариант – чуть ранее мы говорили о том, что можно исключить использование морфологического анализа, заключая искомое выражение в кавычки. И тогда поиск выражения «и маятник может шагать в ногу со временем» однозначно приведет вас на страницу замечательного польского писателя С. Е. Леца.

Вы уже догадываетесь, какой ответ будет на вопрос, – а как исключить слово из поиска? Ну не хочу я, чтобы на странице результатов по запросу о компаниях-производителях горных лыж присутствовали предложения горных курортов. В этом случае в строке запроса перед словом, которое вы хотите исключить, необходимо поставить знак —. И тогда запрос может выглядеть так: горные лыжи – курорт – тур – агентство.

Вот те минимальные сведения, знания которых вполне достаточно для выполнения большинства поисковых запросов. Но иногда требования к результатам поиска предъявляются более высокие, и в этом случае нужно использовать расширенный поиск.

1.3.2. Расширенные возможности поиска

Для того чтобы использовать расширенные возможности, перейдите по ссылке расширенный поиск, находящейся под строкой ввода запроса. Вы попадете на новую страницу, где, помимо поля ввода запроса, размещены поля для формирования сложных поисковых условий.

Все выбранные вами условия являются обязательными при обработке запроса. Например, если вы в дополнительных условиях установите требование, чтобы слова запроса находились на одной странице документа, а документ был в формате DOC (Microsoft Word), то в результате получите список документов, в которых искомые слова находятся на одной странице. Ни HTML-страницы, ни другие документы, содержащие искомые слова, в результат поиска включены не будут.

Группа условий Искомые слова

Дополнительные условия разбиты на две группы. Первая группа условий Искомые слова относится к словам и их размещению в документе.

Расположение слов друг относительно друга

С помощью первого блока условий (табл. 1.1) назначается требование по взаимному расположению искомых слов (иначе – расстояние между словами).

Возможность определять в запросе взаимное расположение слов на странице или в документе связана с тем, что в Яндексе используются специальные алгоритмы, учитывающие не только морфологию слов, но и их связь между собой (если в запросе указано несколько слов).

Яндекс – весьма самостоятельная система, и если вы ей не укажете строгие правила поиска, он будет искать по правилам, применяемым по умолчанию:

Если слова, идущие в запросе одно за другим, тесно связаны между собой, поиск будет происходить в пределах одного предложения. Если связь менее тесная – поиск будет вестись на расстоянии в несколько предложений. В том случае, если Яндекс определит, что слова между собой не связаны, они будут разыскиваться в пределах одного документа.

Пример, приводимый Яндексом

…запрос продажа автомобилей Украина отличается от запроса продажа автомобили Украины. В первом запросе «точно найденным документом» будет считаться документ, в котором слова «продажа» и «автомобиль» находятся «рядом» (скажем, в одном предложении), а слово «Украина» – «далеко» (скажем, где угодно в документе). Во втором запросе точно найденным документом будет считаться только такой, в котором слова «автомобиль» и «Украина» находятся достаточно близко. Яндекс решает так, потому что фраза «автомобили Украины» синтаксически согласована. То есть, с точки зрения Яндекса, первый запрос нацелен на поиск украинских автомобильных дилеров, а второй – на поиск любых продавцов «Таврий».

Используя настройки расширенного поиска, вы тем самым ужесточаете требования к его результатам и ограничиваете "своеволие" поисковой машины. Незначительный, вроде бы, нюанс, но может существенно сказаться на полученных результатах.

Расположение слов на странице

При обычном поиске заданные в запросе слова разыскиваются по всем элементам страницы (табл. 1.2). В данном контексте под элементами понимаются тело страницы, ее заголовок (тот текст, который виден в заголовке браузера), либо ссылки, ведущие со страницы. Вы можете ограничить ареал поиска, выбрав один из перечисленных элементов. И более того, вы можете ужесточить поиск среди ссылок, если в качестве дополнительного параметра укажете, на какой конкретно сайт должна вести ссылка. Это может пригодиться в том случае, если вы знаете сайт, информации на котором вы доверяете. И если в процессе поиска в тексте документа будут ссылки на информацию с этого сайта, вы заранее предполагаете, что сможете доверять и найденной информации.

Форма представления слова

Еще один элемент настройки – выбор формы представления слова в документе (табл. 1.3). С его помощью можно либо искать слово во всех его морфологических формах, либо в строгом соответствии с написанием в запросе. Использование этого элемента идентично использованию восклицательного знака перед словом в тексте запроса.

Группа условий Страницы

А вот эта группа настроек предназначена для отбора соответствующих запросу страниц, но по параметрам, не имеющим отношения к словам. Отбор выполняется по иным требованиям и позволяет сократить количество подобранных ссылок до минимума.

Первое, что предлагается в качестве дополнительного ограничения, – язык документа (страницы). Хотя Яндекс проводит индексирование сайтов только русскоязычной части Интернета, здесь также могут встречаться сайты и документы на разных языках. По умолчанию для поиска язык сайта или документа не важен (например, слово computer может встречаться как в текстах на русском, так и в текстах на английском языке). Если же вас интересуют тексты (страницы сайта, документы) только на определенном языке или группе языков, используйте опцию выбора языка. Можно выбрать определенный язык, а можно, используя клавиши или , выбрать несколько.

Во многих случаях важно не только наличие страницы или документа, но и дата их создания. К примеру, вы ищете новую информацию об Испании, куда хотели бы поехать в отпуск. Вам нужны публикации за последний месяц. Используя второй элемент настройки – дата, установите необходимый период. Это могут быть последние две недели, месяц, три месяца или год. Впрочем, совершенно не обязательно использовать эти предварительные настройки – вы можете установить и собственный период для отбора.

К сожалению, необходимо отметить, что отбор документов по времени работает плохо. И связано это не с особенностями поисковой машины. Отнюдь. Яндекс прекрасно понимает дату создания документа, получая ее из его свойств, и дату публикации или изменения страницы на сайте. Беда в другом. Далеко не все серверы выдают правильную дату документа или страницы. Это первое. А второе заключается в том, что на обновленной странице, где размещаются тексты, новости, объявления, дата самого текста может быть очень давней, а дата публикации страницы из-за публикации новостей, новой. Поэтому я бы не очень доверял использованию данной настройки.

Впрочем, этой настройке в большей степени можно доверять в том случае, когда вы ищете только документы, исключая поиск страниц. Яндекс понимает документы, созданные в нескольких форматах: HTML, PDF (Adobe Acrobat Reader), RTF, DOC (Microsoft Word), PPT (PowerPoint), SWF (Macromedia Flash). Если вас интересует несколько определенных форматов, удерживая клавишу или , выберите нужные.

Неплохая возможность есть для тех, кто разместил в Интернете свой сайт или публикацию. С помощью поля содержат ссылкуможно указать сетевой адрес сайта или статьи. Результатом будет список страниц и документов, в которых, помимо ключевых слов, будет и указанная ссылка. Результаты поиска помогут увидеть заинтересованность в материалах вашего сайта или публикации. Но не надо думать, что все заинтересованные посетители будут ставить на вас ссылки. Поэтому к итогам надо относиться очень аккуратно и доверять им только как к определенному показателю, не более того.

Вы можете еще более ограничить область поиска, если укажете перечень сайтов, на которых нужно будет искать информацию. Заполните поле находятся на сайтеперечнем сайтов (через запятую), и Яндекс будет проводить поиск только по их материалам. Эту особенность можно использовать и в том случае, если вам известен интересный сайт с полезной информацией, но не имеющий функции поиска. Введите в поле находятся на сайтеего адрес, и Яндекс выдаст результаты по одному сайту. Не следует забывать, что владельцы сайта могли поставить запрет на индексирование определенных страниц или разделов сайта, поэтому в результатах могут быть приведены далеко не все страницы, содержащие разыскиваемую информацию.

Примечание

В документации к разделу расширенный поискговорится о том, что должно быть еще одно поле – не находятся на сайте. Служит оно для противоположной цели – исключить из результатов поиска один или несколько сайтов. Но на странице расширенного поиска это поле отсутствует.

Поиск «по образцу» заключается в том, что вы вносите в поле похожи на страницуадрес документа, для которого хотели бы найти подобные материалы. В результате вы получите список страниц и документов, содержащих искомые слова и подобные предложенному вами образцу. По своему действию эта настройка подобна ссылке Похожие документыв результатах поиска.

И еще одно ограничение, которое вы можете наложить на выдачу результатов поиска. Заключается оно в том – на сайтах какого региона требуется искать результаты. Для этого введите в поле регионназвание города, области, государства. В результатах вашего запроса будут ссылки на документы и сайты, находящиеся в этом регионе. Но не все так однозначно. Будут пропущены сайты, владельцами которых являются организации или жители данного региона, но реально размещенные на хостингах, находящихся далеко за его пределами. Примеров таких множество. И наоборот. В результаты попадут сайты, совершенно не связанные с нужным регионом, но находящиеся на площадках компаний, предоставляющих услуги хостинга в нужном вам регионе.

По мере формирования условий поиска, выбранные назначения отображаются в нижней части страницы в поле после слова Итого. Те параметры, которые не изменялись, в итоговое выражение не включаются.

Итак, подведем небольшие итоги. С помощью расширенного поиска вы можете наложить ограничение на взаимное расположение слов в документе, их нахождение в отдельных его элементах, ограничить используемый язык документа, время создания или изменения, тип, регион и диапазон просматриваемых сайтов. Чем точнее вы сможете наложить ограничения, тем меньше и точнее будет сформированный результат поиска. Да, времени на подготовку запроса уйдет заведомо больше, чем при обычном запросе. Зато время на просмотр результатов существенно сократится.

И последнее, поскольку речь зашла о результатах. На странице настроек расширенного поиска вы можете назначить количество ссылок в результатах, которые будут выводиться на одной странице. Кому-то может быть достаточно того количества, которое предлагается по основным настройкам, а кому-то необходимо, чтобы это количество было больше или меньше.


    Ваша оценка произведения:

Популярные книги за неделю