355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Евгений Ющук » Интернет-разведка. Руководство к действию » Текст книги (страница 6)
Интернет-разведка. Руководство к действию
  • Текст добавлен: 8 сентября 2016, 21:35

Текст книги "Интернет-разведка. Руководство к действию"


Автор книги: Евгений Ющук


Жанр:

   

Интернет


сообщить о нарушении

Текущая страница: 6 (всего у книги 21 страниц) [доступный отрывок для чтения: 8 страниц]

Преимущества невидимого Интернета

Поисковые системы удобны, поскольку позволяют проводить поиск по ключевым словам. Однако все популярные поисковики такого плана – вроде Яндекса, Гугла и Рамблера, – рассчитаны на широкую, а не целевую аудиторию.

В то время как невидимый Интернет изобилует источниками, посвященными определенной теме: они подобраны и проверены специалистами вручную и потому в большинстве случаев содержат наиболее полную и подробную информацию по конкретному вопросу.

Так, на сайте проекта «Рифпарк», расположенном по адресу http://rifpark.ru/, вы можете ознакомиться с материалами по аквариумистике, многие из которых взяты из видимого Интернета и собраны вместе на данном ресурсе, оценены специалистами на предмет компетентного подхода к проблеме и представлены в виде тематических каталогов. При этом часть материалов из каталога сайта «Рифпарк» на момент написания книги была не проиндексирована поисковыми машинами, несмотря на то, что главная страница ресурса проиндексирована была.

Например, фраза: «Водоросли обычно придают аквариуму неэстетичный вид (хотя в природе они встречаются повсеместно) или служат индикатором плохого качества воды», – взятая с этого сайта, при поиске по ней информации в Яндексе не вывела нас на ссылку, которая указывала бы на ресурс проекта «Рифпарк». Были найдены другие сайты с таким же текстом. Это видно на рис. 6.


Рис. 6. Яндекс не видит сайта «Рифпарк» при запросе фразы с этого сайта.

Как указывают эксперты по поиску в Интернете, поисковые машины общего назначения постоянно выбирают между тем, какой ответ предоставить: самый простой, самый полный, самый интересный… (перечень критериев можно продолжить – вплоть до «наилучшего»). Как мы уже говорили, эти системы вынуждены ограничивать себя в процессе удовлетворения запроса пользователя, так как их работа имеет определенную себестоимость. Поисковик – коммерческое предприятие, ничего уж тут не поделаешь.

С другой стороны, правительства, учебные заведения и другие организации, не преследующие целей получения прибыли, очень активно используют ресурсы невидимого Интернета. Такие сайты не стараются угадать интересы каждого, «заточены» под потребности представителей определенной отрасли и очень часто дают полный ответ на вопрос, на котором, собственно, и специализируются. Ответ этот, как правило, позволяет провести исчерпывающий поиск в конкретной предметной области и оперативно обновлять результаты.

Таким образом, нередко невидимый Интернет имеет преимущества перед видимым:

– фокусируется на узкоспециальном контенте, что позволяет ему обеспечивать более полные результаты;

– часто имеет соответствующий своей теме поисковый интерфейс, отчего запросы могут настраиваться более точно, нежели в поисковой машине общего назначения, а значит, и ответы получаются более релевантными;

– экономит время, а кроме того – может содержать информацию, которая нигде более недоступна.

Это происходит, в частности, оттого, что в каталог невидимого Интернета его энтузиасты нередко включают информацию, взятую из базы данных, которая не индексируется поисковыми машинами, либо помещают фотографию документа, сделанную такими пользователями лично. Кроме того, если на каком-то форуме появляются интересные сведения, то они в ряде случаев просто стираются модератором или самим автором. Но до того как информацию успеют убрать, она зафиксируется одним из энтузиастов и будет храниться затем на его тематическом сайте.

Когда использовать невидимый Интернет

Итак, мы можем констатировать, что при поиске узкоспециальной информации после просмотра того, что будет предложено поисковиками, следует непременно обратиться к специализированным ресурсам. Особенно когда задача заключается не в одном лишь нахождении ответа на вопрос вроде: «В каком году был открыт Кутаисский автомобильный завод?» (это, кстати, реальный вопрос с Форума Яндекса[6]6
  Форум Яндекса «Где найти?» http://forum.yandex.ru/yandex/where.xhtml.


[Закрыть]
), – а подразумевает сбор максимально полной информации по той или иной проблеме. Как уже было сказано, часть сведений на таких сайтах может относиться к видимому Интернету, а часть – к невидимому.

Есть смысл попытаться не ограничиваться поисковыми машинами, а отправиться на тематические сайты и поискать там информацию, которая может относиться к Невидимому Интернету, в следующих ситуациях.

1. Когда вы хорошо ориентируетесь в предмете.

Специалисты в своем деле обычно знают один или более ресурсов, которые располагают необходимой им информацией. Часть таких адресов относится к невидимому Интернету.

Компетентность человека в изучаемом предмете обеспечивает еще одно преимущество: настоящий профессионал быстро приходит к пониманию того, какие ключевые слова дают наилучший результат при поиске нужных сведений и в других базах данных.

2. Когда вы хорошо знакомы со специфическим поисковым инструментом.

Некоторые ресурсы невидимого Интернета охватывают различные области знаний, но имеют при этом столь развитый и тонко настроенный поисковый инструмент, что, умея им пользоваться, можно достичь результатов лучших, нежели те, которые будут представлены поисковыми машинами общего назначения. Возможность точного составления запроса позволяет лучше искать иголку в стоге сена. Это справедливо и для ряда ресурсов видимого Интернета. Чтобы убедиться в этом, достаточно сравнить ответ на запрос с множеством параметров, который можно ввести, например, при поиске нужного резюме на сайте, посвященном поиску работы, и ответы на такой же запрос к поисковой машине, например, к Яндексу.

3. Когда вам требуется исчерпывающий результат, который заведомо проверен людьми, ориентирующимися в изучаемой области.

Поисковые машины неспособны сравниться по этим параметрам с ресурсами невидимого Интернета. Глубина индексирования, несвоевременность, фильтрация результатов приводят к тому, что появляется много «шума». Проблему усугубляет отсутствие у большинства поисковых систем инструментов тонкой настройки запроса. Именно этот критерий – один из основных, на наш взгляд, по которому Гугл, имеющий одно логическое «И», проигрывает Яндексу, располагающему аж тремя логическими «И».

4. Когда стоит задача получить лишь своевременный контент.

Страницы невидимого Интернета и тематические ресурсы в ряде случаев обновляются чаще, чем страницы и директории, индексируемые поисковыми машинами. Это связано с тем, что добровольцы-энтузиасты с большим рвением отслеживают изменения на тематических сайтах, в отличие от беспристрастных и ничем не интересующихся пауков поисковых машин.

Плюсы и минусы директорий как способа поиска информации в Интернете

Независимо от того, к видимому или к невидимому Интернету относятся директории, у них есть ряд общих положительных и отрицательных свойств.

1. Директории всегда относительно невелики по размеру – в сравнении с общим количеством информации, доступной через поисковые машины.

Поскольку директории отбираются вручную, они, по определению, содержат информации меньше, чем любая поисковая машина. Однако такое ограничение имеет как плюсы, так и минусы.

К преимуществам директорий относится их прямая нацеленность на заданную проблему. Редактор, который принимает решение о включении каких-то данных в тематическую директорию, должен оценить соответствие этой информации теме, и поэтому для каталога отбираются лишь высококачественные ссылки. Кроме того, к каждой статье в директории прилагается аннотация, из которой сразу становится понятно, имеет ли смысл пользователю идти по конкретной ссылке в поисках определенной информации.

К минусам, связанным с небольшими размерами директорий и ограниченной численностью персонала, который их обслуживает, относится неспособность редактора понять нюансы той или иной узкой проблемы и, как результат, исключение некоторых пограничных вопросов из перечня тем. Надо сказать, что некоторые каталоги пошли по пути организации онлайновой энциклопедии – Википедии, когда сами пользователи решают, что соответствует, а что не соответствует их теме. Такие базы данных получают преимущество перед традиционными, которые контролируются лимитированным штатом редакторов. Что интересно, первоначально существовали опасения, что подобные возможности правок приведут к появлению тотальной анархии. Как и в ситуации с Википедией, практика показала, что все эти домыслы оказались беспочвенными.

2. Редакторская политика бывает очень субъективной.

Хотя редакторские стандарты и критерии отбора информации заявлены уже на входе в каждую директорию, другие факторы также могут влиять на качество ее содержимого. Так, у редактора могут быть «любимые» и «нелюбимые» темы. В открытых каталогах может быть собрано много информации, но такой специалист имеет возможность, например, убрать данные о конкуренте. Хорошая директория старается сохранить объективность и предоставить разные точки зрения, однако далеко не всегда это удается сделать на практике.

3. Несвоевременность.

Мы уже говорили, что на специализированных сайтах, благодаря работе энтузиастов, достаточно оперативно отслеживаются изменения по тематическим вопросам. Однако это происходит не всегда. К сожалению, нередко адреса и содержимое страниц могут меняться со временем, но далеко не всегда это находит оперативное отражение в содержании директории. Теоретически за этим должен следить редактор, однако на практике все подчас складывается иначе, хотя бы в силу банальной нехватки времени. В связи с этим многие из них просят сообщать о так называемых «битых и удаленных ссылках», но те адреса, которые посещаются мало, могут быть пропущены и не отслежены с помощью этого фильтра.

Кроме того, нередко картину в каталогах портит тактика неких «дорвеев». Она нацелена на то, чтобы заманить на свой сайт пользователя, который бродит по Интернету в поисках определенного контента, а затем перебросить его на другой сайт, ради принудительного посещения которого первый сайт, собственно, и создавался, а после чего «раскручивался». Недобросовестный администратор такого сайта может дождаться, когда его сайт, соответствующий теме каталога, окажется включен в тематический каталог, а затем ставит так называемый редирект (перенаправление) на сайт, например, порнографического содержания. Именно из-за этой технологии люди, которые ищут, например, программное обеспечение для мобильных телефонов, часто при переходе по ссылке оказываются на сайте электронного казино или на ресурсее, предлагающем интимные услуги.

4. Перекос информации в одну сторону.

Директории могут не отражать реального баланса информации, содержащейся в Интернете, поскольку информация отфильтровывается заведомо предвзято. Для директорий, имеющих узкую направленность, это не является недостатком, скорее наоборот. А вот для директорий общего назначения это критично. Ситуацию усугубляет то обстоятельство, что некоторые «раскрученные» ресурсы берут плату за включение новых сайтов в свои каталоги, что может приводить к исчезновению действительно нужного контента и замене его на бесполезный, но проплаченный в рекламных целях.

С другой стороны, как недостаток, так и избыток информации могут создавать проблемы, так как перенасыщение Сети материалами заметно усложняет процедуру поиска нужного ресурса. Примером перегруженных директорий, содержащих тысячи документов, может служить категория «Производство и поставки «в Яндексе, которая на момент написания книги включала 8748 ссылок. Отчасти указанная проблема решается за счет хорошего структурирования материала, однако это не избавляет пользователя от необходимости затрачивать на поиск немалые усилия.

Основные категории невидимого Интернета

Крис Шерман и Гэри Прайс еще в 2004 г. выделили основные категории онлайновой информации, которая чаще всех остальных сведений относится к невидимому Интернету – в той или иной степени.

Мы бы рекомендовали материалы, подобные приведенным ниже, искать не только и не столько через информационные системы, сколько через специализированные сайты. При этом сами такие узконаправленные ресурсы (их главные страницы, а не содержимое) можно успешно отыскать при помощи тех же информационных систем.

Мы попытались проанализировать, насколько изменилась ситуация по сравнению с той, что была описана Шерманом и Прайсом, а также проверить, как обстоят дела с подобными типами ресурсов в русскоязычной части Интернета.

1. Информация о компаниях, обязательная для раскрытия.

Во многих странах компании, акции которых публично продаются, обязаны предоставлять определенную информацию о себе на правительственные сайты или сайты общественных организаций. Такие ресурсы нередко позволяют организовать информирование по электронной почте об изменениях информации о какой-либо компании. В России к таким сайтам относится сайт проекта СКРИН: http://www.skrin.ru/issuers/.

2. Номера телефонов.

К невидимому Интернету часто относят так называемые «Белые страницы» или «White Pages» (справочники, содержащие информацию о телефонах отдельных людей), например справочник, расположенный по адресу: http://interweb.spb. ru/phone/.

3. Составление карт для водителей.

Конкретная карта, составляется по запросу.

Примеры:

http://www.wayinnet.com/r/service/m2.htm

http://truckmarket.ru/tc.php

http://www.licard.ru/wwwintra/licard_ru_route.nsf/RoutePlanning?OpenForm &lang=RU.

4. Патенты.

Поиск по базам данных патентов в России предоставляется, в частности, на сайте Роспатента: http://www.fips.ru/russite/.

5. Книги, которые больше не печатаются.

Книги, которые больше не печатаются, но представляют интерес для читателей, есть всегда. И это не обязательно антиквариат. Нередко люди ищут такую литературу просто из желания сэкономить, особенно если речь идет об иностранной печатной продукции. Для удовлетворения такого спроса созданы специализированные сайты.

Напрмер, американский ресурс http://www.alibris.com или российский http:// www.alib.ru/.

6. Библиотечные каталоги.

http://www.benran.ru/Lib_kat.htm

Каталоги библиотек России: каталоги Российской государственной библиотеки;

– каталоги Российской национальной библиотеки (Санкт-Петербург);

– каталоги ГПНТБ РФ (включая Российский Сводный Каталог по научно-технической литературе);

– каталоги Государственной центральной научной медицинской библиотеки;

– каталоги Центральной научной сельскохозяйственной библиотеки;

– каталог библиотеки МГУ.

Каталоги зарубежных библиотек:

– Библиотека Конгресса США;

– Британская библиотека.

Списки Интернет-каталогов библиотек мира:

– каталоги национальных библиотек мира (Российская национальная библиотека);

– LibDex – The Library Index; Lib-Web-Cats. A directory of libraries throughout the world.

7. Толковые словари или словари иностранных слов известных авторов, размещенные на крупных поисковых ресурсах в качестве дополнительной услуги для пользователей.

Действительно, попытки найти значение слова «каталог» в словаре В. Даля через Яндекс «Словари» увенчались успехом. Был получен текст из сдоваря Даля:

«КАТАЛОГ м. роспись, ведомость или перепись, особенно книгам.

Католожный, к каталогу относящ.»

Попытка найти это же определение с использованием части текста (с помощью оператора «двойные кавычки») также дала положительный результат, но на других сайтах, не имеющих отношения к Яндексу (рис. 7).


Рис. 7. Слово «Каталог» найдено на других сайтах при поиске через Яндекс.

Попытка принудительно искать эту же часть текста именно на сайте Яндекса, с помощью оператора rhost, не дала результата.

8. История биржевых котировок.

Многие люди считают, что биржевые данные – это недолговечная информация, которая быстро теряет свою ценность. Однако для аналитиков, составляющих тренды, эти сведения необходимы. В качестве примера приведем описанный Шерманом и Прайсом сайт BigCharts, представленный на рис. 8 и расположенный по адресу: http://www.bigcharts.com/historical/.


Рис. 8. История биржевых котировок на сайте BigCharts.

Другим примером служит архив котировок Forex на ресурсе компании UMIS, находящемся по адресу: http://www.umis.ru/quotes_arch.

9. Исторические документы и рисунки.

Многие исторические документы присутствуют в Интернете лишь как изображения, отсканированные с оригинала. Но рисунки плохо распознаются поисковыми машинами. Как, например, Манифест об основании Русского исторического Общества 23 мая 1866 г. в Санкт-Петербурге с сайта http://www.russkymir.ru/out.php?cat=2.

10. Директории отдельных компаний.

Примером может служить сайт РАО ЕЭС http://www.rao-ees.ru/ru/ где есть ссылка на страницу «Сайты дочерних и зависимых обществ».

11. Экономическая информация.

Правительства и государственные учреждения содержат целую армию статистиков, которые проводят мониторинг экономической ситуации. Этому вопросу посвящен сайт Росстата, на котором собраны данные по темам: http://www.gks.ru/wps/portal/.

12. Предложения вакансий и резюме о работе.

Для поиска сотрудника или работы поисковые системы не особенно подходят: результаты, которые они при этом демонстрируют, не самые впечатляющие – как по релевантности, так и с точки зрения трудоемкости. В подобных случаях, к примеру, не лишне было бы обратиться к одной из многочисленных баз данных, которая находится на специальном ресурсе, посвященном поиску работы. Это могут быть http://www.superjob.ru/, http://megajob.ru/ или любой другой, подобный им региональнымй ресурс. Такие сайты обычно можно найти на сайтах городов или областей.

Например, поиску работы или вакансий посвящен сайт Самары http://www.63. ru/job/index.php.

13. Инструменты по переводу.

Онлайновые переводчики обеспечивают ценный сервис, когда переводят текст целых веб-страниц с языка, который вам незнаком. Такой переводчик, после ввода в специальное поле URL страницы, идет по указанному адресу, переводит весь текст на желаемый язык и показывает в браузере как динамически сгенерированный документ. Такой сервис предоставляется многими онлайновыми переводчиками, примером может служить переводчик «Babel Fish Translation» от поисковой машины AltaVista http://world.altavista.com/.

14. Данные о погоде.

Существует множество сайтов, специализирующихся на информации о погоде, одна из таких служб интегрирована в Яндекс и расположена по адресу: http://weather.yandex.ru/.

15. Галереи искусств.


Рис. 9. Просмотр картин на сайте Эрмитажа.

Многие галереи, начиная с крупнейших и заканчивая крошечными, все чаще и полнее оцифровывают свое собрание произведений и делают его доступным онлайн. Лучший способ увидеть экспонаты такого рода – это посетить ресурсы наподобие представительства Эрмитажа в Интернете (рис. 9), которое поддерживается при участии компании IBM: http://hermitage.museum.ru/.

Интересный и перспективный, на наш взгляд, эксперимент проводит на сайте Эрмитажа IBM. Там представлена система поиска изображений по цветовым фрагментам, расположенным в определенном месте полотна: http://hermitage. museum.ru/fcgi-bin/db2www/qbicSearch.mac/qbic?selLang=Russian.

Детальное описание этого инструмента приведено на сайте, и мы не будем на нем останавливаться, отметим лишь, что пользование этим поисковым инструментом IBM требует от человека изрядных художественных навыков.

Чего вообще обычно не бывает в Интернете

Интернет появился относительно недавно. Однако, несмотря на стремительное его развитие, далеко не все документы, созданные людьми, успели обрести оцифрованное обличие и попасть в Сеть. Каждый день эта ситуация улучшается, хотя, на наш взгляд, до решения проблемы еще далеко.

Основные виды информации, которую в Интернете нельзя найти в принципе, представлены ниже, в соответствии с классификацией Шермана и Прайса.

1. Некоторые базы данных и информационные сервисы, которые доступны на платной основе и не выкладываются владельцами в Интернет.

Ограничение доступа к этой категории сведений наиболее понятно. Закономерно, что базу данных Регистрационной палаты в Сети не найдешь. Она находится либо в самой Регистрационной палате, где и должна храниться, либо в том или ином виде продается на «черном рынке», чего, в принципе, быть не должно.

2. Многие государственные и общественные документы.

Концепция цифрового правительства провозглашена, однако оно до сих пор не появилось. Многие документы, которые возникли задолго до изобретения Интернета, никто и не думал переводить в цифровой формат и, соответственно, публиковать в Интернете. Наиболее сложной остается ситуация с региональными приказами некоторых ведомств. Так, приказ Роспотребнадзора Свердловской области по одному из важнейших для любого бизнеса вопросов был на момент написания книги недоступен в Сети в принципе, а раздел сайта Роспотребнадзора, в котором он, по идее, должен был храниться в открытом доступе, находился «в стадии разработки».

3. Аналитическая информация, которая продается за деньги.

Многие отчеты о маркетинговых исследованиях или полные тексты тренингов, проводимых известными специалистами, не попадают в Интернет потому, что авторы продают их непосредственно своим клиентам и сознательно препятствуют появлению этих материалов онлайн.

4. Полные тексты многих журналов и газет.

Не все материалы переведены «в цифру». Часть материалов остается непереведенной из-за того, что просто до них не дошли руки. Другая часть, особенно за рубежом – потому, что не всегда удается урегулировать авторские права по старым материалам. Есть еще техническая проблема – некоторые материалы на бумажных носителях требуют усилий и материальных затрат по восстановлению текста, поскольку документы физически изношены и трудночитаемы. Кроме того, некоторые архивы просто не сохранились, в силу ряда причин – как, например, часть архива «Комсомольской правды», уничтоженная во время пожара.

5. Печатный материал не попадал в Интернет потому, что никто из людей, владеющих методами его перевода в цифровой формат и последующего размещения в Сети, пока что этими текстами не заинтересовался.

Как говорится, руки не дошли. Ни у кого. И потребности не возникло оцифровывать тот или иной документ. Как следствие, найти его можно лишь в библиотеке, с помощью библиотечных каталогов.


    Ваша оценка произведения:

Популярные книги за неделю